Autor Thema: Daten aus PDF Dokumenten extrahieren  (Gelesen 2033 mal)

Offline Ottmar

  • Aktives Mitglied
  • ***
  • Beiträge: 105
  • Geschlecht: Männlich
Daten aus PDF Dokumenten extrahieren
« am: 10.04.13 - 13:37:43 »
Hallo liebes Forum,

Ich benötige in Lotus Notes eine umfassende Schnittstelle zu PDF. Als Aufgaben sind unter anderem Lotus Notes E-Mails als PDF zu speichern, aber auch Daten aus angehängten PDF's zu extrahieren. Bei diesen PDFs handelt es sich um eingehende Rechnungen, bei denen die Rechnungsdaten eingelesen und in Notes Felder kopiert werden sollte, das Ganze natürlich am liebsten mit minimaler Fehlerquote, automatisiert, direkt auf dem Dominoserver.

Für das Erzeugen der PDF's könnte man (wie im Forum hier schon mehrfach berichtet) auf Drittanbietertools (PDF-Creator, FreePDF) zurückgreifen, wobei ich mir derzeit allerdings noch nicht sicher bin, ob das auch im Backend ("Ausdruck" über Serveragent) so einfach funtkioniert, denn Drucken ist doch eigentlich eine UI-Funktion.

Den Teil kriege ich aber wohl hin, auch wenn ich gerne "Tipps und Tricks" hierzu dankbar annehme.

Etwas ratlos stehe ich allerdings vor der Frage, wie ich aus eingehenden PDF's den Text auslesen soll. Leider habe ich dazu hier im Forum nichts brauchbares gefunden. Hat da jemand Erfahrungen? Kennt jemand vielleicht ein gutes Drittanbietertool, dass sich ggf. gut über Lotus Notes ansteuern lässt? Komme ich an die PDF-Texte über OLE ran?

Kann mir jemand auf die Sprünge helfen?
 
 

Offline koehlerbv

  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 20.460
  • Geschlecht: Männlich

Offline Thomas Schulte

  • @Notes Preisträger
  • Moderator
  • Gold Platin u.s.w. member:)
  • *****
  • Beiträge: 4.388
  • Geschlecht: Männlich
  • Ich glaub mich tritt ein Pferd
Re: Daten aus PDF Dokumenten extrahieren
« Antwort #2 am: 10.04.13 - 14:55:15 »
http://www.softvision.de/de/produkte/n2pdf.html
So sehr ich die Jungs von Softvision und deren Produkte schätze, ist das Teil doch "nur" für die Erzeugung von PDFs zuständig.

In die andere Richtung ....
http://www.transcom.de/transcom/de/tipps-tricks/acrobat/2001_pdf-in-text-konvertieren.htm bietet einen Überblick. Ist zwar von 2006 aber zum Beispiel
http://www.foolabs.com/xpdf/download.html
ist von 2011.
Thomas Schulte

Collaborative Project Portfolio and Project Management Software

"Aber wo wir jetzt einmal soweit gekommen sind, möchte ich noch nicht aufgeben. Versteh mich recht, aufgeben liegt mir irgendwie nicht."

J.R.R.Tolkien Herr der Ringe, Der Schicksalsberg

OpenNTF Project: !!HELP!! !!SYSTEM!!  !!DRIVER!!

Skype: thomasschulte-kulmbach

Offline klaus_s

  • Frischling
  • *
  • Beiträge: 11
Re: Daten aus PDF Dokumenten extrahieren
« Antwort #3 am: 10.04.13 - 20:44:46 »
Mails als PDF speichern: Eine kostengünstige Alternative zu n2pdf, welches wir bei uns auch  als Serverversion im Einsatz haben, könnte die Nutzung von MS-Word (ab 2007) sein, sofern die Konvertierung im User-Kontext erfolgen darf.
- Dokumenteninhalt aus dem Notes-Dokument über die Zwischenablage kopieren
- ein neues Word-Dokument öffnen
- Inhalt aus Zwischenablage in das Word-Dokument einfügen
- Word-Dokument als PDF speichern (auch als PDF/A möglich)
Ob das auch im Backend läuft....fraglich
Soll so etwas zuverlässig im Backend laufen, ist n2pdf absolut erste Wahl!

Einlesen von PDF-Dokumenten nach Notes:
Das hat bei uns nur zuverlässig funktioniert, wenn wir einen einheitlichen, speicherbaren PDF-Vordruck (Kosten!!!) zur Verfügung stellen. Hinter den PDF-Vordruck wird eine XML-Struktur gelegt. Die XML-Struktur kann dann ausgelesen und nach Notes importiert werden. Wir haben dies auf einigen PC-Arbeitsplätzen unter Nutzung von Adobe Acrobat Pro umsetzen können. Alle anderen Lösungsansätze waren nicht stabil.

Offline Nicole33

  • Frischling
  • *
  • Beiträge: 1
Re: Daten aus PDF Dokumenten extrahieren
« Antwort #4 am: 18.04.13 - 11:35:29 »
Unkompliziert gehts auch mit dem PDF-Xchange.
Nutze ich jedenfall immer dafür.

Auf http://www.pdf-xchange.de/pdf-xchange-pro/pdf-xchange-fragen-und-antworten.php mehr Infos.
« Letzte Änderung: 19.04.13 - 11:30:40 von Nicole33 »

y20frank

  • Gast
Re: Daten aus PDF Dokumenten extrahieren
« Antwort #5 am: 18.04.13 - 11:41:42 »
Zitat
...wie ich aus eingehenden PDF's den Text auslesen soll...
Da könnte dasTool "iText" (www.itextpdf.com) ggf. weiter helfen (Java). Damit kann man den Textlayer des PDFs komplett auslesen.
Bzgl. PDFCreator ==> http://atnotes.de/index.php/topic,45836.msg295363.html#msg295363
« Letzte Änderung: 18.04.13 - 11:43:20 von y20frank »

 

Impressum Atnotes.de  -  Powered by Syslords Solutions  -  Datenschutz