Sonstiges > Offtopic

Alle e-Mails im MIME-Format exportieren?

<< < (3/3)

DaWutz:
Off-Offtopic:


--- Zitat ---Vertiffung/verpdfung
--- Ende Zitat ---

Das erste kann ich ja noch aussprechen, aber dann?  ???  :-:  ???



 ;D  ;D  ;D

flaite:
Für mehr akustisch talentierte:
ver-PeDeEff-ung

TMC:

--- Zitat von: kennwort am 25.11.05 - 18:11:56 ---Wenn jemand eine notes to notes Mail erstellt, benutzen viele Leute allemöglichen RichText Features. Die Frage ob da nicht bei Mime-Konvertierung bestimmte Formatierungen verloren gehen.
Und bei Archivierung sollte es immer "dokument-echt" zugehen. Da verstehen viele Revisoren keinen Spaß.
(...)
Was ziemlich gut funktioniert ist, per pdf/tiff Druckertreiber die Mails als pdf/tiff auszudrucken.

--- Ende Zitat ---

Was bei Vertiffung (für die akustischen: Ver-TIFF-ung) verloren geht ist Texterkennung. Auch wenn es Tools gibt, die Bild-Dateien auslesen können, für vernünftiges OCR ist immer eine hohe Auflösung notwendig (ich glaube mind. 300dpi Graustufen mit mind. Schriftgröße 10 für einigermaßen vernünftige Ergebnisse). Das sollte also unbedingt berücksichtigt werden.
Von dem her erscheint .txt sinnvoll, das kann man immer durchsuchen und in 10 Jahren auch wieder in ein neues Format überführen. Bei PDF bin ich da auch skeptisch.
Kann man PDF vernünftig auslesen? Ist eine Wissenslücke bei mir, aber wenn Quelle Text ist sollte das irgendwie gehen, da man das ja auch markieren kann......

flaite:
PDF sind auf jeden Fall von aussen durchsuchbar. Google z.B. durchsucht ja PDFs. Und da ist auch einiges öffentlich spezifiziert.
In dem Archiv, mit dem ich jetzt arbeite, präferieren die  tiff.
Die brauchen die Suche nur über bestimmte Schlagwörter, die über eine xml-Deskriptionstatei ins Archivsystem gehen. Der Vorteil von einem globalen Archivsystem ist, dass dort unterschiedliche Anwendungen ihre Daten oder Dokumente reinstellen. Über die Indexierung mit der xml-Deskriptionsdatei, können dann Artefakte (?) aus unterschiedlichen Anwendungen z.B. zu einer Kundennummer gefunden werden. Die Schlagwörter in der xml-Datei sind jedoch dann die einzigen Informationen, die man über den Inhalt der Dokumente besitzt. In bestimmten Fällen reicht das aus. Wichtig ist, dass man zu einem Kunden historische Dokumente hat, die aus allen möglichen verschiedenen Anwendungen kommen.
Wir haben in einem anderen Projekt z.B. auch den Inhalt von bestimmten Notesfeldern (oder genauer: Textnodes von DXL Dateien) in die open Source Java Search Engine Lucene gegeben. So bleiben die archivierten Dokumente volltextindexiert. Nur eben nicht mehr über Notes-Volltextsuche. Hat aber auch wieder den Vorteil, dass man da Dokumente/Daten aus unterschiedlichen Systemen reinstellen kann. Später - als ich nicht mehr im Projekt war - haben die auf IBM Storage Manager (oder so ähnlich) gewechselt. Das hat vielleicht eine andere Volltextengine als Lucene. Die Schnittstelle in das Archivierungssystem und v.a. die Mechanismen sollten sich aber nicht großartig geändert haben.

Gandhi:
Aber was passiert dann mit den Header Informationen? Werden die separat ausgedruckt?

Navigation

[0] Themen-Index

[*] Vorherige Sete

Zur normalen Ansicht wechseln