Programme und Dateiformate verändern sich im Laufe der Zeit, sodass alte Dateien nicht mehr zuverlässig gelesen werden können. Dies erschwert die langfristige Nutzung digitaler Information.
Für die Veröffentlichung von Daten in den Repositorien der ETH Zürich ist ein langzeittaugliches Format keine Voraussetzung. Bitte beachten Sie jedoch, dass die zukünftige Nutzung durch problematische Formate massiv erschwert werden kann und benützen Sie möglichst Dateiformate in der linken und mittleren Spalte von Tabelle 1.
Dateisammlungen mit einer grösseren Anzahl Dateien oder mit Unterordnern sollen auf Windows Computern als unkomprimierte *.zip Datei und auf Mac Computern als *.tar Datei veröffentlicht werden. Unkomprimierte *.zip und *.tar Dateien sind gut standardisierte Formate, sodass sie langfristig entpackt werden können. Für die langfristige Nutzung ihrer Dateisammlung müssen jedoch auch die Dateiformate innerhalb dieser Container Dateien langfristig nutzbar sein. Die Überprüfung und Kuration der Inhalte von *.zip und *.tar Dateien ist uns nur beschränkt möglich.
Tabelle 1: Unsere Einschätzung zur zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate. (Für ausführlichere Informationen verweisen wir auf die Empfehlungen des Bundesarchivs, der KOST, des Vereins zur Erhaltung des audiovisuellen Kulturgutes der Schweiz Memoriav, des Forschungsdatenzentrums Archäologie & Altertumswissenschaften IANUS, der Library of Congress und der Harvard Library.) Empfohlen Nicht akzeptiert für Publikation, akzeptiert für Supplementary Materials: Video2 1PDF/A-3 erlaubt das Anhängen unterschiedlichster Dateiformate, auch wenn diese ihrerseits nicht archivtauglich sind. Deshalb beurteilen wir PDF/A-3 nur als «bedingt geeignet». Das ETH Data Archiv wird angehängte Dateien weder überprüfen noch kuratieren. 2Neben dem Dateiformat (bzw. Containerformat) spielen auch der verwendete Codec und die Kompressionsart eine wichtige Rolle. Weiterführende Informationen dazu gibt es bei Ianus, Memoriav und KOST. 3Das Format QuickTime Movie wurde in der Version vom 21. November 2018 des vorliegenden Dokumentes von „Empfohlen“ nach „Bedingt geeignet“ zurückgestuft. Apple stellte den Unterhalt für Windows QuickTime Player im Jahr 2016 ein. Windows Media Player unterstützt deshalb nur noch QuickTime Movie Dateiversionen 2.0 oder früher. Falls Sie Ihre Daten für höchstens zehn Jahre nutzen wollen, empfehlen wir die Formate in der mittleren und der linken Spalte von Tabelle 1. Auch weniger bekannte Formate, die in Ihrem Fachgebiet für diese Art von Daten üblich sind, sind normalerweise geeignet. Es sollten zudem folgende Punkte beachtet werden: Für eine Aufbewahrung von mehr als zehn Jahren können wir nur Dateiformate in der linken Kolonne von Tabelle 1 empfehlen, insbesondere PDF/A, ASCII Text und TIFF. Unter Umständen sind auch PNG, SVG und JPEG2000 geeignet. Dabei hängt die zukünftige Lesbarkeit einer Datei auch stark von den benutzten Formateigenschaften ab: Fortgeschrittene Möglichkeiten eines Formats, wie Video innerhalb einer PDF Datei, sind weniger langzeittauglich als die grundlegenden Möglichkeiten des Formats. Um Dateien für mehr als zehn Jahre zu nutzen, sollten die Dateiformate sehr verbreitet sein, möglichst offenen Standards folgen und nicht proprietär sein. Es gibt jedoch keine Gewähr für die langfristige Nutzung, weil diese von zukünftigen Softwareentwicklungen abhängt. Die ETH-Bibliothek wird die archivierten Dateiformate jährlich im Rahmen des Format Monitoring Reports überprüfen und veraltete Formate falls möglich in gebräuchlichere Formate konvertieren. Die Originaldatei wird dabei immer mit-archiviert. Empfohlene Konvertierungen sind in Tabelle 2 angegeben. Nützliche Konvertierungen hängen auch davon ab, welche Informationen in den Dateien benötigt werden. So könnten Sie die Tabellen in einem Excel File zu *.csv Text Files konvertieren. Falls jedoch Makros, Formeln oder eingebettete Objekte im Excel File vorhanden sind, verlieren Sie diese Informationen. Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen. Originaldatei und konvertierte Datei sollten dann archiviert werden. Gewisse neuere Filetypen (*.docx, *.xlsx, *.pptx) sind sogenannte Container Dateien. Wenn Sie die Dateinamenerweiterung „.zip“ anhängen, können Sie die einzelnen Komponenten ansehen und geeignete einfachere Dateien auch zusätzlich separat speichern. Tabelle 2: Empfohlene Dateikonvertierungen Die kostenfreie JAVA Applikation DROID erlaubt Ihnen für grosse Dateisammlungen einen Überblick über die benutzten Dateiformate. Zudem können sowohl unbekannte Formate als auch Inkonsistenzen zwischen Inhalt und Dateinamenerweiterung ermittelt werden (Abbildung 1). Die meisten Fileformate, ausser den Textdateien, enthalten in den Dateien spezielle Zeichenfolgen, um das Dateiformat anzugeben. Diese Zeichenfolgen werden auch Signatur genannt oder „magic numbers“. Falls DROID eine bekannte Signatur innerhalb einer Datei findet, so wird diese Methode benutzt um das Dateiformat zu bestimmen. Unter der Spalte „Method“ (siehe Figur 1) wird dann „Signature“ oder „Container“ angegeben. Falls die Signatur nicht mit der Dateinamenerweiterung übereinstimmt, zeigt DROID eine Warnung (gelbes Dreieck mit Ausrufezeichen). Reine Text Dateien (*.txt) oder auch Tabellen in Text-Format (*.csv Dateien) enthalten keine Signatur. DROID klassifiziert solche Dateien nur anhand der Dateinamenerweiterung. Falls keine Signatur gefunden wird und die Dateinamenerweiterung nicht auf ein Textfile hindeutet, wird die Datei nicht klassifiziert (die untersten beiden Dateien in der Abbildung 1). Die ETH-Bibliothek empfiehlt und konfiguriert für gewisse Kunden das Software Tool docuteam packer. Auch docuteam packer findet Dateien mit unklaren oder unbekannten Formaten und erstellt eine Liste analog zu derjenigen von DROID. Abbildung 1: Screenshot zur Auswertung einiger Testdateien mit dem Programm DROID. Dateien mit unklaren oder unbekannten Formaten können mit DROID schnell gefunden werden.Einschätzung verschiedener Dateiformate
Dateiart Bedingt geeignet Nicht geeignet Text Spreadsheets und Tabellen Rohdaten und Workspace Rastergrafik (Bitmap) Vektorgrafik CAD Ton, Audio Fussnoten
Bedingt geeignete Dateiformate
Empfohlene Dateiformate
Empfohlene Konvertierungsmethoden
Dateiart Empfohlene Konvertierungen Text Tabellen Workspace Dump in Matlab, R oder S-Plus Grafik Dateiformat-Verifikation mit DROID