Kundenanfrage

Hydrologische Zeitreihen aus dem 19. und 20. Jahrhundert sollen digitalisiert und automatisch ausgewertet werden. Historische Limnigramme (Ganglinien) sowie Tabellen und Protokolle sollen dazu gescannt werden. In einem zweiten Schritt sollen die Limnigramme mittels einer entsprechenden Software so verarbeitet werden, dass diskrete Werte aus den Ganglinien ausgelesen werden können. Hier stellt sich die Frage welche Datenformate bzw. welche Auflösung notwendig sind, damit die Ganglinien mit genügender Genauigkeit ausgelesen werden können. Aus unserer Sicht handelt es sich bei den Limnigrammen nicht nur um ein eingescanntes Bild, sondern um mehr. Es gibt z.B. auch handgeschriebene Zusatzinformationen auf den Bögen. Hier stellt sich die Frage, welche Datenformate für die eingescannten Limnigramme zweckdienlich sind. Unsere Recherchen haben folgende Resultate ergeben: 

  • RAW plus XMP Metadaten behalten bis Ende des Projekts 

Wenn Platz keine Rolle spielt:

  • TIFF erzeugen (Standardfarbraum verwenden) plus JPEG für Web

Wenn Platz eine Rolle spielt:   

  • Lossless JPEG2000 erzeugen (Standardfarbraum verwenden) plus JPEG für Web

Durch die Verwendung des Formates JPEG2000 kann der Speicherplatz voraussichtlich um den Faktor 2.5 reduziert werden. Aus verschiedenen Quellen wurden aber Bedenken bezüglich des Formates JPEG2000 gemeldet. Es geht hier vornehmlich um die Verbreitung des Formates sowie um das Thema Lizenzfreiheit.

Fragen:

  • Wie beurteilen Sie die Situation aus Ihrer Sicht?
  • Welche Formate verwenden Sie für solche Bild Dateien?

Antwort des ETH Data Archive

(Stand März 2017 - die Angaben werden nicht aktualisiert)

Unser DigiCenter hat viel Erfahrung mit dem Scannen von gedruckten Dokumenten und dem Herstellen sowie dem Auslesen (Texterkennung mittels OCR, Optical Character Recognition) von TIFF Files. Ich habe mich deshalb intern beim ETH Digicenter erkundigt.

Wir empfehlen das unkomprimierte baseline TIF Format. Es ist das am meisten verbreitete Bildformat für die Langzeiterhaltung und recht einfach aufgebaut. Die KOST (Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen) hat sich ausgiebig mit dem Format beschäftigt (mehr dazu finden Sie in ihrer TIFF-Studie) und Kriterien für die Langzeiterhaltung von TIFF Files erarbeitet. Wir benutzen z.T. diese Kriterien, um TIFF Files zu analysieren, weil es auch bei TIFF Files Varianten gibt, die nicht für die Langzeiterhaltung zu empfehlen sind. Als Standardfarbraum für die TIFFs würden wir eciRGB_v2 (mehr Informationen dazu finden Sie bei der European Color Initiative) oder Adobe RGB (1998) vorschlagen. Falls Sie weitere Informationen dazu wünschen, können Sie uns gerne ein Beispielfile zusenden.

Für die meisten Digitalisierungsprojekte sind die Speicherplatzkosten vertretbar, weil hochaufgelöste Bilder auf günstigeren Speicher ausgelagert werden können. Wenn sie komprimieren müssen, dann empfiehlt sich u. U. JPEG2000. Die KOST beurteilt die Zukunft von JPEG2000 positiv. Leider ist das Format nicht besonders verbreitet, sodass es z.B. das deutsche Forschungsdatenzentrum Archäologie und Altertumswissenschaften IANUS nur akzeptiert, aber nicht empfiehlt. JPEG2000 Kompression ist vor allem für Bilder geeignet. Um Text zu komprimieren, sollte man den JPEG2000 Unterstandard 15444-6 benutzen (*.jpm).  Ich vermute, dass man Limnigramme besser mit einem Textkomprimierungs-Algorithmus komprimieren würde als mit dem typischen Bildkompressions-Algorithmus von JPEG2000, weil Text und Limnigramme vor allem aus Linien bestehen. 

Wie sie erwähnen, könnte es beim JPEG2000 Probleme geben mit Patentrechten. Für JPEG2000, die online gestellt werden, sollte der sRGB-Farbraum gewählt werden.

Für die automatische Auswertung ist das Fileformat im Prinzip nicht wichtig, weil man mit Matlab und anderen Programmierumgebungen verschiedene Fileformate sehr einfach öffnen kann. Die Auflösung der Bilder und die Farbtiefe sind jedoch wichtig, weil eine bessere Qualität die Bildverarbeitung vereinfacht. Die nötige Auflösung der Files hängt von der Grösse der kleinsten Objekte ab (vermutlich der Liniendicke). Die genaue Identifikation der Linien auf den Grafen ist nicht ganz einfach. Um die Linien auf Grafen genau zu identifizieren, sollte es keine störenden Objekte derselben Farbe bei den Linien geben.

Das Projekt erinnert mich etwas an das Sonnenfleckenprojekt der ETH-Bibliothek. Dort sollen 28‘000 Blätter mit wertvollen Sonnenfleckendaten der ETH digitalisiert und automatisiert ausgewertet werden: https://blogs.ethz.ch/digital-collections/2013/09/27/100-jahre-sonnenflecken-auf-28000-blattern/

  • No labels