Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse

Dominik Hetjens     tud-logo

Robert Sachunsky   slub-logo

Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken

  1. Oktober 2021, Berlin

https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10


  1. Kooperation SLK/TU Dresden ↔ SLUB
  2. Interdisziplinarität und Terminologie
  3. Technologische Grundlagen
  4. Workflows
  5. Zusammenfassung
  6. Offene Fragen

1 Kooperation SLK/TU Dresden ↔ SLUB

1.1 Projekte

  • Digital Herrnhut
  • Dissertationsprojekt Soldatenbriefe
  • neuer Masterstudiengang Digital Humanities
  • Kooperationsprojekt CliC
  • akademische Lehre

1 Kooperation SLK/TU Dresden ↔ SLUB

1.1 Projekte


1 Kooperation SLK/TU Dresden ↔ SLUB

1.2 Ziele

  • Endziel: Zugänglichkeit von Texten für Forschung und Öffentlichkeit
  • Digitalisierung gedruckter+geschriebener Vorlagen:
    • manuelle Transkription als Voraussetzung für bessere automatische Erfassung
    • automatische Erfassung als Voraussetzung für leichtere manuelle Transkription

1 Kooperation SLK/TU Dresden ↔ SLUB

1.3 (Überschneidung von) Aufgaben und Kompetenzen

  • Forschung+Lehre ↔ Infrastruktur
  • interinstitutionelle, interdisziplinäre Zusammenarbeit
  • beidseitige Mehrung und Vermittlung von methodischem Wissen

2 Interdisziplinarität und Terminologie

2.1 „Transkription“ und „Transliteration“

  • Alltagsgebrauch vs. Wissenschaft
  • lauttreu vs. buchstabentreu
    (Bsp.: T. für fremde Alphabete)
  • Medienwechsel vs. Schrift(system)wechsel
    (z.B. Papier→Computer, Tonaufnahme→Schrift, Alphabetschrift→Brailleschrift, phonetische/phonologische T., Kurrent/Fraktur→Antiqua)

→ gemeinsamer Oberbegriff Transkription
→ unterschiedliche Definition, je nach Disziplin, Ausrichtung und Kontext


2 Interdisziplinarität und Terminologie

2.2 „Workflow“

  • als Ablauf manueller oder manuell auszulösender Schritte in Digitalisierung
    (Transkriptions-Workflow)
  • als Konfiguration aller Schritte und Parameter in automatischer Texterkennung
    (OCR-Workflow)

→ je nach Kontext!


2 Interdisziplinarität und Terminologie

2.3 Zweck der Transkription

OCR-Training (Ground-Truth) Textkorpus / Digitaledition
Granularität Blöcke+Zeilen, Koordinaten Seiten, Fließtext
Genauigkeit Richtigkeit, Konsistenz Präzision, Tiefe
Priorität Repräsentativität, „weniger ist mehr“ Vollständigkeit, „nichts darf fehlen“

→ These: beide Aufgaben können sich strategisch ergänzen


2 Interdisziplinarität und Terminologie

2.4 Zielgruppe

professionell nicht professionell
Material/Domäne Buch-, Sprach-, Literatur-, Geschichtswissenschaft Interessierte aus der Öffentlichkeit
Werkzeug/Technik IT Endnutzung

→ These: nicht orthogonal – Synergien möglich
→ These: „Profi-Werkzeuge“ oft auch besser für nicht-professionelle Nutzung


2 Interdisziplinarität und Terminologie

2.5 Technologisches Paradigma

offen geschlossen
Lizenz Freie Software, Standard-Schnittstellen/Datenformate kommerzielle Dienste, Programme ohne Quellen
Integration föderierte Systeme integrierte Systeme (All-in-One)
Daten Hoheit über Modelle und Daten nur Nachnutzung, „Bezahlen mit Daten“
Betrieb dezentral/Eigen- zentral/Dienst

→ These: Offenheit begünstigt Flexibilität, Nachhaltigkeit und Reproduzierbarkeit


2 Interdisziplinarität und Terminologie

2.6 weitere Begriffe

  • Betreiber vs. Betreuer vs. Nutzer / „Annotator“ / „Transkriptor“?
  • Transkription vs. Annotation:
    • Transkription i. e. S.: rein textueller Anteil
      (ohne Struktur oder Auszeichnung)
    • Transkription i. w. S.: = Annotation

3 Technologische Grundlagen

3.1 Werkzeuge


3 Technologische Grundlagen

3.2 Gesamtablauf GT-Erstellung

  1. optimierter OCR-Workflow als automatische Vorverarbeitung:

    1. Bildvorverarbeitung: Binarisierung, Deskewing, Dewarping
    2. Seiten- und Zeilensegmentierung (OLR)
    3. Zeichenerkennung (OCR)

    → Ergebnis: 1 PAGE-XML-file pro Seite, 1 METS-XML-fileGrp pro Schritt

  2. partielle Editierung für manuelle Nachkorrektur

  3. Nachtrainierung OCR-Modell mit neuen Daten

  4. Wiederholung ab 1.3. auf unbearbeiteten Seiten mit neuem Modell

  5. Vervollständigung, Export / TEI-Konvertierung


3 Technologische Grundlagen

3.3 Beispiel Bildvorverarbeitung


3 Technologische Grundlagen

3.4 Beispiel Segmentierung(skorrektur)


3 Technologische Grundlagen

3.5 Beispiel Transkription


3 Technologische Grundlagen

3.5 Beispiel Transkription


3 Technologische Grundlagen

3.6 OCR-Training

  1. Pretraining auf großen ähnlichen GT-Datensätzen aus READ:

  2. Finetuning auf eigenen Daten:

    • Validierung der korrigierten Transkriptionen
    • Extraktion von Bild-Text-Paaren für Textzeilen

3 Technologische Grundlagen

3.7 Ausgangslage bei Handschrift

  • Qualität für Zeilenerkennung bereits ausreichend (Kraken mit blla-Modellen)
  • Qualität für Zeichenerkennung aktuell noch nicht:
    • keine Standardmodelle für Kurrent
    • vglw. wenig frei verfügbare Trainingsdaten

→ sukzessive eigene Daten sammeln (und möglichst publizieren)
→ sobald Modelle gut genug: nur noch als Nachkorrektur


4 Workflows


4 Workflows


4 Workflows


4 Workflows


4 Workflows

Aufwertung von existierendem Seiten-GT zu Zeilen-GT

  • bisherige Transkriptionsprojekte oft nur auf Seitenebene
    → d.h. viele Korpora ohne Zuordnung auf Zeilenebene
  • Zeilen-GT jedoch unerläßlich für OCR-Training
  • Idee: semiautomatische Zuordnung durch
    1. Seitenbild in automatische Texterkennung geben
      → Resultat: Zeilen-Koordinaten + Zeilen-OCR
      → Qualitätsanforderungen:
      • für Zeilenerkennung: hoch
      • für Zeichenerkennung: moderat
    2. Seitentext den OCR-Textzeilen per Alignierung automatisch zuordnen
    3. Paare mit hoher Konfidenz als Trainingsdaten behalten
    4. Sichtung und manuelle Nachkorrektur
  • z.B. implementiert in Transkribus t2i

5 Zusammenfassung

  1. quantitative Methoden für Geisteswissenschaften:
    reziproke Verstärkung von…
    • neuen Ansprüchen der Forschung durch neue technische Möglichkeiten
      (Distant Reading, Verfügbarkeit, empirische Breite)
    • neuen Anforderungen der Infrastruktur durch neues technisches Paradigma
      (datengetriebene Verfahren brauchen Daten)
  2. datengetriebene maschinelle Lernverfahren (bes. Deep Learning):
    prinzipiell-universelle Lösung, aber abhängig von Trainingsdaten (digitalen Texten) in (früher nicht vorhandener) ausreichender Menge und Qualität
  3. bei Handschrift liegen offene OCR-Systeme aktuell noch zurück
  4. Strategie: gezielte Transkription für Lückenschluß bei GT/Modellbildung, Nachnutzung von Forschungsdaten/Editionen
  5. Taktik: Synergie v.a. durch Teilautomatisierung der Transkription/Analyse und umgekehrt Weiterentwicklung der Werkzeuge/Modelle
  1. Bootstrap-Effekt bei semiautomatischer Alignierung von Seiten-GT

6 Offene Fragen

  • detaillierte Transkriptionsrichtlinien für Handschrift
  • freier Ground-Truth für HTR
  • Übertragbarkeit von Modellen ↔
    Gruppierung von Daten nach Schrift, Hand, Schreibmittel, Material
  • optimales Trainingsregime, Daten-Augmentierung
  • optimale Verteilung von Kompetenzen
  • optimale Vermittlung von Wissen
Select a repo