Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse
Dominik Hetjens
Image Not Showing
Possible Reasons
The image file may be corrupted The server hosting the image is unavailable The image path is incorrect The image format is not supported
Learn More →
Robert Sachunsky
Image Not Showing
Possible Reasons
The image file may be corrupted The server hosting the image is unavailable The image path is incorrect The image format is not supported
Learn More →
Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken
Oktober 2021, Berlin
https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10
1 Kooperation SLK/TU Dresden ↔ SLUB
1.1 Projekte
Digital Herrnhut
Dissertationsprojekt Soldatenbriefe
neuer Masterstudiengang Digital Humanities
Kooperationsprojekt CliC
akademische Lehre
1 Kooperation SLK/TU Dresden ↔ SLUB
1.1 Projekte
1 Kooperation SLK/TU Dresden ↔ SLUB
1.2 Ziele
Endziel: Zugänglichkeit von Texten für Forschung und Öffentlichkeit
Digitalisierung gedruckter+geschriebener Vorlagen:
manuelle Transkription als Voraussetzung für bessere automatische Erfassung
automatische Erfassung als Voraussetzung für leichtere manuelle Transkription
1 Kooperation SLK/TU Dresden ↔ SLUB
1.3 (Überschneidung von) Aufgaben und Kompetenzen
Forschung+Lehre ↔ Infrastruktur
interinstitutionelle, interdisziplinäre Zusammenarbeit
beidseitige Mehrung und Vermittlung von methodischem Wissen
2 Interdisziplinarität und Terminologie
2.1 „Transkription“ und „Transliteration“
Alltagsgebrauch vs. Wissenschaft
lauttreu vs. buchstabentreu
(Bsp.: T. für fremde Alphabete)
Medienwechsel vs. Schrift(system)wechsel
(z.B. Papier→Computer, Tonaufnahme→Schrift, Alphabetschrift→Brailleschrift, phonetische/phonologische T. , Kurrent/Fraktur→Antiqua)
→ gemeinsamer Oberbegriff Transkription
→ unterschiedliche Definition, je nach Disziplin, Ausrichtung und Kontext
2 Interdisziplinarität und Terminologie
2.2 „Workflow“
als Ablauf manueller oder manuell auszulösender Schritte in Digitalisierung
(Transkriptions-Workflow)
als Konfiguration aller Schritte und Parameter in automatischer Texterkennung
(OCR-Workflow)
→ je nach Kontext!
2 Interdisziplinarität und Terminologie
2.3 Zweck der Transkription
OCR-Training (Ground-Truth)
Textkorpus / Digitaledition
Granularität
Blöcke+Zeilen, Koordinaten
Seiten, Fließtext
Genauigkeit
Richtigkeit, Konsistenz
Präzision, Tiefe
Priorität
Repräsentativität, „weniger ist mehr“
Vollständigkeit, „nichts darf fehlen“
→ These: beide Aufgaben können sich strategisch ergänzen
2 Interdisziplinarität und Terminologie
2.4 Zielgruppe
professionell
nicht professionell
Material/Domäne
Buch-, Sprach-, Literatur-, Geschichtswissenschaft
Interessierte aus der Öffentlichkeit
Werkzeug/Technik
IT
Endnutzung
→ These: nicht orthogonal – Synergien möglich
→ These: „Profi-Werkzeuge“ oft auch besser für nicht-professionelle Nutzung
2 Interdisziplinarität und Terminologie
2.5 Technologisches Paradigma
offen
geschlossen
Lizenz
Freie Software, Standard-Schnittstellen/Datenformate
kommerzielle Dienste, Programme ohne Quellen
Integration
föderierte Systeme
integrierte Systeme (All-in-One)
Daten
Hoheit über Modelle und Daten
nur Nachnutzung, „Bezahlen mit Daten“
Betrieb
dezentral/Eigen-
zentral/Dienst
→ These: Offenheit begünstigt Flexibilität, Nachhaltigkeit und Reproduzierbarkeit
2 Interdisziplinarität und Terminologie
2.6 weitere Begriffe
Betreiber vs. Betreuer vs. Nutzer / „Annotator“ / „Transkriptor“?
Transkription vs. Annotation :
Transkription i. e. S.: rein textueller Anteil
(ohne Struktur oder Auszeichnung)
Transkription i. w. S.: = Annotation
3 Technologische Grundlagen
3.1 Werkzeuge
3 Technologische Grundlagen
3.2 Gesamtablauf GT-Erstellung
optimierter OCR-Workflow als automatische Vorverarbeitung :
Bildvorverarbeitung: Binarisierung, Deskewing, Dewarping
Seiten- und Zeilensegmentierung (OLR)
Zeichenerkennung (OCR)
→ Ergebnis: 1 PAGE-XML- file
pro Seite, 1 METS-XML- fileGrp
pro Schritt
partielle Editierung für manuelle Nachkorrektur
Nachtrainierung OCR-Modell mit neuen Daten
Wiederholung ab 1.3. auf unbearbeiteten Seiten mit neuem Modell
Vervollständigung, Export / TEI-Konvertierung
3 Technologische Grundlagen
3.3 Beispiel Bildvorverarbeitung
3 Technologische Grundlagen
3.4 Beispiel Segmentierung(skorrektur)
3 Technologische Grundlagen
3.5 Beispiel Transkription
3 Technologische Grundlagen
3.5 Beispiel Transkription
3 Technologische Grundlagen
3.6 OCR-Training
Pretraining auf großen ähnlichen GT-Datensätzen aus READ:
Finetuning auf eigenen Daten:
Validierung der korrigierten Transkriptionen
Extraktion von Bild-Text-Paaren für Textzeilen
3 Technologische Grundlagen
3.7 Ausgangslage bei Handschrift
Qualität für Zeilenerkennung bereits ausreichend (Kraken mit blla-Modellen)
Qualität für Zeichenerkennung aktuell noch nicht :
keine Standardmodelle für Kurrent
vglw. wenig frei verfügbare Trainingsdaten
→ sukzessive eigene Daten sammeln (und möglichst publizieren)
→ sobald Modelle gut genug: nur noch als Nachkorrektur
4 Workflows
4 Workflows
4 Workflows
4 Workflows
4 Workflows
Aufwertung von existierendem Seiten-GT zu Zeilen-GT
bisherige Transkriptionsprojekte oft nur auf Seitenebene
→ d.h. viele Korpora ohne Zuordnung auf Zeilenebene
Zeilen-GT jedoch unerläßlich für OCR-Training
Idee: semiautomatische Zuordnung durch
Seitenbild in automatische Texterkennung geben
→ Resultat: Zeilen-Koordinaten + Zeilen-OCR
→ Qualitätsanforderungen:
für Zeilenerkennung: hoch
für Zeichenerkennung: moderat
Seitentext den OCR-Textzeilen per Alignierung automatisch zuordnen
Paare mit hoher Konfidenz als Trainingsdaten behalten
Sichtung und manuelle Nachkorrektur
z.B. implementiert in Transkribus t2i
5 Zusammenfassung
quantitative Methoden für Geisteswissenschaften:
reziproke Verstärkung von…
neuen Ansprüchen der Forschung durch neue technische Möglichkeiten
(Distant Reading, Verfügbarkeit, empirische Breite)
neuen Anforderungen der Infrastruktur durch neues technisches Paradigma
(datengetriebene Verfahren brauchen Daten)
datengetriebene maschinelle Lernverfahren (bes. Deep Learning ):
prinzipiell-universelle Lösung, aber abhängig von Trainingsdaten (digitalen Texten) in (früher nicht vorhandener) ausreichender Menge und Qualität
bei Handschrift liegen offene OCR-Systeme aktuell noch zurück
Strategie: gezielte Transkription für Lückenschluß bei GT/Modellbildung, Nachnutzung von Forschungsdaten/Editionen
Taktik: Synergie v.a. durch Teilautomatisierung der Transkription/Analyse und umgekehrt Weiterentwicklung der Werkzeuge/Modelle
Bootstrap-Effekt bei semiautomatischer Alignierung von Seiten-GT
6 Offene Fragen
detaillierte Transkriptionsrichtlinien für Handschrift
freier Ground-Truth für HTR
Übertragbarkeit von Modellen ↔
Gruppierung von Daten nach Schrift, Hand, Schreibmittel, Material
optimales Trainingsregime, Daten-Augmentierung
optimale Verteilung von Kompetenzen
optimale Vermittlung von Wissen
Resume presentation
Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse Dominik Hetjens Robert Sachunsky Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken Oktober 2021, Berlin https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10
{"metaMigratedAt":"2023-06-16T12:59:34.243Z","metaMigratedFrom":"YAML","title":"Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse","breaks":true,"description":"Foliensatz Beitrag TUD/SLUB 28.10.2021","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":16069,\"del\":2265},{\"id\":\"2b2c1436-646b-4847-95ef-686f250a0d11\",\"add\":1063,\"del\":423}]"}