<style> /* reduce from default 48px: */ .reveal { font-size: 24px; text-align: left; } .reveal .slides { text-align: left; } .reveal h1 { font-size: 2.2em; } .reveal ul, .reveal ol, .reveal dl { padding-left: 0; } /* margin in lists should not depend on presense of empty lines anywhere */ .reveal li p { margin: 0; } /* change from default gray-on-black: */ .hljs { color: #005; background: #fff; } /* prevent invisible fragments from occupying space: */ .fragment.visible:not(.current-fragment) { display: none; height:0px; line-height: 0px; font-size: 0px; } /* increase font size in diagrams: */ .label { font-size: 24px; font-weight: bold; } /* increase maximum width of code blocks: */ .reveal pre code { max-width: 1000px; max-height: 1000px; } /* remove black border from images: */ .reveal section img { border: 0; box-shadow: none; } </style> # Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse ## Dominik Hetjens &nbsp;&nbsp;&nbsp;&nbsp;![tud-logo](https://tu-dresden.de/++theme++tud.theme.webcms2/img/tud-logo.svg =200x) ## Robert Sachunsky &nbsp;&nbsp;![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) _Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken_ 28. Oktober 2021, Berlin https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10 <!-- Fakultät Sprach-, Literatur- und Kulturwissenschaften, TU Dresden --> <!-- Sächsische Landesbibliothek – Staats- und Universitätsbibliothek --> --- <!-- Gliederung --> 1. [Kooperation SLK/TU Dresden ↔ SLUB](#Kooperation-LKSTUD-%E2%86%94-SLUB1) 1. [Interdisziplinarität und Terminologie](#Interdisziplinarit%C3%A4t-und-Terminologie) 1. [Technologische Grundlagen](#Technologische-Grundlagen) 1. [Workflows](#Workflows) 1. [Zusammenfassung](#Zusammenfassung) 1. [Offene Fragen](#Offene-Fragen) --- <!-- Wer sind wir? Was wollen wir (ungefähr)? --> ## 1 Kooperation SLK/TU Dresden ↔ SLUB ### 1.1 Projekte <!-- jeweils ein paar Stichworte... --> - _Digital Herrnhut_ - Dissertationsprojekt Soldatenbriefe - neuer Masterstudiengang _Digital Humanities_ - Kooperationsprojekt _CliC_ - akademische Lehre --- ## 1 Kooperation SLK/TU Dresden ↔ SLUB ### 1.1 Projekte ![](https://i.imgur.com/hj1sDhB.jpg) <!---Bild Herrnhut Mission --> ---- ## 1 Kooperation SLK/TU Dresden ↔ SLUB ### 1.2 Ziele - Endziel: __Zugänglichkeit von Texten__ für Forschung und Öffentlichkeit - Digitalisierung gedruckter+geschriebener Vorlagen: - manuelle Transkription als Voraussetzung für bessere automatische Erfassung - automatische Erfassung als Voraussetzung für leichtere manuelle Transkription <!-- "leichter": mehr+genauer pro Stunde --> <!-- Feedback-Schleife, sukzessive Erhöhung Qualität+Quantität --> ---- ## 1 Kooperation SLK/TU Dresden ↔ SLUB ### 1.3 (Überschneidung von) Aufgaben und Kompetenzen - Forschung+Lehre ↔ Infrastruktur - __interinstitutionelle, interdisziplinäre Zusammenarbeit__ - beidseitige Mehrung und Vermittlung von methodischem Wissen <!-- Synergieeffekte --> <!-- dauerhafte Kooperation --> <!-- Hochschule vs. Schule+Bürgerwissenschaft vs. Bibliothek --> --- <!-- Aufhänger: Was tun wir eigentlich? Wer sagt das? --> ## 2 Interdisziplinarität und Terminologie ### 2.1 „Transkription“ und „Transliteration“ - Alltagsgebrauch vs. Wissenschaft - lauttreu vs. buchstabentreu (Bsp.: T. für fremde Alphabete) <!-- Kyrillisch: Steinitz/Duden vs. GOST/LC; Hebräisch ... --> <!-- Fraktur→Antiqua ohne ſ oder mit ſ und ß oder gar mit ſz oder gar ſz-Ligatur --> - Medienwechsel vs. Schrift(system)wechsel (z.B. Papier→Computer, Tonaufnahme→Schrift, Alphabetschrift→Brailleschrift, phonetische/phonologische T.<!-- IPA vs. SAMPA -->, Kurrent/Fraktur→Antiqua) → gemeinsamer Oberbegriff _Transkription_ → unterschiedliche Definition, je nach Disziplin, Ausrichtung und Kontext ---- <!-- Aufhänger: Was tun wir eigentlich? Wer sagt das? --> ## 2 Interdisziplinarität und Terminologie ### 2.2 „Workflow“ - als Ablauf _manueller_ oder manuell auszulösender Schritte in Digitalisierung (Transkriptions-Workflow) - als Konfiguration aller Schritte und Parameter in _automatischer_ Texterkennung <!-- vollautomatisch --> (OCR-Workflow) → je nach Kontext! ---- <!-- weitere begriffliche Unterscheidungen: unvermeidlich bei Interdisziplinarität --> ## 2 Interdisziplinarität und Terminologie ### 2.3 Zweck der Transkription | | **OCR-Training (Ground-Truth)** | **Textkorpus / Digitaledition** | | --- | --- | --- | | **Granularität** | Blöcke+Zeilen, Koordinaten | Seiten, Fließtext | | **Genauigkeit** | Richtigkeit, Konsistenz | Präzision, Tiefe | | **Priorität** | Repräsentativität, „weniger ist mehr“ | Vollständigkeit, „nichts darf fehlen“ | <!-- evtl. auch auf Transkriptionslevel eingehen, v.a. GTL-1 (Websuche) / GTL-2 (OCR) / GTL-3 (MUFI etc) --> → These: beide Aufgaben können sich strategisch ergänzen <!-- GT kann aber auch Vorstufe sein! --> ---- ## 2 Interdisziplinarität und Terminologie ### 2.4 Zielgruppe <!-- Fachwissen, Fertigkeiten – je nach Rolle --> | | **professionell** | **nicht professionell** | | --- | --- | --- | | **Material/Domäne** | Buch-, Sprach-, Literatur-, Geschichtswissenschaft | Interessierte aus der Öffentlichkeit| | **Werkzeug/Technik** | IT | Endnutzung | <!-- nicht-technischer Nutzer --> <!-- vielleicht auch: intern/zugeteilt vs. öffentlich/partizipatorisch --> → These: nicht orthogonal – Synergien möglich <!-- Überschneidungen, Workflows! --> → These: „Profi-Werkzeuge“ oft auch besser für nicht-professionelle Nutzung ---- ## 2 Interdisziplinarität und Terminologie ### 2.5 Technologisches Paradigma | | **offen** | **geschlossen** | | --- | --- | --- | | **Lizenz** | Freie Software, Standard-Schnittstellen/Datenformate | kommerzielle Dienste, Programme ohne Quellen | | **Integration** | föderierte Systeme <!-- skalierbar, flexibel, erweiterbar --> | integrierte Systeme (All-in-One) <!-- bequem, niedrigschwellig --> | | **Daten** | Hoheit über Modelle und Daten | nur Nachnutzung, „Bezahlen mit Daten“ | | **Betrieb** | dezentral/Eigen- | zentral/Dienst | <!-- | **Kosten** | Betrieb, Pflege, (Kaufpreis) | (Kaufpreis), Gebühren, Daten | --> <!-- Aspekte sind nicht orthogonal! z.B. Bezahlsoftware mit Eigeninstallation --> → These: Offenheit begünstigt Flexibilität, Nachhaltigkeit und Reproduzierbarkeit ---- ## 2 Interdisziplinarität und Terminologie ### 2.6 weitere Begriffe * Betreiber vs. Betreuer vs. **Nutzer** / „Annotator“ <!-- inter-annotator agreement --> / „Transkriptor“? * Transkription vs. **Annotation**: - Transkription i. e. S.: rein textueller Anteil (ohne Struktur oder Auszeichnung) - Transkription i. w. S.: = Annotation --- ## 3 Technologische Grundlagen ### 3.1 Werkzeuge - Entscheidung für Offenheit: [OCR-D](https://ocr-d.de) <!-- föderiertes System, Framework für Open-Source-OCR --> und weitere Werkzeuge für offene Standards [PAGE-XML](https://github.com/PRImA-Research-Lab/PAGE-XML), [ALTO-XML](https://github.com/altoxml/schema), [METS-XML](http://www.loc.gov/standards/mets) - insbes.: * für Texterkennung: [Kraken](https://kraken.re) (Zeilenerkennung) und [Tesseract](https://tesseract-ocr.github.io/) (Zeichenerkennung) * für Annotation: [LAREX](https://github.com/OCR4all/LAREX/) und [Aletheia](http://www.primaresearch.org/tools/Aletheia/Editions) ---- ## 3 Technologische Grundlagen ### 3.2 Gesamtablauf GT-Erstellung 1. optimierter OCR-Workflow als **automatische Vorverarbeitung**: 1. Bildvorverarbeitung: Binarisierung, Deskewing, Dewarping 2. Seiten- und Zeilensegmentierung (OLR) 3. Zeichenerkennung (OCR) → Ergebnis: 1 PAGE-XML-`file` pro Seite, 1 METS-XML-`fileGrp` pro Schritt 2. partielle Editierung für **manuelle Nachkorrektur** 3. **Nachtrainierung** OCR-Modell mit neuen Daten 4. **Wiederholung** ab 1.3. auf unbearbeiteten Seiten mit neuem Modell <!-- iterativ --> 5. Vervollständigung, Export / TEI-Konvertierung ---- ## 3 Technologische Grundlagen ### 3.3 Beispiel Bildvorverarbeitung <table><tr><td> <!-- Originalbild: --> ![](https://i.imgur.com/qTKC216.jpg =400x) </td><td> <!-- Binarisierung: --> ![](https://i.imgur.com/p64yaKw.png =400x) </td></tr></table> ---- ## 3 Technologische Grundlagen ### 3.4 Beispiel Segmentierung(skorrektur) <!-- Bildausschnitt Segmentierung: --> ![](https://i.imgur.com/0IFeFhY.png) <!-- Vollansicht Segmentierung: ![](https://i.imgur.com/oFnA56Z.jpg) --> ---- ## 3 Technologische Grundlagen ### 3.5 Beispiel Transkription <!-- Vollansicht Textkorrektur binarisiert: --> ![](https://i.imgur.com/hsxYbpM.png) ---- ## 3 Technologische Grundlagen ### 3.5 Beispiel Transkription <!-- Bildausschnitt Textkorrektur Zeilenansicht: ![](https://i.imgur.com/ngq4o9b.png) --> <!-- Bildausschnitt Textkorrektur Seitenansicht oben: --> ![](https://i.imgur.com/maFrRZZ.png =600x) <!-- Bildausschnitt Textkorrektur Seitenansicht Rest: --> ![](https://i.imgur.com/8LrhBfT.png =630x) ---- ## 3 Technologische Grundlagen ### 3.6 OCR-Training 1. Pretraining auf großen ähnlichen GT-Datensätzen aus READ: * [Konzilsprotokolle Greifswald](https://zenodo.org/record/215383#.YJFuPHVfjDs) ![](https://camo.githubusercontent.com/06493331adfcac6c297a8cd048fcb77742088085c31cf7c5046c4c17c06d4bbc/68747470733a2f2f66696c65732e6769747465722e696d2f77727a6e722f744153492f4f43522d442d494d472d4445535045434b5f303030355f72315f72316c32362e706e67 =500x) * [~~Ratsprotokolle Bozen~~](https://zenodo.org/record/218236#.YXNIKFlfgUF) ![](https://i.imgur.com/uJy6LDZ.png =300x) 2. Finetuning auf eigenen Daten: - Validierung der korrigierten Transkriptionen <!-- Richtlinien --> - Extraktion von Bild-Text-Paaren für Textzeilen <!-- Screenshot --> ![](https://i.imgur.com/4W9ja6O.png =500x) ---- ## 3 Technologische Grundlagen ### 3.7 Ausgangslage bei Handschrift - Qualität für Zeilenerkennung bereits ausreichend (Kraken mit blla-Modellen) <!-- neuronal / Deep Learning --> - Qualität für Zeichenerkennung aktuell **noch nicht**: - keine Standardmodelle für Kurrent - vglw. wenig frei verfügbare Trainingsdaten <!-- OCR-D hat Fokus auf Drucke --> <!-- Transkibus explizit erwähnen? --> → sukzessive eigene Daten sammeln (und möglichst publizieren) → sobald Modelle gut genug: nur noch als **Nachkorrektur** --- ## 4 Workflows <!-- Transkriptions-Workflows --> <!-- hier alle Varianten/Teile von Ideen für Lehre zeigen (Gruppenarbeit mit a/synchronen Teilaufgaben Vorbereitung+Eingabe+Korrektur) --> <!-- evtl. auf Richtlinien und deren Durchsetzung eingehen --> <!-- Hier Bild von gesamtem Workflow --> ![](https://i.imgur.com/ueXbCon.png =1100x) ---- ## 4 Workflows ![](https://i.imgur.com/317wV5g.png =1100x) <!-- Bild Korrekturschleife --> ---- ## 4 Workflows ![](https://i.imgur.com/aL4A8Z6.png =1100x) <!-- Bild Podcast --> ---- ## 4 Workflows ![](https://i.imgur.com/XTPupnf.png =1100x) <!-- Bild arbeitsteilige Gruppenarbeit --> ---- ## 4 Workflows ### Aufwertung von existierendem Seiten-GT zu Zeilen-GT <!-- diese Folie ist eventuell zuviel – überspringen? nach hinten schieben? --> - bisherige Transkriptionsprojekte oft nur auf <!-- Granularität --> **Seitenebene** → d.h. viele Korpora <!-- entweder ganz ohne Zuordnung zu Bilddaten (Scan/Photo), oder zumindest --> ohne Zuordnung auf **Zeilenebene** - Zeilen-GT jedoch unerläßlich für OCR-Training - Idee: semiautomatische Zuordnung durch 1. Seitenbild in automatische Texterkennung geben → Resultat: Zeilen-Koordinaten + Zeilen-OCR → Qualitätsanforderungen: * für Zeilenerkennung: hoch * für Zeichenerkennung: moderat 1. Seitentext den OCR-Textzeilen per Alignierung automatisch zuordnen <!-- (String-Editdistanz / Fuzzy-Matching und Heuristiken) --> 1. Paare mit hoher Konfidenz als Trainingsdaten behalten 1. Sichtung und manuelle Nachkorrektur - z.B. implementiert in Transkribus [t2i](https://readcoop.eu/transkribus/howto/how-to-use-existing-transcriptions-to-train-a-handwritten-text-recognition-model/) <!-- sowie immer wieder im DTA --> --- ## 5 Zusammenfassung <!-- eventuell auf mehrere Aspekte und Folien aufteilen --> 1. quantitative Methoden für Geisteswissenschaften: reziproke Verstärkung von… - neuen Ansprüchen der Forschung durch neue technische Möglichkeiten (Distant Reading, Verfügbarkeit, empirische Breite) - neuen Anforderungen der Infrastruktur durch neues technisches Paradigma (datengetriebene Verfahren brauchen Daten) <!--Sind neue Ansprüche AN... gemeint? Nein: die geistesw. Forschung stellt neue Ansprüche aufgrund gewachsener Möglichkeiten--> 2. datengetriebene maschinelle Lernverfahren (bes. _Deep Learning_): prinzipiell-universelle Lösung, aber abhängig von Trainingsdaten (digitalen Texten) in (früher nicht vorhandener) ausreichender Menge und Qualität 3. bei Handschrift liegen offene OCR-Systeme aktuell noch zurück <!-- Transkibus explizit erwähnen? --> 4. Strategie: gezielte Transkription für Lückenschluß bei GT/Modellbildung, Nachnutzung von Forschungsdaten/Editionen 5. Taktik: Synergie v.a. durch Teilautomatisierung der Transkription/Analyse und umgekehrt Weiterentwicklung der Werkzeuge/Modelle <!-- iterativer Ansatz, "Baron Münchhausen", "Bootstrap-Effekt" --> <!-- wachsende Genauigkeit reduziert manuellen Aufwand (Quantität), findet manuelle Fehler (Qualität) --> 6. Bootstrap-Effekt bei semiautomatischer Alignierung von Seiten-GT <!-- oder hier nicht nochmal? --> --- ## 6 Offene Fragen - detaillierte Transkriptionsrichtlinien für Handschrift <!-- DFG-Digitalisierung zu ungenau, OCR-D zu druckspezifisch? --> - freier Ground-Truth für HTR <!-- also außerhalb Transkribus --> - Übertragbarkeit von Modellen ↔ Gruppierung von Daten nach Schrift, Hand, Schreibmittel, Material <!-- welche Handschriften sind graphologisch und materialisch zugehörig? --> - optimales Trainingsregime, Daten-Augmentierung <!-- auch Mischung mit synthetischem GT --> - optimale Verteilung von Kompetenzen - optimale Vermittlung von Wissen <!-- ... -->
{"metaMigratedAt":"2023-06-16T12:59:34.243Z","metaMigratedFrom":"YAML","title":"Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse","breaks":true,"description":"Foliensatz Beitrag TUD/SLUB 28.10.2021","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":16069,\"del\":2265},{\"id\":\"2b2c1436-646b-4847-95ef-686f250a0d11\",\"add\":1063,\"del\":423}]"}
    957 views