<style>
/* reduce from default 48px: */
.reveal {
font-size: 24px;
text-align: left;
}
.reveal .slides {
text-align: left;
}
.reveal h1 {
font-size: 2.2em;
}
.reveal ul, .reveal ol, .reveal dl {
padding-left: 0;
}
/* margin in lists should not depend on presense of empty lines anywhere */
.reveal li p {
margin: 0;
}
/* change from default gray-on-black: */
.hljs {
color: #005;
background: #fff;
}
/* prevent invisible fragments from occupying space: */
.fragment.visible:not(.current-fragment) {
display: none;
height:0px;
line-height: 0px;
font-size: 0px;
}
/* increase font size in diagrams: */
.label {
font-size: 24px;
font-weight: bold;
}
/* increase maximum width of code blocks: */
.reveal pre code {
max-width: 1000px;
max-height: 1000px;
}
/* remove black border from images: */
.reveal section img {
border: 0;
box-shadow: none;
}
</style>
# Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse
## Dominik Hetjens 
## Robert Sachunsky 
_Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken_
28. Oktober 2021, Berlin
https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10
<!-- Fakultät Sprach-, Literatur- und Kulturwissenschaften, TU Dresden -->
<!-- Sächsische Landesbibliothek – Staats- und Universitätsbibliothek -->
---
<!-- Gliederung -->
1. [Kooperation SLK/TU Dresden ↔ SLUB](#Kooperation-LKSTUD-%E2%86%94-SLUB1)
1. [Interdisziplinarität und Terminologie](#Interdisziplinarit%C3%A4t-und-Terminologie)
1. [Technologische Grundlagen](#Technologische-Grundlagen)
1. [Workflows](#Workflows)
1. [Zusammenfassung](#Zusammenfassung)
1. [Offene Fragen](#Offene-Fragen)
---
<!-- Wer sind wir? Was wollen wir (ungefähr)? -->
## 1 Kooperation SLK/TU Dresden ↔ SLUB
### 1.1 Projekte
<!-- jeweils ein paar Stichworte... -->
- _Digital Herrnhut_
- Dissertationsprojekt Soldatenbriefe
- neuer Masterstudiengang _Digital Humanities_
- Kooperationsprojekt _CliC_
- akademische Lehre
---
## 1 Kooperation SLK/TU Dresden ↔ SLUB
### 1.1 Projekte

<!---Bild Herrnhut Mission -->
----
## 1 Kooperation SLK/TU Dresden ↔ SLUB
### 1.2 Ziele
- Endziel: __Zugänglichkeit von Texten__ für Forschung und Öffentlichkeit
- Digitalisierung gedruckter+geschriebener Vorlagen:
- manuelle Transkription als Voraussetzung für bessere automatische Erfassung
- automatische Erfassung als Voraussetzung für leichtere manuelle Transkription
<!-- "leichter": mehr+genauer pro Stunde -->
<!-- Feedback-Schleife, sukzessive Erhöhung Qualität+Quantität -->
----
## 1 Kooperation SLK/TU Dresden ↔ SLUB
### 1.3 (Überschneidung von) Aufgaben und Kompetenzen
- Forschung+Lehre ↔ Infrastruktur
- __interinstitutionelle, interdisziplinäre Zusammenarbeit__
- beidseitige Mehrung und Vermittlung von methodischem Wissen
<!-- Synergieeffekte -->
<!-- dauerhafte Kooperation -->
<!-- Hochschule vs. Schule+Bürgerwissenschaft vs. Bibliothek -->
---
<!-- Aufhänger: Was tun wir eigentlich? Wer sagt das? -->
## 2 Interdisziplinarität und Terminologie
### 2.1 „Transkription“ und „Transliteration“
- Alltagsgebrauch vs. Wissenschaft
- lauttreu vs. buchstabentreu
(Bsp.: T. für fremde Alphabete)
<!-- Kyrillisch: Steinitz/Duden vs. GOST/LC; Hebräisch ... -->
<!-- Fraktur→Antiqua ohne ſ oder mit ſ und ß oder gar mit ſz oder gar ſz-Ligatur -->
- Medienwechsel vs. Schrift(system)wechsel
(z.B. Papier→Computer, Tonaufnahme→Schrift, Alphabetschrift→Brailleschrift, phonetische/phonologische T.<!-- IPA vs. SAMPA -->, Kurrent/Fraktur→Antiqua)
→ gemeinsamer Oberbegriff _Transkription_
→ unterschiedliche Definition, je nach Disziplin, Ausrichtung und Kontext
----
<!-- Aufhänger: Was tun wir eigentlich? Wer sagt das? -->
## 2 Interdisziplinarität und Terminologie
### 2.2 „Workflow“
- als Ablauf _manueller_ oder manuell auszulösender Schritte in Digitalisierung
(Transkriptions-Workflow)
- als Konfiguration aller Schritte und Parameter in _automatischer_ Texterkennung <!-- vollautomatisch -->
(OCR-Workflow)
→ je nach Kontext!
----
<!-- weitere begriffliche Unterscheidungen: unvermeidlich bei Interdisziplinarität -->
## 2 Interdisziplinarität und Terminologie
### 2.3 Zweck der Transkription
| | **OCR-Training (Ground-Truth)** | **Textkorpus / Digitaledition** |
| --- | --- | --- |
| **Granularität** | Blöcke+Zeilen, Koordinaten | Seiten, Fließtext |
| **Genauigkeit** | Richtigkeit, Konsistenz | Präzision, Tiefe |
| **Priorität** | Repräsentativität, „weniger ist mehr“ | Vollständigkeit, „nichts darf fehlen“ |
<!-- evtl. auch auf Transkriptionslevel eingehen, v.a. GTL-1 (Websuche) / GTL-2 (OCR) / GTL-3 (MUFI etc) -->
→ These: beide Aufgaben können sich strategisch ergänzen <!-- GT kann aber auch Vorstufe sein! -->
----
## 2 Interdisziplinarität und Terminologie
### 2.4 Zielgruppe
<!-- Fachwissen, Fertigkeiten – je nach Rolle -->
| | **professionell** | **nicht professionell** |
| --- | --- | --- |
| **Material/Domäne** | Buch-, Sprach-, Literatur-, Geschichtswissenschaft | Interessierte aus der Öffentlichkeit|
| **Werkzeug/Technik** | IT | Endnutzung | <!-- nicht-technischer Nutzer -->
<!-- vielleicht auch: intern/zugeteilt vs. öffentlich/partizipatorisch -->
→ These: nicht orthogonal – Synergien möglich <!-- Überschneidungen, Workflows! -->
→ These: „Profi-Werkzeuge“ oft auch besser für nicht-professionelle Nutzung
----
## 2 Interdisziplinarität und Terminologie
### 2.5 Technologisches Paradigma
| | **offen** | **geschlossen** |
| --- | --- | --- |
| **Lizenz** | Freie Software, Standard-Schnittstellen/Datenformate | kommerzielle Dienste, Programme ohne Quellen |
| **Integration** | föderierte Systeme <!-- skalierbar, flexibel, erweiterbar --> | integrierte Systeme (All-in-One) <!-- bequem, niedrigschwellig --> |
| **Daten** | Hoheit über Modelle und Daten | nur Nachnutzung, „Bezahlen mit Daten“ |
| **Betrieb** | dezentral/Eigen- | zentral/Dienst |
<!--
| **Kosten** | Betrieb, Pflege, (Kaufpreis) | (Kaufpreis), Gebühren, Daten |
-->
<!-- Aspekte sind nicht orthogonal! z.B. Bezahlsoftware mit Eigeninstallation -->
→ These: Offenheit begünstigt Flexibilität, Nachhaltigkeit und Reproduzierbarkeit
----
## 2 Interdisziplinarität und Terminologie
### 2.6 weitere Begriffe
* Betreiber vs. Betreuer vs. **Nutzer** / „Annotator“ <!-- inter-annotator agreement --> / „Transkriptor“?
* Transkription vs. **Annotation**:
- Transkription i. e. S.: rein textueller Anteil
(ohne Struktur oder Auszeichnung)
- Transkription i. w. S.: = Annotation
---
## 3 Technologische Grundlagen
### 3.1 Werkzeuge
- Entscheidung für Offenheit: [OCR-D](https://ocr-d.de) <!-- föderiertes System, Framework für Open-Source-OCR --> und weitere Werkzeuge für offene Standards [PAGE-XML](https://github.com/PRImA-Research-Lab/PAGE-XML), [ALTO-XML](https://github.com/altoxml/schema), [METS-XML](http://www.loc.gov/standards/mets)
- insbes.:
* für Texterkennung: [Kraken](https://kraken.re) (Zeilenerkennung) und [Tesseract](https://tesseract-ocr.github.io/) (Zeichenerkennung)
* für Annotation: [LAREX](https://github.com/OCR4all/LAREX/) und [Aletheia](http://www.primaresearch.org/tools/Aletheia/Editions)
----
## 3 Technologische Grundlagen
### 3.2 Gesamtablauf GT-Erstellung
1. optimierter OCR-Workflow als **automatische Vorverarbeitung**:
1. Bildvorverarbeitung: Binarisierung, Deskewing, Dewarping
2. Seiten- und Zeilensegmentierung (OLR)
3. Zeichenerkennung (OCR)
→ Ergebnis: 1 PAGE-XML-`file` pro Seite, 1 METS-XML-`fileGrp` pro Schritt
2. partielle Editierung für **manuelle Nachkorrektur**
3. **Nachtrainierung** OCR-Modell mit neuen Daten
4. **Wiederholung** ab 1.3. auf unbearbeiteten Seiten mit neuem Modell <!-- iterativ -->
5. Vervollständigung, Export / TEI-Konvertierung
----
## 3 Technologische Grundlagen
### 3.3 Beispiel Bildvorverarbeitung
<table><tr><td>
<!-- Originalbild: -->

</td><td>
<!-- Binarisierung: -->

</td></tr></table>
----
## 3 Technologische Grundlagen
### 3.4 Beispiel Segmentierung(skorrektur)
<!-- Bildausschnitt Segmentierung: -->

<!-- Vollansicht Segmentierung:

-->
----
## 3 Technologische Grundlagen
### 3.5 Beispiel Transkription
<!-- Vollansicht Textkorrektur binarisiert: -->

----
## 3 Technologische Grundlagen
### 3.5 Beispiel Transkription
<!-- Bildausschnitt Textkorrektur Zeilenansicht:

-->
<!-- Bildausschnitt Textkorrektur Seitenansicht oben: -->

<!-- Bildausschnitt Textkorrektur Seitenansicht Rest: -->

----
## 3 Technologische Grundlagen
### 3.6 OCR-Training
1. Pretraining auf großen ähnlichen GT-Datensätzen aus READ:
* [Konzilsprotokolle Greifswald](https://zenodo.org/record/215383#.YJFuPHVfjDs)

* [~~Ratsprotokolle Bozen~~](https://zenodo.org/record/218236#.YXNIKFlfgUF)

2. Finetuning auf eigenen Daten:
- Validierung der korrigierten Transkriptionen <!-- Richtlinien -->
- Extraktion von Bild-Text-Paaren für Textzeilen <!-- Screenshot -->

----
## 3 Technologische Grundlagen
### 3.7 Ausgangslage bei Handschrift
- Qualität für Zeilenerkennung bereits ausreichend (Kraken mit blla-Modellen) <!-- neuronal / Deep Learning -->
- Qualität für Zeichenerkennung aktuell **noch nicht**:
- keine Standardmodelle für Kurrent
- vglw. wenig frei verfügbare Trainingsdaten <!-- OCR-D hat Fokus auf Drucke -->
<!-- Transkibus explizit erwähnen? -->
→ sukzessive eigene Daten sammeln (und möglichst publizieren)
→ sobald Modelle gut genug: nur noch als **Nachkorrektur**
---
## 4 Workflows
<!-- Transkriptions-Workflows -->
<!-- hier alle Varianten/Teile von Ideen für Lehre zeigen (Gruppenarbeit mit a/synchronen Teilaufgaben Vorbereitung+Eingabe+Korrektur) -->
<!-- evtl. auf Richtlinien und deren Durchsetzung eingehen -->
<!-- Hier Bild von gesamtem Workflow -->

----
## 4 Workflows

<!-- Bild Korrekturschleife -->
----
## 4 Workflows

<!-- Bild Podcast -->
----
## 4 Workflows

<!-- Bild arbeitsteilige Gruppenarbeit -->
----
## 4 Workflows
### Aufwertung von existierendem Seiten-GT zu Zeilen-GT
<!-- diese Folie ist eventuell zuviel – überspringen? nach hinten schieben? -->
- bisherige Transkriptionsprojekte oft nur auf <!-- Granularität --> **Seitenebene**
→ d.h. viele Korpora <!-- entweder ganz ohne Zuordnung zu Bilddaten (Scan/Photo),
oder zumindest --> ohne Zuordnung auf **Zeilenebene**
- Zeilen-GT jedoch unerläßlich für OCR-Training
- Idee: semiautomatische Zuordnung durch
1. Seitenbild in automatische Texterkennung geben
→ Resultat: Zeilen-Koordinaten + Zeilen-OCR
→ Qualitätsanforderungen:
* für Zeilenerkennung: hoch
* für Zeichenerkennung: moderat
1. Seitentext den OCR-Textzeilen per Alignierung automatisch zuordnen
<!-- (String-Editdistanz / Fuzzy-Matching und Heuristiken) -->
1. Paare mit hoher Konfidenz als Trainingsdaten behalten
1. Sichtung und manuelle Nachkorrektur
- z.B. implementiert in Transkribus [t2i](https://readcoop.eu/transkribus/howto/how-to-use-existing-transcriptions-to-train-a-handwritten-text-recognition-model/) <!-- sowie immer wieder im DTA -->
---
## 5 Zusammenfassung
<!-- eventuell auf mehrere Aspekte und Folien aufteilen -->
1. quantitative Methoden für Geisteswissenschaften:
reziproke Verstärkung von…
- neuen Ansprüchen der Forschung durch neue technische Möglichkeiten
(Distant Reading, Verfügbarkeit, empirische Breite)
- neuen Anforderungen der Infrastruktur durch neues technisches Paradigma
(datengetriebene Verfahren brauchen Daten)
<!--Sind neue Ansprüche AN... gemeint? Nein: die geistesw. Forschung stellt neue Ansprüche aufgrund gewachsener Möglichkeiten-->
2. datengetriebene maschinelle Lernverfahren (bes. _Deep Learning_):
prinzipiell-universelle Lösung, aber abhängig von Trainingsdaten (digitalen Texten) in (früher nicht vorhandener) ausreichender Menge und Qualität
3. bei Handschrift liegen offene OCR-Systeme aktuell noch zurück <!-- Transkibus explizit erwähnen? -->
4. Strategie: gezielte Transkription für Lückenschluß bei GT/Modellbildung, Nachnutzung von Forschungsdaten/Editionen
5. Taktik: Synergie v.a. durch Teilautomatisierung der Transkription/Analyse und umgekehrt Weiterentwicklung der Werkzeuge/Modelle <!-- iterativer Ansatz, "Baron Münchhausen", "Bootstrap-Effekt" -->
<!-- wachsende Genauigkeit reduziert manuellen Aufwand (Quantität), findet manuelle Fehler (Qualität) -->
6. Bootstrap-Effekt bei semiautomatischer Alignierung von Seiten-GT <!-- oder hier nicht nochmal? -->
---
## 6 Offene Fragen
- detaillierte Transkriptionsrichtlinien für Handschrift <!-- DFG-Digitalisierung zu ungenau, OCR-D zu druckspezifisch? -->
- freier Ground-Truth für HTR <!-- also außerhalb Transkribus -->
- Übertragbarkeit von Modellen ↔
Gruppierung von Daten nach Schrift, Hand, Schreibmittel, Material <!-- welche Handschriften sind graphologisch und materialisch zugehörig? -->
- optimales Trainingsregime, Daten-Augmentierung <!-- auch Mischung mit synthetischem GT -->
- optimale Verteilung von Kompetenzen
- optimale Vermittlung von Wissen
<!-- ... -->
{"metaMigratedAt":"2023-06-16T12:59:34.243Z","metaMigratedFrom":"YAML","title":"Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse","breaks":true,"description":"Foliensatz Beitrag TUD/SLUB 28.10.2021","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":16069,\"del\":2265},{\"id\":\"2b2c1436-646b-4847-95ef-686f250a0d11\",\"add\":1063,\"del\":423}]"}