quantitative Methoden für Geisteswissenschaften: reziproke Verstärkung von…
neuen Ansprüchen der Forschung durch neue technische Möglichkeiten (Distant Reading, Verfügbarkeit, empirische Breite)
neuen Anforderungen der Infrastruktur durch neues technisches Paradigma (datengetriebene Verfahren brauchen Daten)
datengetriebene maschinelle Lernverfahren (bes. Deep Learning): prinzipiell-universelle Lösung, aber abhängig von Trainingsdaten (digitalen Texten) in (früher nicht vorhandener) ausreichender Menge und Qualität
bei Handschrift liegen offene OCR-Systeme aktuell noch zurück
Strategie: gezielte Transkription für Lückenschluß bei GT/Modellbildung, Nachnutzung von Forschungsdaten/Editionen
Taktik: Synergie v.a. durch Teilautomatisierung der Transkription/Analyse und umgekehrt Weiterentwicklung der Werkzeuge/Modelle
Bootstrap-Effekt bei semiautomatischer Alignierung von Seiten-GT
6 Offene Fragen
detaillierte Transkriptionsrichtlinien für Handschrift
freier Ground-Truth für HTR
Übertragbarkeit von Modellen ↔ Gruppierung von Daten nach Schrift, Hand, Schreibmittel, Material
Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse Dominik Hetjens Robert Sachunsky Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken Oktober 2021, Berlin https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10
{"metaMigratedAt":"2023-06-16T12:59:34.243Z","metaMigratedFrom":"YAML","title":"Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse","breaks":true,"description":"Foliensatz Beitrag TUD/SLUB 28.10.2021","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":16069,\"del\":2265},{\"id\":\"2b2c1436-646b-4847-95ef-686f250a0d11\",\"add\":1063,\"del\":423}]"}