Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken
https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10
→ gemeinsamer Oberbegriff Transkription
→ unterschiedliche Definition, je nach Disziplin, Ausrichtung und Kontext
→ je nach Kontext!
OCR-Training (Ground-Truth) | Textkorpus / Digitaledition | |
---|---|---|
Granularität | Blöcke+Zeilen, Koordinaten | Seiten, Fließtext |
Genauigkeit | Richtigkeit, Konsistenz | Präzision, Tiefe |
Priorität | Repräsentativität, „weniger ist mehr“ | Vollständigkeit, „nichts darf fehlen“ |
→ These: beide Aufgaben können sich strategisch ergänzen
professionell | nicht professionell | |
---|---|---|
Material/Domäne | Buch-, Sprach-, Literatur-, Geschichtswissenschaft | Interessierte aus der Öffentlichkeit |
Werkzeug/Technik | IT | Endnutzung |
→ These: nicht orthogonal – Synergien möglich
→ These: „Profi-Werkzeuge“ oft auch besser für nicht-professionelle Nutzung
offen | geschlossen | |
---|---|---|
Lizenz | Freie Software, Standard-Schnittstellen/Datenformate | kommerzielle Dienste, Programme ohne Quellen |
Integration | föderierte Systeme | integrierte Systeme (All-in-One) |
Daten | Hoheit über Modelle und Daten | nur Nachnutzung, „Bezahlen mit Daten“ |
Betrieb | dezentral/Eigen- | zentral/Dienst |
→ These: Offenheit begünstigt Flexibilität, Nachhaltigkeit und Reproduzierbarkeit
optimierter OCR-Workflow als automatische Vorverarbeitung:
→ Ergebnis: 1 PAGE-XML-file
pro Seite, 1 METS-XML-fileGrp
pro Schritt
partielle Editierung für manuelle Nachkorrektur
Nachtrainierung OCR-Modell mit neuen Daten
Wiederholung ab 1.3. auf unbearbeiteten Seiten mit neuem Modell
Vervollständigung, Export / TEI-Konvertierung
|
|
Pretraining auf großen ähnlichen GT-Datensätzen aus READ:
Finetuning auf eigenen Daten:
→ sukzessive eigene Daten sammeln (und möglichst publizieren)
→ sobald Modelle gut genug: nur noch als Nachkorrektur