(Überblick, Verlauf, Status)
Robert Sachunsky, Kay-Michael Würzner
3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg
Ziel: Volltextdigitalisierung der VD-Bestände (16.-19. Jh.)
technische Vorbereitung der massenhaften, maschinellen Vervolltextung von digitalisierten Drucken des 16.-19. Jh.
Text- und Strukturerfassung zur Schaffung wissenschaftlich nutzbarer Forschungsdaten
Antworten auf sich ergebende konzeptionelle, informationswissenschaftliche und organisatorische Fragen
Konzentration auf den Sachbefund
(Lückenschluß Forschung→Praxis)
Offenheit für unterschiedlichste Forschungsinteressen
(Methodenpluralismus)
Orientierung der Qualität der Text- und Strukturerfassung an (realisierbaren) wissenschaftlichen Ansprüchen
Qualitätskontrolle nach den einzelnen Prozessschritten der OCR
Angabe nutzungsorientierter Qualitätsstufen
Sichtung und Charakterisierung des Ausgangsmaterials,
Erfassung des Ist-Standes OCR (Forschung+Praxis)
Konzeption und Ausschreibung der Modulprojekte
Konzeption der Arbeit des Koordinierungsprojekts
Vision: Vervolltextung von ca. 1 Mio. Titeln mit ca. 300 Mio. Bildseiten (VD16-18)
unter Hinzunahme von deutschen Drucken des 19. Jh.: Vervielfachung
manuelle Vorauswahl / Sichtung bei damals 400 tsd. bilddigitalisierten VD-Titeln mit 120 Mio. Bildseiten unmöglich
heterogenes Material (u. a. Qualität der Vorlage u. des Digitalisats) …
unterschiedl. Materialität und Erhaltungszustand des Originals: z.B. Durchscheinen, Flecken, Fehlstellen
suboptimale Scans: über Blattrand hinaus (non-textual noise), gegenüberliegende Seite teilweise sichtbar (textual noise)
unterschiedl. Drucktypen und Layouts (meist einhergehend mit unterschiedl. Sprache und Funktion): Schriftarten, ein- vs. mehrspaltig, Marginalien, Kolumnentitel, Abbildungen, gattungs- und inhaltsspezifische Layouts
Ungleichförmigkeit auch innerhalb der Titel (Titelblatt, Inhaltsverzeichnis, Mengentext, Index etc.)
schematischer OCR-Workflow
verschiedene Verarbeitungsebenen
jew. Qualitätssicherung zur möglichst unmittelbaren Intervention
modularer Ansatz
alternative Implementierungen pro Verarbeitungsschritt
"Nimm die Binarisierung von Ocropus, die Segmentierung von Tesseract und die Texterkennung von Calamari"
Leichte Integration neuer Tools
Bedingungen für maximale Interaktion zwischen den MP schaffen:
Zusammenführung der (Teil-)Ergebnisse
Abschlussbericht mit Evaluation und technischer Dokumentation
zeitversetzte Ausschreibung für ein unabhängiges Modulprojekt 10 „Workflow und Datenlogistik“:
DFG-Prüfgruppe:
Dienstleister: externe, meist kommerzielle Anbieter; GBV
(Kontakt, Kooperationsvereinbarungen, Wissenstransfer)
Inhouse-Digitalisierung: Standardworkflows, Standardsoftware
(Zielarchitektur Kitodo)
spezielle Infrastrukturen und Anwender jenseits Bibliotheken: spezifische Workflows, Eigenentwicklung
(Mitnahmeeffekt im Open-Source-Entwicklungsmodell)
nicht bewilligt:
ocrd workspace ...
ocrd process ...
ocrd resmgr ...
ocrd zip ...
ocrd validate ...
--help
ocrd-olena-binarize -h
Pilotanwender:
jeweils unabhängig praktische Erprobung und Begutachtung
Ergebnis: "brauchbar, aber…"
Entwicklung generischer Implementierungspakete
(in unterschiedlichen Integrationsszenarien) – close to ready-to-use
Optimierung einzelner Module
Koordinierungsprojekt: