technische Vorbereitung der massenhaften, maschinellen Vervolltextung von digitalisierten Drucken des 16.-19. Jh.
Text- und Strukturerfassung zur Schaffung wissenschaftlich nutzbarer Forschungsdaten
Antworten auf sich ergebende konzeptionelle, informationswissenschaftliche und organisatorische Fragen
Phase 1: Prämissen
Konzentration auf den Sachbefund (Lückenschluß Forschung→Praxis)
unabhängig von fachspezifischen Interessen
Auswahl bzw. Anpassung etablierter Standards
Offenheit für unterschiedlichste Forschungsinteressen (Methodenpluralismus)
Orientierung der Qualität der Text- und Strukturerfassung an (realisierbaren) wissenschaftlichen Ansprüchen
Qualitätskontrolle nach den einzelnen Prozessschritten der OCR
Angabe nutzungsorientierter Qualitätsstufen
Phase 1: Ergebnisse
Sichtung und Charakterisierung des Ausgangsmaterials, Erfassung des Ist-Standes OCR (Forschung+Praxis)
Konzeption und Ausschreibung der Modulprojekte
schematisches Funktionsmodell
Identifikation von Entwicklungsbedarfen
Konzeption der Arbeit des Koordinierungsprojekts
technisch-organisatorische Betreuung der Modulprojekte
(weitere) Bearbeitung der Arbeitspakete
Phase 1: Ergebnisse: Ausgangsmaterial
Vision: Vervolltextung von ca. 1 Mio. Titeln mit ca. 300 Mio. Bildseiten (VD16-18) unter Hinzunahme von deutschen Drucken des 19. Jh.: Vervielfachung
manuelle Vorauswahl / Sichtung bei damals 400 tsd. bilddigitalisierten VD-Titeln mit 120 Mio. Bildseiten unmöglich
heterogenes Material (u. a. Qualität der Vorlage u. des Digitalisats) …
Phase 1: Ergebnisse: Ausgangsmaterial
unterschiedl. Materialität und Erhaltungszustand des Originals: z.B. Durchscheinen, Flecken, Fehlstellen
suboptimale Scans: über Blattrand hinaus (non-textual noise), gegenüberliegende Seite teilweise sichtbar (textual noise)
unterschiedl. Drucktypen und Layouts (meist einhergehend mit unterschiedl. Sprache und Funktion): Schriftarten, ein- vs. mehrspaltig, Marginalien, Kolumnentitel, Abbildungen, gattungs- und inhaltsspezifische Layouts
Ungleichförmigkeit auch innerhalb der Titel (Titelblatt, Inhaltsverzeichnis, Mengentext, Index etc.)
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Funktionsmodell
schematischer OCR-Workflow
vom Digitalisat bis zur Archivierung des Volltextes
OCR-D, was bisher geschah (Überblick, Verlauf, Status) Robert Sachunsky, Kay-Michael Würzner 3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg
{"metaMigratedAt":"2023-06-17T22:29:04.306Z","metaMigratedFrom":"YAML","title":"OCR-D, was bisher geschah","breaks":true,"slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":23444,\"del\":8545}]"}