OCR-D, was bisher geschah - HackMD

<style> /* reduce from default 48px: */ .reveal { font-size: 24px; text-align: left; } .reveal .slides { text-align: left; } /* change from default gray-on-black: */ .hljs { color: #005; background: #fff; } /* prevent invisible fragments from occupying space: */ .fragment.visible:not(.current-fragment) { display: none; height:0px; line-height: 0px; font-size: 0px; } /* increase font size in diagrams: */ .label { font-size: 24px; font-weight: bold; } /* increase maximum width of code blocks: */ .reveal pre code { max-width: 1000px; max-height: 1000px; } /* remove black border from images: */ .reveal section img { border: 0; } .reveal pre.mermaid { width: 100% !important; } .reveal svg { max-height: 600px; } .reveal .scaled-flowchart-td pre.mermaid { width: 100% !important; /* why? float: left; */ } .reveal .scaled-flowchart-td svg { max-width: 100% !important; } .reveal .scaled-flowchart-td svg g.node, .reveal .scaled-flowchart-td svg g.label, .reveal .scaled-flowchart-td svg foreignObject { width: 100% !important; } .reveal .scaled-flowchart-td p { clear:both; } .reveal .centered { text-align: center } .reveal .width75 { max-width: 75%; } </style> # OCR-D, was bisher geschah (Überblick, Verlauf, Status) _Robert Sachunsky, Kay-Michael Würzner_   ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) 3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg --- ## Überblick Projekthistorie Ziel: _Volltextdigitalisierung der VD-Bestände (16.-19. Jh.)_ - 2015-2017: Phase 1: Bestandsaufnahme, Bedarfsanalyse, Konzeption - 2018-2020: [Phase 2](https://ocr-d.de/en/phase2): Entwicklung von Prototypen * 1 Koordinierungsprojekt * 8 Modulprojekte (v.a. Universitäten) - 2021-2023: [Phase 3](https://ocr-d.de/en/phase3): Integration in Bibliotheksumfeld * 1 Koordinierungsprojekt * 4 Implementierungsprojekte (v.a. Uni-Bibliotheken) * 3 Modulprojekte --- ## Phase 1: Ziele - technische Vorbereitung der massenhaften, maschinellen Vervolltextung von digitalisierten Drucken des 16.-19. Jh. - Text- **und** Strukturerfassung zur Schaffung wissenschaftlich nutzbarer Forschungsdaten - Antworten auf sich ergebende konzeptionelle, informationswissenschaftliche und organisatorische Fragen --- ## Phase 1: Prämissen 1. Konzentration auf den **Sachbefund** (Lückenschluß Forschung→Praxis) - unabhängig von fachspezifischen Interessen - Auswahl bzw. Anpassung etablierter Standards 2. Offenheit für **unterschiedlichste Forschungsinteressen** (Methodenpluralismus) 3. Orientierung der Qualität der Text- und Strukturerfassung an (realisierbaren) **wissenschaftlichen Ansprüchen** 4. **Qualitätskontrolle** nach den einzelnen Prozessschritten der OCR 5. Angabe nutzungsorientierter **Qualitätsstufen** --- ## Phase 1: Ergebnisse - Sichtung und Charakterisierung des Ausgangsmaterials, Erfassung des **Ist-Standes** OCR (Forschung+Praxis) - Konzeption und Ausschreibung der **Modulprojekte** - schematisches **Funktionsmodell** - Identifikation von **Entwicklungsbedarfen** - Konzeption der Arbeit des **Koordinierungsprojekts** - technisch-organisatorische Betreuung der Modulprojekte - (weitere) Bearbeitung der Arbeitspakete --- ## Phase 1: Ergebnisse: Ausgangsmaterial - **Vision**: Vervolltextung von ca. 1 Mio. Titeln mit ca. 300 Mio. Bildseiten (VD16-18) unter Hinzunahme von deutschen Drucken des 19. Jh.: Vervielfachung - **manuelle** Vorauswahl / **Sichtung** bei damals 400 tsd. bilddigitalisierten VD-Titeln mit 120 Mio. Bildseiten **unmöglich** - **heterogenes** Material (u. a. Qualität der Vorlage u. des Digitalisats) … --- ## Phase 1: Ergebnisse: Ausgangsmaterial - unterschiedl. **Materialität** und **Erhaltungszustand** des Originals: z.B. Durchscheinen, Flecken, Fehlstellen - **suboptimale Scans**: über Blattrand hinaus (non-textual noise), gegenüberliegende Seite teilweise sichtbar (textual noise) - unterschiedl. **Drucktypen** und **Layouts** (meist einhergehend mit unterschiedl. Sprache und Funktion): Schriftarten, ein- vs. mehrspaltig, Marginalien, Kolumnentitel, Abbildungen, gattungs- und inhaltsspezifische Layouts - **Ungleichförmigkeit** auch innerhalb der Titel (Titelblatt, Inhaltsverzeichnis, Mengentext, Index etc.) --- ## Phase 1: Ergebnisse: Ausgangsmaterial ![](https://user-images.githubusercontent.com/38561704/222567248-16a9ec3d-9592-4597-b8fc-ac263a051249.png =300x)![](https://user-images.githubusercontent.com/38561704/222567276-48a23777-ae30-4e77-87ee-20f7e2375db3.png =300x)![](https://user-images.githubusercontent.com/38561704/222567303-5874a4b3-226b-4a9b-a98a-ebe2e23264d3.png =300x) --- ## Phase 1: Ergebnisse: Ausgangsmaterial ![](https://user-images.githubusercontent.com/38561704/222567405-dd10240a-6802-4be5-828e-c1ada7d086d6.png =300x)![](https://user-images.githubusercontent.com/38561704/222567551-add0b591-6691-47be-bdda-ba213a064ef1.png =300x)![](https://user-images.githubusercontent.com/38561704/222567652-5ec1381a-df75-4401-831c-d9a6767b953a.png =300x) --- ## Phase 1: Ergebnisse: Ausgangsmaterial ![](https://user-images.githubusercontent.com/38561704/222567715-0ce74c8f-6c9b-4bd6-93aa-f1809901d8e3.png =300x)![](https://user-images.githubusercontent.com/38561704/222567813-c59fc94f-a19b-4169-8d78-2b99161273eb.png =300x)![](https://user-images.githubusercontent.com/38561704/222567894-fc3ff16d-afdf-4abe-9f71-e9e351851215.png =300x) --- ## Phase 1: Ergebnisse: Ausgangsmaterial ![](https://user-images.githubusercontent.com/38561704/222567975-9b99fece-2c93-4cb3-b50a-752c7516e887.png =300x)![](https://user-images.githubusercontent.com/38561704/222568044-57321fb8-de1e-4a2d-9059-ef160119d961.png =300x)![](https://user-images.githubusercontent.com/38561704/222568125-15083e1b-134d-44f0-affe-f7546546f708.png =300x) --- ## Phase 1: Ergebnisse: Ausgangsmaterial ![](https://user-images.githubusercontent.com/38561704/222568215-54a2722b-1d9a-4763-9997-ce591d28f0e0.png =300x)   ![](https://user-images.githubusercontent.com/38561704/222577428-75054fef-5f74-43d1-8c9c-04a3500b4ff3.png =500x) --- ## Phase 1: Ergebnisse: Funktionsmodell - schematischer **OCR-Workflow** - vom Digitalisat bis zur Archivierung des Volltextes - Integration aller Module - verschiedene **Verarbeitungsebenen** - Dokument, Seite, Region, Zeile - Operationen auf mehreren Ebenen - maximale **Adaptivität** bzgl. visueller/textueller Charakteristika - **Rekonstruierbarkeit** über Metadaten - jew. **Qualitätssicherung** zur möglichst unmittelbaren Intervention --- ## Phase 1: Ergebnisse: Funktionsmodell ![](https://user-images.githubusercontent.com/38561704/222568415-825febe9-8821-4d51-8717-85b1e6927bb6.png) --- ## Phase 1: Ergebnisse: Funktionsmodell - **modularer** Ansatz - alle Teilaufgaben separat adressierbar - **standardisierte Schnittstellen und Formate** - Teilprozessierung möglich - **alternative** Implementierungen pro Verarbeitungsschritt - Auswahl des Moduls bei Workflow-Konfiguration, oder - Auswahl des besten Ergebnisses durch QS-Schritt, oder - Vereinigung der Einzelergebnisse (insbesondere bei OCR) _"Nimm die Binarisierung von Ocropus, die Segmentierung von Tesseract und die Texterkennung von Calamari"_   - Leichte Integration neuer Tools --- ## Phase 1: Ergebnisse: Betreuung Modulprojekte Bedingungen für **maximale Interaktion** zwischen den MP schaffen: - Berichtswesen: - MP **kommunizieren** inhaltliche Ergebnisse an KP und **berichten** an DFG - Inhaltliche Fragen und Ideenaustausch: - 3 Workshops, Confluence, persönlicher Austausch - anlassbezogene Arbeitsgespräche - Einbeziehung der Fach-Community: - laufende Information zum Stand der MP und OCR-D - Transparenz und offener Dialog - Entwicklungsversionen von zu entwickelnden Programmen - Git-Repositorium, laufende Integration, standardisierte Dokumentation --- ## Phase 1: Ergebnisse: Gesamtintegration - Zusammenführung der (Teil-)Ergebnisse - Erstellung eines funktionierenden, vollumfassenden **Beispielablaufs** durch das KP – Aufbau während der Projektphase - **Abschlussbericht** mit Evaluation und technischer Dokumentation - ~~**zeitversetzte Ausschreibung** für ein unabhängiges Modulprojekt 10 „Workflow und Datenlogistik“:~~ - ~~Zusammenführung der Modulergebnisse zu einem produktiven, modellhaften Workflow~~ - DFG-Prüfgruppe: - Gesamtintegration _als zentrale und immanente Aufgabe des KP_ - Einbeziehung eines _zusätzlichen Partners mit nachgewiesener IT-Kompetenz_ → KIT --- ## Phase 1: Ergebnisse: Nutzungsszenarien 1. Dienstleister: externe, meist kommerzielle Anbieter; GBV (Kontakt, Kooperationsvereinbarungen, Wissenstransfer) 2. Inhouse-Digitalisierung: Standardworkflows, Standardsoftware (Zielarchitektur **Kitodo**) 3. spezielle Infrastrukturen und Anwender jenseits Bibliotheken: spezifische Workflows, Eigenentwicklung (Mitnahmeeffekt im Open-Source-Entwicklungsmodell) --- ## Phase 2: Ziele - Spezifikation von Schnittstellen, Standards für Daten- und Metadatenformate - Erstellung von Referenzkorpora (Ground Truth) - Weiterentwicklung der Optical Layout Recognition (OLR) - Analyse/Integration vorhandener Tools - Softwarepaket zur OCR-Verarbeitung von Digitalisaten der VDs - Erstellung eines Standard-Workflows - Erstellung von Verfahren zur Qualitätssicherung --- ## Phase 2: Modulprojekte - Bildoptimierung (DFKI Kaiserslautern) - Layoutanalyse und Dokumenstruktur (DFKI Kaiserslautern) - Layoutanalyse (Universität Würzburg) - Tesseract (UB Mannheim) - OCR-Nachkorrektur (Universität Leipzig) - OCR-Nachkorrektur (LMU München) - Schriftarterkennung (Universitäten Leipzig / Erlangen / Mainz) - Langzeitarchivierung (SUB Göttingen, GWDG Göttingen) **nicht** bewilligt: - Qualitätssicherung (SBB, BBAW) --- ## Phase 2: Ergebnis - keine QS, kein [Standard-Workflow](https://hackmd.io/@bertsky/ryW-IF0YB#/5/38) - keine Fehlerbehandlung / Performanz / Skalierbarkeit - etliche integrierte [Tools](https://hackmd.io/@bertsky/ryW-IF0YB#/5/3) - [praktisch nutzbarer Prototyp](https://git.informatik.uni-leipzig.de/ocr-d/doc-final-workshop-2020-poster/-/raw/master/main.pdf?inline=false) (Framework+Module) - v.a. Monographien, teilw. Zeitungen - noch nicht Handschriften, Gegenwartsdokumente - einfach installierbar, gut dokumentiert - neuartige, große [Flexibilität für Workflows](https://hackmd.io/@bertsky/ryW-IF0YB#/5/15) - Community, Spezifikationen, Dokumentation --- ## Phase 2: Ergebnis: Community - Github-Entwicklungsmodell: _release early, release often_ https://github.com/topics/ocr-d https://github.com/OCR-D - Offener Chat mit Support: https://gitter.im/OCR-D/Lobby - 3 Entwicklertreffen, gem. Teilnahme an Tagungen - regelmäßig offene, virtuelle Treffen: * zweiwöchentlich Mittwoch 14 Uhr: offener Tech-Call * monatlich jeden 1. Freitag: OCR-D Forum - Wiki für nutzergetriebene Dokumentation: https://github.com/OCR-D/ocrd-website/wiki - Gründung [DHd AG OCR](https://dhd-ag-ocr.github.io/) --- ## Phase 2: Ergebnis: [Spezifikationen](https://ocr-d.de/en/spec) - verbindliche Vorgaben, wie sich die Prozessoren verhalten müssen - einheitliche Kommandozeilenschnittstellen - mit Schemasprachen Datenaustausch verifizieren - Konventionen explizit und validierbar machen - Software-Richtlinien, Ground-Truth-Richtlinien - Referenzimplementierung https://github.com/OCR-D/core * zum Entwickeln von spezifikationsgemäßen Prozessoren (Python-API, Bashlib) * allgemeine Nutzerwerkzeuge: - `ocrd workspace ...` - `ocrd process ...` - `ocrd resmgr ...` - `ocrd zip ...` - `ocrd validate ...` --- ## Phase 2: Ergebnis: [Dokumentation](https://ocr-d.de) - alle Prozessoren haben ein mehr oder weniger detailliertes README - alle Prozessoren unterstützen `--help` * zeigt Docstrings, CLI und Parameter-JSON * bspw.: `ocrd-olena-binarize -h` - Umfassende zentrale Dokumentation: https://ocr-d.de - [Setup Guide](https://ocr-d.de/en/setup) beschreibt Installation - [User Guide](https://ocr-d.de/en/user) beschreibt allg. Umgang mit Daten und Werkzeugen - [Workflow-Guide](https://ocr-d.de/en/workflows) beschreibt verfügbare Prozessoren und deren Zusammenspiel --- ## Phase 2: Pilotierung - Pilotanwender: - SLUB Dresden, SBB Berlin, BBAW Berlin, HAB Wolfenbüttel - SUB Göttingen, ULB Darmstadt - UB Rostock, UB Heidelberg, UB Halle, UB Mannheim - jeweils unabhängig praktische Erprobung und Begutachtung - Ergebnis: "brauchbar, aber…" --- ## seither: Entwicklungen OCR-D in der SLUB - intensives Engagement bei Weiterentwicklung und Support (Konzeption, Issues, Reviews, PRs, neue Tools, Modelle, Wartung) - github.com/OCR-D, github.com/slub, github.com/bertsky --- ## seither: Anwendungen OCR-D in der SLUB - [GT-Erzeugung](https://intranet.slub-dresden.de/pages/viewpage.action?pageId=254842522) und [OCR-Training](https://wrznr.github.io/bibliothekartag-2021) für "Lücken" bei Fraktur und Antiqua - Obersorbisch → [GT-Erzeugung, Modelltraining](https://hackmd.io/@bertsky/bibkon22-hsb-si-slub) - Re-OCR [Börsenblatt](https://www.boersenblatt-digital.de/) (Fraktur/Antiqua/Schmuck) - Herrnhuter [_Nachrichten_](https://ocr.slub-dresden.de/Larex/) (Fraktur) - [Paulusbriefe](http://digital.slub-dresden.de/id1733323740) (Latein-Altgr. interlinear glossiert) - Hofzuweisungslisten (Typoskript/Formulare) - Kurrent-Handschriften ([Herrnhut](https://wrznr.github.io/bibliothekskongress-2022/), [Soldatenbriefe](https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10#/), Preusker…) --- ## Phase 3: Ziele - Entwicklung **generischer Implementierungspakete** (in unterschiedlichen Integrationsszenarien) – _close to ready-to-use_ - Optimierung einzelner **Module** - Koordinierungsprojekt: - techn.-organis. Betreuung der Implementierungs- und Modulprojekte - Standardisierung und Nachnutzung/Abgrenzung untereinander - Qualitätsverbesserung OCR-D-Software - Nachhaltigkeitskonzept --- ## Phase 3: Implementierungsprojekte - Integration in Kitodo u. DFG-Viewer (SLUB, UB Braunschweig, UB Mannheim) - Integration in Goobi / auf HPC-Cluster (GWDG, SUB Göttingen) - Integration in OCR-Suite OCR4all (GEI Braunschweig, Uni Würzburg) - Einsatz für Re-OCR auf VD18 (UB Halle) --- ## Phase 3: Modulprojekte - werkspezifisches Training von OCR-Modellen (UB Mannheim) - Schriftarterkennung für historische Drucke (JGU Mainz, FAU Erlangen) - Langzeitarchivierung (GWDG, SUB Göttingen) --- ## Phase 3: Zusammenarbeit mit dem KP - Planung: Vorlauf gegenüber IP und MP aber spät besetzt -