<style>
/* reduce from default 48px: */
.reveal {
font-size: 24px;
text-align: left;
}
.reveal .slides {
text-align: left;
}
/* change from default gray-on-black: */
.hljs {
color: #005;
background: #fff;
}
/* prevent invisible fragments from occupying space: */
.fragment.visible:not(.current-fragment) {
display: none;
height:0px;
line-height: 0px;
font-size: 0px;
}
/* increase font size in diagrams: */
.label {
font-size: 24px;
font-weight: bold;
}
/* increase maximum width of code blocks: */
.reveal pre code {
max-width: 1000px;
max-height: 1000px;
}
/* remove black border from images: */
.reveal section img {
border: 0;
}
.reveal pre.mermaid {
width: 100% !important;
}
.reveal svg {
max-height: 600px;
}
.reveal .scaled-flowchart-td pre.mermaid {
width: 100% !important;
/* why? float: left; */
}
.reveal .scaled-flowchart-td svg {
max-width: 100% !important;
}
.reveal .scaled-flowchart-td svg g.node,
.reveal .scaled-flowchart-td svg g.label,
.reveal .scaled-flowchart-td svg foreignObject {
width: 100% !important;
}
.reveal .scaled-flowchart-td p {
clear:both;
}
.reveal .centered {
text-align: center
}
.reveal .width75 {
max-width: 75%;
}
</style>
# OCR-D, was bisher geschah
(Überblick, Verlauf, Status)
_Robert Sachunsky, Kay-Michael Würzner_ ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x)
3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg
---
## Überblick Projekthistorie
Ziel: _Volltextdigitalisierung der VD-Bestände (16.-19. Jh.)_
- 2015-2017: Phase 1: Bestandsaufnahme, Bedarfsanalyse, Konzeption
- 2018-2020: [Phase 2](https://ocr-d.de/en/phase2): Entwicklung von Prototypen
* 1 Koordinierungsprojekt
* 8 Modulprojekte (v.a. Universitäten)
- 2021-2023: [Phase 3](https://ocr-d.de/en/phase3): Integration in Bibliotheksumfeld
* 1 Koordinierungsprojekt
* 4 Implementierungsprojekte (v.a. Uni-Bibliotheken)
* 3 Modulprojekte
---
## Phase 1: Ziele
- technische Vorbereitung der massenhaften, maschinellen Vervolltextung von digitalisierten Drucken des 16.-19. Jh.
- Text- **und** Strukturerfassung zur Schaffung wissenschaftlich nutzbarer Forschungsdaten
- Antworten auf sich ergebende konzeptionelle, informationswissenschaftliche und organisatorische Fragen
---
## Phase 1: Prämissen
1. Konzentration auf den **Sachbefund**
(Lückenschluß Forschung→Praxis)
- unabhängig von fachspezifischen Interessen
- Auswahl bzw. Anpassung etablierter Standards
2. Offenheit für **unterschiedlichste Forschungsinteressen**
(Methodenpluralismus)
3. Orientierung der Qualität der Text- und Strukturerfassung an (realisierbaren) **wissenschaftlichen Ansprüchen**
4. **Qualitätskontrolle** nach den einzelnen Prozessschritten der OCR
5. Angabe nutzungsorientierter **Qualitätsstufen**
---
## Phase 1: Ergebnisse
- Sichtung und Charakterisierung des Ausgangsmaterials,
Erfassung des **Ist-Standes** OCR (Forschung+Praxis)
- Konzeption und Ausschreibung der **Modulprojekte**
- schematisches **Funktionsmodell**
- Identifikation von **Entwicklungsbedarfen**
- Konzeption der Arbeit des **Koordinierungsprojekts**
- technisch-organisatorische Betreuung der Modulprojekte
- (weitere) Bearbeitung der Arbeitspakete
---
## Phase 1: Ergebnisse: Ausgangsmaterial
- **Vision**: Vervolltextung von ca. 1 Mio. Titeln mit ca. 300 Mio. Bildseiten (VD16-18)
unter Hinzunahme von deutschen Drucken des 19. Jh.: Vervielfachung
- **manuelle** Vorauswahl / **Sichtung** bei damals 400 tsd. bilddigitalisierten VD-Titeln mit 120 Mio. Bildseiten **unmöglich**
- **heterogenes** Material (u. a. Qualität der Vorlage u. des Digitalisats) …
---
## Phase 1: Ergebnisse: Ausgangsmaterial
- unterschiedl. **Materialität** und **Erhaltungszustand** des Originals: z.B. Durchscheinen, Flecken, Fehlstellen
- **suboptimale Scans**: über Blattrand hinaus (non-textual noise), gegenüberliegende Seite teilweise sichtbar (textual noise)
- unterschiedl. **Drucktypen** und **Layouts** (meist einhergehend mit unterschiedl. Sprache und Funktion): Schriftarten, ein- vs. mehrspaltig, Marginalien, Kolumnentitel, Abbildungen, gattungs- und inhaltsspezifische Layouts
- **Ungleichförmigkeit** auch innerhalb der Titel (Titelblatt, Inhaltsverzeichnis, Mengentext, Index etc.)
---
## Phase 1: Ergebnisse: Ausgangsmaterial
![](https://user-images.githubusercontent.com/38561704/222567248-16a9ec3d-9592-4597-b8fc-ac263a051249.png =300x)![](https://user-images.githubusercontent.com/38561704/222567276-48a23777-ae30-4e77-87ee-20f7e2375db3.png =300x)![](https://user-images.githubusercontent.com/38561704/222567303-5874a4b3-226b-4a9b-a98a-ebe2e23264d3.png =300x)
---
## Phase 1: Ergebnisse: Ausgangsmaterial
![](https://user-images.githubusercontent.com/38561704/222567405-dd10240a-6802-4be5-828e-c1ada7d086d6.png =300x)![](https://user-images.githubusercontent.com/38561704/222567551-add0b591-6691-47be-bdda-ba213a064ef1.png =300x)![](https://user-images.githubusercontent.com/38561704/222567652-5ec1381a-df75-4401-831c-d9a6767b953a.png =300x)
---
## Phase 1: Ergebnisse: Ausgangsmaterial
![](https://user-images.githubusercontent.com/38561704/222567715-0ce74c8f-6c9b-4bd6-93aa-f1809901d8e3.png =300x)![](https://user-images.githubusercontent.com/38561704/222567813-c59fc94f-a19b-4169-8d78-2b99161273eb.png =300x)![](https://user-images.githubusercontent.com/38561704/222567894-fc3ff16d-afdf-4abe-9f71-e9e351851215.png =300x)
---
## Phase 1: Ergebnisse: Ausgangsmaterial
![](https://user-images.githubusercontent.com/38561704/222567975-9b99fece-2c93-4cb3-b50a-752c7516e887.png =300x)![](https://user-images.githubusercontent.com/38561704/222568044-57321fb8-de1e-4a2d-9059-ef160119d961.png =300x)![](https://user-images.githubusercontent.com/38561704/222568125-15083e1b-134d-44f0-affe-f7546546f708.png =300x)
---
## Phase 1: Ergebnisse: Ausgangsmaterial
![](https://user-images.githubusercontent.com/38561704/222568215-54a2722b-1d9a-4763-9997-ce591d28f0e0.png =300x) ![](https://user-images.githubusercontent.com/38561704/222577428-75054fef-5f74-43d1-8c9c-04a3500b4ff3.png =500x)
---
## Phase 1: Ergebnisse: Funktionsmodell
- schematischer **OCR-Workflow**
- vom Digitalisat bis zur Archivierung des Volltextes
- Integration aller Module
- verschiedene **Verarbeitungsebenen**
- Dokument, Seite, Region, Zeile
- Operationen auf mehreren Ebenen
- maximale **Adaptivität** bzgl. visueller/textueller Charakteristika
- **Rekonstruierbarkeit** über Metadaten
- jew. **Qualitätssicherung** zur möglichst unmittelbaren Intervention
---
## Phase 1: Ergebnisse: Funktionsmodell
![](https://user-images.githubusercontent.com/38561704/222568415-825febe9-8821-4d51-8717-85b1e6927bb6.png)
---
## Phase 1: Ergebnisse: Funktionsmodell
- **modularer** Ansatz
- alle Teilaufgaben separat adressierbar
- **standardisierte Schnittstellen und Formate**
- Teilprozessierung möglich
- **alternative** Implementierungen pro Verarbeitungsschritt
- Auswahl des Moduls bei Workflow-Konfiguration, oder
- Auswahl des besten Ergebnisses durch QS-Schritt, oder
- Vereinigung der Einzelergebnisse (insbesondere bei OCR)
_"Nimm die Binarisierung von Ocropus, die Segmentierung von Tesseract und die Texterkennung von Calamari"_
- Leichte Integration neuer Tools
---
## Phase 1: Ergebnisse: Betreuung Modulprojekte
Bedingungen für **maximale Interaktion** zwischen den MP schaffen:
- Berichtswesen:
- MP **kommunizieren** inhaltliche Ergebnisse an KP und **berichten** an DFG
- Inhaltliche Fragen und Ideenaustausch:
- 3 Workshops, Confluence, persönlicher Austausch
- anlassbezogene Arbeitsgespräche
- Einbeziehung der Fach-Community:
- laufende Information zum Stand der MP und OCR-D
- Transparenz und offener Dialog
- Entwicklungsversionen von zu entwickelnden Programmen
- Git-Repositorium, laufende Integration, standardisierte Dokumentation
---
## Phase 1: Ergebnisse: Gesamtintegration
- Zusammenführung der (Teil-)Ergebnisse
- Erstellung eines funktionierenden, vollumfassenden **Beispielablaufs** durch das KP – Aufbau während der Projektphase
- **Abschlussbericht** mit Evaluation und technischer Dokumentation
- ~~**zeitversetzte Ausschreibung** für ein unabhängiges Modulprojekt 10 „Workflow und Datenlogistik“:~~
- ~~Zusammenführung der Modulergebnisse zu einem produktiven, modellhaften Workflow~~
- DFG-Prüfgruppe:
- Gesamtintegration _als zentrale und immanente Aufgabe des KP_
- Einbeziehung eines _zusätzlichen Partners mit nachgewiesener IT-Kompetenz_ → KIT
---
## Phase 1: Ergebnisse: Nutzungsszenarien
1. Dienstleister: externe, meist kommerzielle Anbieter; GBV
(Kontakt, Kooperationsvereinbarungen, Wissenstransfer)
2. Inhouse-Digitalisierung: Standardworkflows, Standardsoftware
(Zielarchitektur **Kitodo**)
3. spezielle Infrastrukturen und Anwender jenseits Bibliotheken: spezifische Workflows, Eigenentwicklung
(Mitnahmeeffekt im Open-Source-Entwicklungsmodell)
---
## Phase 2: Ziele
- Spezifikation von Schnittstellen, Standards für Daten- und Metadatenformate
- Erstellung von Referenzkorpora (Ground Truth)
- Weiterentwicklung der Optical Layout Recognition (OLR)
- Analyse/Integration vorhandener Tools
- Softwarepaket zur OCR-Verarbeitung von Digitalisaten der VDs
- Erstellung eines Standard-Workflows
- Erstellung von Verfahren zur Qualitätssicherung
---
## Phase 2: Modulprojekte
- Bildoptimierung (DFKI Kaiserslautern)
- Layoutanalyse und Dokumenstruktur (DFKI Kaiserslautern)
- Layoutanalyse (Universität Würzburg)
- Tesseract (UB Mannheim)
- OCR-Nachkorrektur (Universität Leipzig)
- OCR-Nachkorrektur (LMU München)
- Schriftarterkennung (Universitäten Leipzig / Erlangen / Mainz)
- Langzeitarchivierung (SUB Göttingen, GWDG Göttingen)
**nicht** bewilligt:
- Qualitätssicherung (SBB, BBAW)
---
## Phase 2: Ergebnis
- keine QS, kein [Standard-Workflow](https://hackmd.io/@bertsky/ryW-IF0YB#/5/38)
- keine Fehlerbehandlung / Performanz / Skalierbarkeit
- etliche integrierte [Tools](https://hackmd.io/@bertsky/ryW-IF0YB#/5/3)
- [praktisch nutzbarer Prototyp](https://git.informatik.uni-leipzig.de/ocr-d/doc-final-workshop-2020-poster/-/raw/master/main.pdf?inline=false) (Framework+Module)
- v.a. Monographien, teilw. Zeitungen
- noch nicht Handschriften, Gegenwartsdokumente
- einfach installierbar, gut dokumentiert
- neuartige, große [Flexibilität für Workflows](https://hackmd.io/@bertsky/ryW-IF0YB#/5/15)
- Community, Spezifikationen, Dokumentation
---
## Phase 2: Ergebnis: Community
- Github-Entwicklungsmodell: _release early, release often_
https://github.com/topics/ocr-d https://github.com/OCR-D
- Offener Chat mit Support: https://gitter.im/OCR-D/Lobby
- 3 Entwicklertreffen, gem. Teilnahme an Tagungen
- regelmäßig offene, virtuelle Treffen:
* zweiwöchentlich Mittwoch 14 Uhr: offener Tech-Call
* monatlich jeden 1. Freitag: OCR-D Forum
- Wiki für nutzergetriebene Dokumentation:
https://github.com/OCR-D/ocrd-website/wiki
- Gründung [DHd AG OCR](https://dhd-ag-ocr.github.io/)
---
## Phase 2: Ergebnis: [Spezifikationen](https://ocr-d.de/en/spec)
- verbindliche Vorgaben, wie sich die Prozessoren verhalten müssen
- einheitliche Kommandozeilenschnittstellen
- mit Schemasprachen Datenaustausch verifizieren
- Konventionen explizit und validierbar machen
- Software-Richtlinien, Ground-Truth-Richtlinien
- Referenzimplementierung https://github.com/OCR-D/core
* zum Entwickeln von spezifikationsgemäßen Prozessoren
(Python-API, Bashlib)
* allgemeine Nutzerwerkzeuge:
- `ocrd workspace ...`
- `ocrd process ...`
- `ocrd resmgr ...`
- `ocrd zip ...`
- `ocrd validate ...`
---
## Phase 2: Ergebnis: [Dokumentation](https://ocr-d.de)
- alle Prozessoren haben ein mehr oder weniger detailliertes README
- alle Prozessoren unterstützen `--help`
* zeigt Docstrings, CLI und Parameter-JSON
* bspw.: `ocrd-olena-binarize -h`
- Umfassende zentrale Dokumentation: https://ocr-d.de
- [Setup Guide](https://ocr-d.de/en/setup) beschreibt Installation
- [User Guide](https://ocr-d.de/en/user) beschreibt allg. Umgang mit Daten und Werkzeugen
- [Workflow-Guide](https://ocr-d.de/en/workflows) beschreibt verfügbare Prozessoren und deren Zusammenspiel
---
## Phase 2: Pilotierung
- Pilotanwender:
- SLUB Dresden, SBB Berlin, BBAW Berlin, HAB Wolfenbüttel
- SUB Göttingen, ULB Darmstadt
- UB Rostock, UB Heidelberg, UB Halle, UB Mannheim
- jeweils unabhängig praktische Erprobung und Begutachtung
- Ergebnis: "brauchbar, aber…"
---
## seither: Entwicklungen OCR-D in der SLUB
- intensives Engagement bei Weiterentwicklung und Support
(Konzeption, Issues, Reviews, PRs, neue Tools, Modelle, Wartung)
- github.com/OCR-D, github.com/slub, github.com/bertsky
---
## seither: Anwendungen OCR-D in der SLUB
- [GT-Erzeugung](https://intranet.slub-dresden.de/pages/viewpage.action?pageId=254842522) und [OCR-Training](https://wrznr.github.io/bibliothekartag-2021) für "Lücken" bei Fraktur und Antiqua
- Obersorbisch → [GT-Erzeugung, Modelltraining](https://hackmd.io/@bertsky/bibkon22-hsb-si-slub)
- Re-OCR [Börsenblatt](https://www.boersenblatt-digital.de/) (Fraktur/Antiqua/Schmuck)
- Herrnhuter [_Nachrichten_](https://ocr.slub-dresden.de/Larex/) (Fraktur)
- [Paulusbriefe](http://digital.slub-dresden.de/id1733323740) (Latein-Altgr. interlinear glossiert)
- Hofzuweisungslisten (Typoskript/Formulare)
- Kurrent-Handschriften ([Herrnhut](https://wrznr.github.io/bibliothekskongress-2022/), [Soldatenbriefe](https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10#/), Preusker…)
---
## Phase 3: Ziele
- Entwicklung **generischer Implementierungspakete**
(in unterschiedlichen Integrationsszenarien) – _close to ready-to-use_
- Optimierung einzelner **Module**
- Koordinierungsprojekt:
- techn.-organis. Betreuung der Implementierungs- und Modulprojekte
- Standardisierung und Nachnutzung/Abgrenzung untereinander
- Qualitätsverbesserung OCR-D-Software
- Nachhaltigkeitskonzept
---
## Phase 3: Implementierungsprojekte
- Integration in Kitodo u. DFG-Viewer
(SLUB, UB Braunschweig, UB Mannheim)
- Integration in Goobi / auf HPC-Cluster
(GWDG, SUB Göttingen)
- Integration in OCR-Suite OCR4all
(GEI Braunschweig, Uni Würzburg)
- Einsatz für Re-OCR auf VD18
(UB Halle)
---
## Phase 3: Modulprojekte
- werkspezifisches Training von OCR-Modellen
(UB Mannheim)
- Schriftarterkennung für historische Drucke
(JGU Mainz, FAU Erlangen)
- Langzeitarchivierung
(GWDG, SUB Göttingen)
---
## Phase 3: Zusammenarbeit mit dem KP
- Planung: Vorlauf gegenüber IP und MP
aber spät besetzt
-
{"metaMigratedAt":"2023-06-17T22:29:04.306Z","metaMigratedFrom":"YAML","title":"OCR-D, was bisher geschah","breaks":"true","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":23444,\"del\":8545}]"}