or
or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up
Syntax | Example | Reference | |
---|---|---|---|
# Header | Header | 基本排版 | |
- Unordered List |
|
||
1. Ordered List |
|
||
- [ ] Todo List |
|
||
> Blockquote | Blockquote |
||
**Bold font** | Bold font | ||
*Italics font* | Italics font | ||
~~Strikethrough~~ | |||
19^th^ | 19th | ||
H~2~O | H2O | ||
++Inserted text++ | Inserted text | ||
==Marked text== | Marked text | ||
[link text](https:// "title") | Link | ||
 | Image | ||
`Code` | Code |
在筆記中貼入程式碼 | |
```javascript var i = 0; ``` |
|
||
:smile: | ![]() |
Emoji list | |
{%youtube youtube_id %} | Externals | ||
$L^aT_eX$ | LaTeX | ||
:::info This is a alert area. ::: |
This is a alert area. |
On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?
Please give us some advice and help us improve HackMD.
Do you want to remove this version name and description?
Syncing
xxxxxxxxxx
OCR-D, was bisher geschah
(Überblick, Verlauf, Status)
Robert Sachunsky, Kay-Michael Würzner
3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg
Überblick Projekthistorie
Ziel: Volltextdigitalisierung der VD-Bestände (16.-19. Jh.)
Phase 1: Ziele
technische Vorbereitung der massenhaften, maschinellen Vervolltextung von digitalisierten Drucken des 16.-19. Jh.
Text- und Strukturerfassung zur Schaffung wissenschaftlich nutzbarer Forschungsdaten
Antworten auf sich ergebende konzeptionelle, informationswissenschaftliche und organisatorische Fragen
Phase 1: Prämissen
Konzentration auf den Sachbefund
(Lückenschluß Forschung→Praxis)
Offenheit für unterschiedlichste Forschungsinteressen
(Methodenpluralismus)
Orientierung der Qualität der Text- und Strukturerfassung an (realisierbaren) wissenschaftlichen Ansprüchen
Qualitätskontrolle nach den einzelnen Prozessschritten der OCR
Angabe nutzungsorientierter Qualitätsstufen
Phase 1: Ergebnisse
Sichtung und Charakterisierung des Ausgangsmaterials,
Erfassung des Ist-Standes OCR (Forschung+Praxis)
Konzeption und Ausschreibung der Modulprojekte
Konzeption der Arbeit des Koordinierungsprojekts
Phase 1: Ergebnisse: Ausgangsmaterial
Vision: Vervolltextung von ca. 1 Mio. Titeln mit ca. 300 Mio. Bildseiten (VD16-18)
unter Hinzunahme von deutschen Drucken des 19. Jh.: Vervielfachung
manuelle Vorauswahl / Sichtung bei damals 400 tsd. bilddigitalisierten VD-Titeln mit 120 Mio. Bildseiten unmöglich
heterogenes Material (u. a. Qualität der Vorlage u. des Digitalisats) …
Phase 1: Ergebnisse: Ausgangsmaterial
unterschiedl. Materialität und Erhaltungszustand des Originals: z.B. Durchscheinen, Flecken, Fehlstellen
suboptimale Scans: über Blattrand hinaus (non-textual noise), gegenüberliegende Seite teilweise sichtbar (textual noise)
unterschiedl. Drucktypen und Layouts (meist einhergehend mit unterschiedl. Sprache und Funktion): Schriftarten, ein- vs. mehrspaltig, Marginalien, Kolumnentitel, Abbildungen, gattungs- und inhaltsspezifische Layouts
Ungleichförmigkeit auch innerhalb der Titel (Titelblatt, Inhaltsverzeichnis, Mengentext, Index etc.)
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Ausgangsmaterial
Phase 1: Ergebnisse: Funktionsmodell
schematischer OCR-Workflow
verschiedene Verarbeitungsebenen
jew. Qualitätssicherung zur möglichst unmittelbaren Intervention
Phase 1: Ergebnisse: Funktionsmodell
Phase 1: Ergebnisse: Funktionsmodell
modularer Ansatz
alternative Implementierungen pro Verarbeitungsschritt
"Nimm die Binarisierung von Ocropus, die Segmentierung von Tesseract und die Texterkennung von Calamari"
Leichte Integration neuer Tools
Phase 1: Ergebnisse: Betreuung Modulprojekte
Bedingungen für maximale Interaktion zwischen den MP schaffen:
Phase 1: Ergebnisse: Gesamtintegration
Zusammenführung der (Teil-)Ergebnisse
Abschlussbericht mit Evaluation und technischer Dokumentation
zeitversetzte Ausschreibung für ein unabhängiges Modulprojekt 10 „Workflow und Datenlogistik“:Zusammenführung der Modulergebnisse zu einem produktiven, modellhaften WorkflowDFG-Prüfgruppe:
Phase 1: Ergebnisse: Nutzungsszenarien
Dienstleister: externe, meist kommerzielle Anbieter; GBV
(Kontakt, Kooperationsvereinbarungen, Wissenstransfer)
Inhouse-Digitalisierung: Standardworkflows, Standardsoftware
(Zielarchitektur Kitodo)
spezielle Infrastrukturen und Anwender jenseits Bibliotheken: spezifische Workflows, Eigenentwicklung
(Mitnahmeeffekt im Open-Source-Entwicklungsmodell)
Phase 2: Ziele
Phase 2: Modulprojekte
nicht bewilligt:
Phase 2: Ergebnis
Phase 2: Ergebnis: Community
https://github.com/topics/ocr-d https://github.com/OCR-D
https://github.com/OCR-D/ocrd-website/wiki
Phase 2: Ergebnis: Spezifikationen
(Python-API, Bashlib)
ocrd workspace ...
ocrd process ...
ocrd resmgr ...
ocrd zip ...
ocrd validate ...
Phase 2: Ergebnis: Dokumentation
--help
ocrd-olena-binarize -h
Phase 2: Pilotierung
Pilotanwender:
jeweils unabhängig praktische Erprobung und Begutachtung
Ergebnis: "brauchbar, aber…"
seither: Entwicklungen OCR-D in der SLUB
(Konzeption, Issues, Reviews, PRs, neue Tools, Modelle, Wartung)
seither: Anwendungen OCR-D in der SLUB
Phase 3: Ziele
Entwicklung generischer Implementierungspakete
(in unterschiedlichen Integrationsszenarien) – close to ready-to-use
Optimierung einzelner Module
Koordinierungsprojekt:
Phase 3: Implementierungsprojekte
(SLUB, UB Braunschweig, UB Mannheim)
(GWDG, SUB Göttingen)
(GEI Braunschweig, Uni Würzburg)
(UB Halle)
Phase 3: Modulprojekte
(UB Mannheim)
(JGU Mainz, FAU Erlangen)
(GWDG, SUB Göttingen)
Phase 3: Zusammenarbeit mit dem KP
aber spät besetzt