<style>
/* reduce from default 48px: */
.reveal {
font-size: 24px;
text-align: left;
}
.reveal .slides {
text-align: left;
}
/* change from default gray-on-black: */
.hljs {
color: #005;
background: #fff;
}
/* prevent invisible fragments from occupying space: */
.fragment.visible:not(.current-fragment) {
display: none;
height:0px;
line-height: 0px;
font-size: 0px;
}
/* increase font size in diagrams: */
.label {
font-size: 24px;
font-weight: bold;
}
/* increase maximum width of code blocks: */
.reveal pre code {
max-width: 1000px;
max-height: 1000px;
}
/* remove black border from images: */
.reveal section img {
border: 0;
}
.reveal h3 {
text-transform: none;
}
.reveal pre.mermaid {
width: 100% !important;
}
.reveal svg {
max-height: 600px;
}
.reveal .scaled-flowchart-td pre.mermaid {
width: 100% !important;
/* why? float: left; */
}
.reveal .scaled-flowchart-td svg {
max-width: 100% !important;
}
.reveal .scaled-flowchart-td svg g.node,
.reveal .scaled-flowchart-td svg g.label,
.reveal .scaled-flowchart-td svg foreignObject {
width: 100% !important;
}
.reveal .scaled-flowchart-td p {
clear:both;
}
.reveal .centered {
text-align: center
}
.reveal .width75 {
max-width: 75%;
}
</style>
# Robuste und performante Verfahren für die Layoutanalyse in OCR-D
(Vorschau DFG-Projekt)
_Robert Sachunsky_ ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x)
3.3.2023 : https://hackmd.io/@bertsky/ocrd-layout-vorab-kurz
---
## Motivation
- Optical Layout Recognition (OLR):
_conditio sine qua non_ für "gute" Texterkennung (OCR)
- Durchbruch mit Paradigmenwechsel zu _Deep-Learning_-Ansätzen:
| | *in OCR* | *in OLR* |
| --- | --- | --- |
| *Forschung* | seit ~2009 | seit ~2015 |
| *Anwendung* | seit ~2016 | seit ~2018? |
- noch fehlen:
- Anwendungsreife (Genauigkeit, Robustheit, Performanz)
- Lückenschluß Trainingsdaten, Standardmodelle
- adäquate Evaluierung
---
## Ausgangslage
### OLR in OCR-D nach Phase 2:
- Modulprojekte:
- DFKI
→ unbrauchbar (bis auf Cropping)
- Uni Würzburg
→ unbrauchbar
- Community-Entwicklungen:
- _Tesseract_ und _Ocropus_ (heuristisch-regelbasiert)
→ je nach Material und Parametrierung
- _Detectron2_ (Deep-Learning)
→ je nach Material und Modell, ohne Zeilensegmentierung
- _Eynollah_ (Deep-Learning)
→ relativ robust, sehr langsam
---
## Ausgangslage
### Fazit:
- [aufwendige Workflow-Anpassung an jew. Material](https://digi.ub.uni-heidelberg.de/diglitData/v/ocrd-segmenter.pdf)
- teilweise prohibitiv langsam oder schlecht
- schwer vorhersagbar, nicht nachtrainierbar
---
## Vorarbeiten
- SBB (Berlin):
Eynollah…
- ZPD (Würzburg):
Larex, Erstellung von Trainingsdaten…
- SLUB (Dresden):
Tesseract, Ocropus, Detectron2, ocrd_segment, Evaluierung
- gemeinsam in OCR-D
---
## Ziele
1. Problemklassen in den VD
- identifizieren (Merkmale, Abgrenzung)
- quantifizieren (Häufigkeit, Schwierigkeit)
- priorisieren
---
## Ziele
2. Ground-Truth-Daten
- für Training, für Evaluierung
- prüfen, aufbereiten, harmonisieren, erstellen
---
## Ziele
3. OLR-Modelle und -Werkzeuge
- weiterentwickeln, optimieren, kombinieren
---
## Ziele
4. OLR-Evaluation
- Methoden, Metriken bereitstellen
- anwenden und auswerten
---
## Ziele
5. Integration in OCR-D
- modulare, effiziente, robuste Prozessoren
- Implikationen für Spezifikation und Workflows
---
## Planung
- 24 Monate, 66 Personenmonate
- vsl. Beginn: Sommer 2023
{"metaMigratedAt":"2023-06-17T22:29:22.512Z","metaMigratedFrom":"YAML","title":"Robuste und performante Verfahren für die Layoutanalyse in OCR-D","breaks":"true","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","description":"(Vorschau DFG-Projekt)","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":4075,\"del\":234}]"}