Robuste und performante Verfahren für die Layoutanalyse in OCR-D - HackMD

<style> /* reduce from default 48px: */ .reveal { font-size: 24px; text-align: left; } .reveal .slides { text-align: left; } /* change from default gray-on-black: */ .hljs { color: #005; background: #fff; } /* prevent invisible fragments from occupying space: */ .fragment.visible:not(.current-fragment) { display: none; height:0px; line-height: 0px; font-size: 0px; } /* increase font size in diagrams: */ .label { font-size: 24px; font-weight: bold; } /* increase maximum width of code blocks: */ .reveal pre code { max-width: 1000px; max-height: 1000px; } /* remove black border from images: */ .reveal section img { border: 0; } .reveal h3 { text-transform: none; } .reveal pre.mermaid { width: 100% !important; } .reveal svg { max-height: 600px; } .reveal .scaled-flowchart-td pre.mermaid { width: 100% !important; /* why? float: left; */ } .reveal .scaled-flowchart-td svg { max-width: 100% !important; } .reveal .scaled-flowchart-td svg g.node, .reveal .scaled-flowchart-td svg g.label, .reveal .scaled-flowchart-td svg foreignObject { width: 100% !important; } .reveal .scaled-flowchart-td p { clear:both; } .reveal .centered { text-align: center } .reveal .width75 { max-width: 75%; } </style> # Robuste und performante Verfahren für die Layoutanalyse in OCR-D (Vorschau DFG-Projekt) _Robert Sachunsky_    ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) 3.3.2023 : https://hackmd.io/@bertsky/ocrd-layout-vorab-kurz --- ## Motivation - Optical Layout Recognition (OLR): _conditio sine qua non_ für "gute" Texterkennung (OCR) - Durchbruch mit Paradigmenwechsel zu _Deep-Learning_-Ansätzen: | | *in OCR* | *in OLR* | | --- | --- | --- | | *Forschung* | seit ~2009 | seit ~2015 | | *Anwendung* | seit ~2016 | seit ~2018? | - noch fehlen: - Anwendungsreife (Genauigkeit, Robustheit, Performanz) - Lückenschluß Trainingsdaten, Standardmodelle - adäquate Evaluierung --- ## Ausgangslage ### OLR in OCR-D nach Phase 2: - Modulprojekte: - DFKI → unbrauchbar (bis auf Cropping) - Uni Würzburg → unbrauchbar - Community-Entwicklungen: - _Tesseract_ und _Ocropus_ (heuristisch-regelbasiert) → je nach Material und Parametrierung - _Detectron2_ (Deep-Learning) → je nach Material und Modell, ohne Zeilensegmentierung - _Eynollah_ (Deep-Learning) → relativ robust, sehr langsam --- ## Ausgangslage ### Fazit: - [aufwendige Workflow-Anpassung an jew. Material](https://digi.ub.uni-heidelberg.de/diglitData/v/ocrd-segmenter.pdf) - teilweise prohibitiv langsam oder schlecht - schwer vorhersagbar, nicht nachtrainierbar --- ## Vorarbeiten - SBB (Berlin): Eynollah… - ZPD (Würzburg): Larex, Erstellung von Trainingsdaten… - SLUB (Dresden): Tesseract, Ocropus, Detectron2, ocrd_segment, Evaluierung - gemeinsam in OCR-D --- ## Ziele 1. Problemklassen in den VD - identifizieren (Merkmale, Abgrenzung) - quantifizieren (Häufigkeit, Schwierigkeit) - priorisieren --- ## Ziele 2. Ground-Truth-Daten - für Training, für Evaluierung - prüfen, aufbereiten, harmonisieren, erstellen --- ## Ziele 3. OLR-Modelle und -Werkzeuge - weiterentwickeln, optimieren, kombinieren --- ## Ziele 4. OLR-Evaluation - Methoden, Metriken bereitstellen - anwenden und auswerten --- ## Ziele 5. Integration in OCR-D - modulare, effiziente, robuste Prozessoren - Implikationen für Spezifikation und Workflows --- ## Planung - 24 Monate, 66 Personenmonate - vsl. Beginn: Sommer 2023