<style> /* reduce from default 48px: */ .reveal { font-size: 24px; text-align: left; } .reveal .slides { text-align: left; } /* change from default gray-on-black: */ .hljs { color: #005; background: #fff; } /* prevent invisible fragments from occupying space: */ .fragment.visible:not(.current-fragment) { display: none; height:0px; line-height: 0px; font-size: 0px; } /* increase font size in diagrams: */ .label { font-size: 24px; font-weight: bold; } /* increase maximum width of code blocks: */ .reveal pre code { max-width: 1000px; max-height: 1000px; } /* remove black border from images: */ .reveal section img { border: 0; } .reveal pre.mermaid { width: 100% !important; } .reveal svg { max-height: 600px; } .reveal .scaled-flowchart-td pre.mermaid { width: 100% !important; /* why? float: left; */ } .reveal .scaled-flowchart-td svg { max-width: 100% !important; } .reveal .scaled-flowchart-td svg g.node, .reveal .scaled-flowchart-td svg g.label, .reveal .scaled-flowchart-td svg foreignObject { width: 100% !important; } .reveal .scaled-flowchart-td p { clear:both; } .reveal .centered { text-align: center } .reveal .width75 { max-width: 75%; } </style> # Layout-Analyse für Seitenstruktur mit Deep&nbsp;Learning <!-- .element: class="centered width75" --> _SCADS.AI-SLUB-Auftakttreffen 07.10.2020_ <!-- .element: class="centered width75" --> Robert Sachunsky (SLUB) <!-- .element: class="centered width75" --> --- ## Übersicht - [Problemstellung](#/2) - [Related Work](#/3) - [Lösungsansatz](#/4) --- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/FQzHGNg.png" width="330" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/12R1ecV.png" width="290" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/DNxyPOh.png" width="310" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/zYuGYZA.png" width="390" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/RCEDV9f.png" width="390" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/kZ9QtUZ.png" width="320" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://i.imgur.com/4xezeUp.png" width="350" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://user-images.githubusercontent.com/38561704/81486043-65233080-9252-11ea-9ab5-bc0783930c90.png" width="350" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken <img src="https://user-images.githubusercontent.com/38561704/81486529-9ea96b00-9255-11ea-98ef-8e65af79d1bd.png" width="350" /> ---- ### Problemstellung: Seitensegmentierung auf hist. Drucken - Mischung von Klassen (visuelle vs textuelle Kriterien) - Text: Überschrift, Fußnote, Marginalie, Kustode ... - Abbildungen: Initiale, Handschrift, Zeichnung, Graphik, Stempel ... - Formeln (mit Text), Noten (mit Text), Tabellen (mit Trennlinien und Text) - Trennlinien, Schmuck... - Qualität der Vorlagen (Durchscheinen, Risse und Flecken, ...) - Segmente grenzen eng aneinander – **Lesereihenfolge** der Textzeilen (semantisch-geometrische Kriterien) - relativ **wenig** Ground-Truth --- ### Related Work - heuristische Verfahren (z.B. Tesseract) - meist nur Bounding Boxes statt Polygone - meist kaum wartbar / erweiterbar - meist inadäquat bei historischen Drucken - meist inadäquat bei komplexen Layouts ---- ### Related Work: heuristische Verfahren <table> <tr> <td><img src="https://i.imgur.com/FQzHGNg.png"/></td> <td><img src="https://i.imgur.com/BfRGLs4.png"/></td></tr> </table> ---- ### Related Work - "Semantische Segmentierung" (Pixelclassifier) - schwierige Dekodierung zu konsistenten Regionen - Zusammenkleben von Regionen <img src="https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-architecture.png" width="350"/> ---- ### Related Work: Pixelclassifier <table> <tr><td><img src="https://i.imgur.com/4rZ5Fct.png"/></td> <td><img src="https://i.imgur.com/HtyDGKj.png"/></td></tr> </table> ---- ### Related Work: Pixelclassifier <table> <tr><td><img src="https://i.imgur.com/M80oFn9.png"/></td> <td><img src="https://i.imgur.com/WeZJR5R.png"/></td></tr> </table> --- ### Lösungsansatz: Instanzsegmentierung - Mask-RCNN: Multitask-Learning für Objekterkennung auf Bildern - Klassifikation - Bounding-Box-Regression - Pixelmaske innerhalb der BBox ![](https://i.imgur.com/9S04bJf.png =600x) ---- ### Lösungsansatz: Instanzsegmentierung #### Ground-Truth - Training auf historischem Struktur-GT aus _Deutschem Textarchiv_ 1000 (+10000) Seiten |![](https://files.gitter.im/ocrd-segment/community/dKdZ/raw_varnhagen_rahel03_1834_OCR-D-IMG-CROP_0019.pred.png =200x)|![](https://files.gitter.im/ocrd-segment/community/PYdG/raw_siemens_abhandlungen_1881_OCR-D-IMG-CROP_0013.pred.png =200x)|![](https://files.gitter.im/ocrd-segment/community/zXkn/raw_siebold_suesswasserfische_1863_OCR-D-IMG-CROP_0011.pred.png =200x)| ---- ### Lösungsansatz: Instanzsegmentierung #### Reduktion des Datenbedarfs - Bild-Augmentierung - Modell-Transfer von Standardproblemen ![](https://i.imgur.com/4DoBAaP.png) - Pretraining auf modernem Struktur-GT PubLayNet ---- ### Lösungsansatz: Instanzsegmentierung #### Reduktion des Datenbedarfs - Pretraining auf modernem Struktur-GT PubLayNet 360.000 Seiten ![](https://github.com/ibm-aur-nlp/PubLayNet/raw/master/examples/annotations.png =600x) ---- ### Lösungsansatz: Instanzsegmentierung #### Reduktion des Datenbedarfs - Pretraining auf modernem Struktur-GT PubLayNet |![](https://files.gitter.im/ocrd-segment/community/ngYN/PMC2999828_00004.pred.png =300x)|![](https://files.gitter.im/ocrd-segment/community/WlP6/PMC3270436_00001.pred.png =300x)|![](https://user-content.gitter-static.net/a24035ee255f2476eb538f1a36dcdae6cdf78cab/68747470733a2f2f66696c65732e6769747465722e696d2f6f6372642d7365676d656e742f636f6d6d756e6974792f6341314b2f7468756d622f504d43333031343637365f30303030312e707265642e706e67 =300x)| ---- ### Lösungsansatz: Instanzsegmentierung #### Evaluierung - Computer Vision: pixelbasierte Maße (Pr/Rc, mACC, fwIoU, mAP) - inadäquat für OLR (Geometrie, Lesereihenfolge) - geometriebasiert (PRImA-Layout-Evaluation) -
{"metaMigratedAt":"2023-06-15T13:52:06.708Z","metaMigratedFrom":"YAML","title":"Layout-Analyse für Seitenstruktur mit DL","breaks":true,"description":"Folien KI-Anwendung für SCADS.AI-SLUB-Auftakttreffen 07.10.2020","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":8018,\"del\":1237}]"}
    331 views