Layout-Analyse für Seitenstruktur mit Deep Learning
SCADS.AI-SLUB-Auftakttreffen 07.10.2020
Robert Sachunsky (SLUB)
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Problemstellung: Seitensegmentierung auf hist. Drucken
Mischung von Klassen (visuelle vs textuelle Kriterien)
Text: Überschrift, Fußnote, Marginalie, Kustode …
Abbildungen: Initiale, Handschrift, Zeichnung, Graphik, Stempel …
Formeln (mit Text), Noten (mit Text), Tabellen (mit Trennlinien und Text)
Trennlinien, Schmuck …
Qualität der Vorlagen (Durchscheinen, Risse und Flecken, … )
Segmente grenzen eng aneinander – Lesereihenfolge der Textzeilen (semantisch-geometrische Kriterien)
relativ wenig Ground-Truth
Related Work
heuristische Verfahren (z.B. Tesseract)
meist nur Bounding Boxes statt Polygone
meist kaum wartbar / erweiterbar
meist inadäquat bei historischen Drucken
meist inadäquat bei komplexen Layouts
Related Work: heuristische Verfahren
Related Work
"Semantische Segmentierung" (Pixelclassifier)
schwierige Dekodierung zu konsistenten Regionen
Zusammenkleben von Regionen
Related Work: Pixelclassifier
Related Work: Pixelclassifier
Lösungsansatz: Instanzsegmentierung
Mask-RCNN: Multitask-Learning für Objekterkennung auf Bildern
Klassifikation
Bounding-Box-Regression
Pixelmaske innerhalb der BBox
Lösungsansatz: Instanzsegmentierung
Ground-Truth
Training auf historischem Struktur-GT aus Deutschem Textarchiv
1000 (+10000) Seiten
| | | |
Lösungsansatz: Instanzsegmentierung
Reduktion des Datenbedarfs
Bild-Augmentierung
Modell-Transfer von Standardproblemen
Pretraining auf modernem Struktur-GT PubLayNet
Lösungsansatz: Instanzsegmentierung
Reduktion des Datenbedarfs
Pretraining auf modernem Struktur-GT PubLayNet
360.000 Seiten
Lösungsansatz: Instanzsegmentierung
Reduktion des Datenbedarfs
Pretraining auf modernem Struktur-GT PubLayNet
| | | |
Lösungsansatz: Instanzsegmentierung
Evaluierung
Computer Vision: pixelbasierte Maße (Pr/Rc, mACC, fwIoU, mAP)
inadäquat für OLR (Geometrie, Lesereihenfolge)
geometriebasiert (PRImA-Layout-Evaluation)
Resume presentation
Layout-Analyse für Seitenstruktur mit Deep Learning SCADS.AI-SLUB-Auftakttreffen 07.10.2020 Robert Sachunsky (SLUB)
{"metaMigratedAt":"2023-06-15T13:52:06.708Z","metaMigratedFrom":"YAML","title":"Layout-Analyse für Seitenstruktur mit DL","breaks":true,"description":"Folien KI-Anwendung für SCADS.AI-SLUB-Auftakttreffen 07.10.2020","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":8018,\"del\":1237}]"}