<style>
/* reduce from default 48px: */
.reveal {
font-size: 24px;
text-align: left;
}
.reveal .slides {
text-align: left;
}
/* change from default gray-on-black: */
.hljs {
color: #005;
background: #fff;
}
/* prevent invisible fragments from occupying space: */
.fragment.visible:not(.current-fragment) {
display: none;
height:0px;
line-height: 0px;
font-size: 0px;
}
/* increase font size in diagrams: */
.label {
font-size: 24px;
font-weight: bold;
}
/* increase maximum width of code blocks: */
.reveal pre code {
max-width: 1000px;
max-height: 1000px;
}
/* remove black border from images: */
.reveal section img {
border: 0;
}
.reveal pre.mermaid {
width: 100% !important;
}
.reveal svg {
max-height: 600px;
}
.reveal .scaled-flowchart-td pre.mermaid {
width: 100% !important;
/* why? float: left; */
}
.reveal .scaled-flowchart-td svg {
max-width: 100% !important;
}
.reveal .scaled-flowchart-td svg g.node,
.reveal .scaled-flowchart-td svg g.label,
.reveal .scaled-flowchart-td svg foreignObject {
width: 100% !important;
}
.reveal .scaled-flowchart-td p {
clear:both;
}
.reveal .centered {
text-align: center
}
.reveal .width75 {
max-width: 75%;
}
</style>
# Layout-Analyse für Seitenstruktur mit Deep Learning <!-- .element: class="centered width75" -->
_SCADS.AI-SLUB-Auftakttreffen 07.10.2020_ <!-- .element: class="centered width75" -->
Robert Sachunsky (SLUB) <!-- .element: class="centered width75" -->
---
## Übersicht
- [Problemstellung](#/2)
- [Related Work](#/3)
- [Lösungsansatz](#/4)
---
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/FQzHGNg.png" width="330" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/12R1ecV.png" width="290" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/DNxyPOh.png" width="310" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/zYuGYZA.png" width="390" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/RCEDV9f.png" width="390" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/kZ9QtUZ.png" width="320" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://i.imgur.com/4xezeUp.png" width="350" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://user-images.githubusercontent.com/38561704/81486043-65233080-9252-11ea-9ab5-bc0783930c90.png" width="350" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
<img src="https://user-images.githubusercontent.com/38561704/81486529-9ea96b00-9255-11ea-98ef-8e65af79d1bd.png" width="350" />
----
### Problemstellung: Seitensegmentierung auf hist. Drucken
- Mischung von Klassen (visuelle vs textuelle Kriterien)
- Text: Überschrift, Fußnote, Marginalie, Kustode ...
- Abbildungen: Initiale, Handschrift, Zeichnung, Graphik, Stempel ...
- Formeln (mit Text), Noten (mit Text), Tabellen (mit Trennlinien und Text)
- Trennlinien, Schmuck...
- Qualität der Vorlagen (Durchscheinen, Risse und Flecken, ...)
- Segmente grenzen eng aneinander – **Lesereihenfolge** der Textzeilen (semantisch-geometrische Kriterien)
- relativ **wenig** Ground-Truth
---
### Related Work
- heuristische Verfahren (z.B. Tesseract)
- meist nur Bounding Boxes statt Polygone
- meist kaum wartbar / erweiterbar
- meist inadäquat bei historischen Drucken
- meist inadäquat bei komplexen Layouts
----
### Related Work: heuristische Verfahren
<table>
<tr>
<td><img src="https://i.imgur.com/FQzHGNg.png"/></td>
<td><img src="https://i.imgur.com/BfRGLs4.png"/></td></tr>
</table>
----
### Related Work
- "Semantische Segmentierung" (Pixelclassifier)
- schwierige Dekodierung zu konsistenten Regionen
- Zusammenkleben von Regionen
<img src="https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/u-net-architecture.png" width="350"/>
----
### Related Work: Pixelclassifier
<table>
<tr><td><img src="https://i.imgur.com/4rZ5Fct.png"/></td>
<td><img src="https://i.imgur.com/HtyDGKj.png"/></td></tr>
</table>
----
### Related Work: Pixelclassifier
<table>
<tr><td><img src="https://i.imgur.com/M80oFn9.png"/></td>
<td><img src="https://i.imgur.com/WeZJR5R.png"/></td></tr>
</table>
---
### Lösungsansatz: Instanzsegmentierung
- Mask-RCNN: Multitask-Learning für Objekterkennung auf Bildern
- Klassifikation
- Bounding-Box-Regression
- Pixelmaske innerhalb der BBox

----
### Lösungsansatz: Instanzsegmentierung
#### Ground-Truth
- Training auf historischem Struktur-GT aus _Deutschem Textarchiv_
1000 (+10000) Seiten
||||
----
### Lösungsansatz: Instanzsegmentierung
#### Reduktion des Datenbedarfs
- Bild-Augmentierung
- Modell-Transfer von Standardproblemen

- Pretraining auf modernem Struktur-GT PubLayNet
----
### Lösungsansatz: Instanzsegmentierung
#### Reduktion des Datenbedarfs
- Pretraining auf modernem Struktur-GT PubLayNet
360.000 Seiten

----
### Lösungsansatz: Instanzsegmentierung
#### Reduktion des Datenbedarfs
- Pretraining auf modernem Struktur-GT PubLayNet
||||
----
### Lösungsansatz: Instanzsegmentierung
#### Evaluierung
- Computer Vision: pixelbasierte Maße (Pr/Rc, mACC, fwIoU, mAP)
- inadäquat für OLR (Geometrie, Lesereihenfolge)
- geometriebasiert (PRImA-Layout-Evaluation)
-
{"metaMigratedAt":"2023-06-15T13:52:06.708Z","metaMigratedFrom":"YAML","title":"Layout-Analyse für Seitenstruktur mit DL","breaks":true,"description":"Folien KI-Anwendung für SCADS.AI-SLUB-Auftakttreffen 07.10.2020","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":8018,\"del\":1237}]"}