<style>
/* reduce from default 48px: */
.reveal {
font-size: 24px;
text-align: left;
}
.reveal .slides {
text-align: left;
}
/* change from default gray-on-black: */
.hljs {
color: #005;
background: #fff;
}
/* prevent invisible fragments from occupying space: */
.fragment.visible:not(.current-fragment) {
display: none;
height:0px;
line-height: 0px;
font-size: 0px;
}
/* increase font size in diagrams: */
.label {
font-size: 24px;
font-weight: bold;
}
/* increase maximum width of code blocks: */
.reveal pre code {
max-width: 1000px;
max-height: 1000px;
}
/* remove black border from images: */
.reveal section img {
border: 0;
}
.reveal pre.mermaid {
width: 100% !important;
}
.reveal svg {
max-height: 600px;
}
.reveal .scaled-flowchart-td pre.mermaid {
width: 100% !important;
/* why? float: left; */
}
.reveal .scaled-flowchart-td svg {
max-width: 100% !important;
}
.reveal .scaled-flowchart-td svg g.node,
.reveal .scaled-flowchart-td svg g.label,
.reveal .scaled-flowchart-td svg foreignObject {
width: 100% !important;
}
.reveal .scaled-flowchart-td p {
clear:both;
}
.reveal .centered {
text-align: center
}
.reveal .width75 {
max-width: 75%;
}
</style>
# Arbeitsschwerpunkte / Projekte / Pläne <!-- .element: class="centered width75" -->
Robert Sachunsky <!-- .element: class="centered width75" -->
### ASV-Kolloquium 2020 <!-- .element: class="centered width75" -->

---
## Hintergrund
- akustische Sprachverarbeitung, Computerlinguistik
- (privatwirtsch.) Forschungsprojekt _Eurofon_ (7J.)
spontansprachlicher Übersetzer DE–CN mit tiefer linguistischer Analyse und semantischer Repräsentation
- ASV: OCR-D (seit 2J.)
---
## Arbeitsschwerpunkte
- stoch. Sprachmodellierung
* mit RNNLM (Kontext-Konditionierung, Grapheingabe)
- OCR-Nachkorrektur
* mit S2S-LSTM (Encoder-Attention-Decoder)
* mit FST + RNNLM (incremental lattice decoding)
* Evaluierung (Alignierung, Normalisierung, Metriken)
- OCR-Bildvorverarbeitung
- OCR-Workflows (Integration, Konfiguration, Evaluierung)
- OLR (Segmentierung und Klassifikation)
* regelbasiert (Morphologie/Filter)
* mit Deeplearning (Mask-RCNN)
* Evaluierung (geometrisch/semantisch)
---
## Projekte
0. Abschluß: __OCR-D__ (ASV / DFG+LIS; 36 PM)
(Texterkennung von Digitalisaten des gedruckten dt. Kulturerbes 15.-19. Jh.)
- Modulprojekt Nachkorrektur
- Mitwirkung am Kernprojekt
1. erste Phase: __Layout-Workbench__ (InfAI / Fraunhofer IAO; 6 PM)
- komplexe Workflows für Tabellen
- DL-OLR (Erfassung Tiefenstruktur)
2. Beginn: __Smart-HEC__ (ASV / BMJV; 12 PM)
- komplexe Workflows für Tabellen
- DL-OLR (Erfassung Einzelwerte)
---
## Pläne
- Verlängerung _Layout-Workbench_
- Nachfolgeprojekt 3. Phase _OCR-D_
(technologische Vorbereitung Massen-Volltextdigitalisierung)
- DFG-Ausschreibung vsl. März 2020
- für erfolgreiche Modulprojekte / Pilotbibliotheken
- Verstetigung FuE Texterkennung/Dokumentanalyse
(Digitalisierungs- und Forschungsinfrastruktur d. Bibliotheken, Forschungsprojekte)
- Weiterarbeit/Unterstützung Open-Source-OCR
{"metaMigratedAt":"2023-06-15T03:20:55.791Z","metaMigratedFrom":"YAML","title":"Arbeitsschwerpunkte / Projekte / Pläne","breaks":false,"description":"Institutskolloquium ASV 2020","slideOptions":"{\"theme\":\"white\",\"slideNumber\":true}","contributors":"[{\"id\":\"c62f1b15-791a-47e1-8e4c-ab2ed00c04bc\",\"add\":2050,\"del\":4897}]"}