owned this note
owned this note
Published
Linked with GitHub
# Treffen der AG OCR auf der DHd Jahrestagung
## Rahmendaten
- Dienstag, 03.03.20, 14.00-17.30 Uhr
- Raum Q 5 245
- [Programm der DHd2020](https://dhd2020.de/programm)
- Agenda: https://hackmd.io/@kba/ag-ocr (dieses Dokument)
- <del>Kurzzusammenfassung für AG Vorstellung: <code>https://docs.google.com /presentation/d/1LA5_Am4RZm-_0VUEiGLhUmIfgVrzPFIoigcKKXLbx2U</code></del> (**nicht bearbeiten**)
## Grobes Programm
- Impulsvorträge zu verschiedenen Themen (ca. 14-15 Uhr)
- [OCR-D Stand März 2020](https://hackmd.io/@kba/2020-03-02-dhd-ocrd) (Konstantin Baierer <del>und Matthias Boenig</del>)
- [OCR-D Website Relaunch](https://ocr-d.de)
- [<del>QURATOR (Clemens Neudecker)</del>](https://www.slideshare.net/cneudecker/kuratieren-mit-knstlicher-intelligenz)
- Working Paper – Praktische Erfahrung der AG „Digitales Publizieren“ (Michael Dahnke)
- Aufteilung der Convenorschaft (Michael Dahnke)
- Stefan von der Heide: [CCS (Content Conversion Specialists) – Vorstellung und mögliche Kooperation](https://files.gitter.im/ag-ocr/community/wrnl/CCS_2020-03_DHdPaderborn_OCR-AG.pdf)
- Bernhard Liebl - [Zwischenergebnisse der Erkennung des Berliner Börsenblatts](https://www.dropbox.com/s/lpcvz9eph1hsiov/Zwischenergebnisse.pdf)
- Aktivitäten der AG (ca. 15-16 Uhr)
- DHd-geförderte Projekte
- [Aktuelles Projekt (Formatkonvertierung)](https://hackmd.io/@kba/2020-03-02-dhd-page2alto)
- Beantragung des nächsten Projekts
- Nächstes AG Treffen
- Weitere Aktivitäten
- [Ausbau der Website](https://hackmd.io/LRDZ5bx7QJyo9RxstGjzpw)
- Ideensammlung [siehe unten](#Weitere-Aktivitäten)
- Freie Diskussion in Kleingruppen (ca. 16-17 Uhr)
- Sammeln der Ergebnisse und gemeinsamer Abschluss (ca. 17-17:30 Uhr)
## Notizen / Kommentare / Protokoll
### Weitere Aktivitäten
#### Nächstes DHd-gefördertes Projekt
- Gemeinsame, systematische Evaluation verschiedener Lösungen für verschiedene Schritte des OCR Workflows auf vielfältigem Material
- ...?
- \[Beitrag aus der Ferne, Andreas W.\] Kann man Ground Truth aus vorhandenen TEI/Image Sammlungen machen? Vgl. [Clemens Neudeckers Tweet](https://twitter.com/cneudecker/status/1234503058748530688). Was ist nötig? Was müssen die TEI- und Image-Dateien mitbringen?
> [name="cneud"] Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung)
- Ausbau einer gemeinsamen Virtualbox Appliance mit ocr4all, OCR-D, scantailor etc.
- Konzeption, ggf. Implementierung, einer OCR-as-a-Service Cloudlösung, die perspektivisch kostengünstig auf AWS, Heroku, Azure deploybar ist
- Konsolidierung der diversen ocropy-Forks und Modernisierung der Codebase
- Leicht verständliche und umsetzbare Dokumentation zu Training, von GT-Erstellung bis zum Modell mit tesstrain, calamari und ocropy
#### Nächste(s) AG Treffen
- Vorschläge für Lokalität?
- Mainz (Nikolaus)?
- Erlangen (Vincent)?
- Hamburg (Stefan)?
#### Sonstiges
- Working Paper
- Hackathon unter dem Dach der AG (Kays Vorschlag aus Telko)
* ggf. Coding da Vinci?
* andere Struktur: Institutionen liefern Daten, Teilnehmer bilden Gruppen und entwickeln Prototypen auf den Daten. Aber: OCR-Daten oder zu-OCR-ende-Daten wären denkbar. @cneud
## Diskussion
### CCS ([Präsi](https://files.gitter.im/ag-ocr/community/wrnl/CCS_2020-03_DHdPaderborn_OCR-AG.pdf))
* Kommerzielle Dienstleister, die Layout-Analyse für OCR-D als leicht nutzbares Produkt anbieten könnten, entweder on-premise oder in der Cloud, durchaus reizvoll für bspw. DNB.
* Neu oder iterativ weiterentwickelte Modelle teilen?
### White Paper
* Als zitierbare Quelle für den State-of-the-art
* Zielgruppe: Digital Humanists und Bibliotheken
* Ggf. in Verbindung mit DHd-Projekt zu Dokumentation
* Spannungsfeld: Detailreichtum vs. Up-to-date-ness
### Convenorschaft
* Derzeit kein Bedarf an geänderter Struktur, aber falls Entlastung notwendig, nochmal mit größerem Quorum erruieren
### Weitere Projekte
* Dokumentationsprojekt zu Training oder "OCR für Dummies" für Endanwender
* GT aus TEI: Spannende Idee, (zu) schweres Problem
* evtl. Dramen, Poesie wegen kodierten Zeilenumbrüchen
* > [name="cneud"] Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung)
* a propos: rui dong und david smith hatten alignment von segmentierung und DTA-Daten gemacht, vermeintlich zu 95% fertig, bei Rui Dong nachhaken.
* Einschränken auf bestimmte Domäne, Textart o.ä.
* ocropy: Zu engineeringlastig und spezifisch
* OCR-as-a-service: Evaluieren was DFN, DFG, Länder usw. an nicht-kommerziellen Alternativen zu AWS, Azure etc. bieten
* Virtualbox Appliance: Denkbar, kein zu großer Aufwand (Vorarbeiten OCR4all, OCR-D, Florian Landes)
* Modellrepositorium: Muss von OCR-D kommen, da dort essentiell und weitgehend fertiger Prototyp von Rui Dong und Mathias Seuret vorhanden