Treffen der AG OCR auf der DHd Jahrestagung

# Treffen der AG OCR auf der DHd Jahrestagung ## Rahmendaten - Dienstag, 03.03.20, 14.00-17.30 Uhr - Raum Q 5 245 - [Programm der DHd2020](https://dhd2020.de/programm) - Agenda: https://hackmd.io/@kba/ag-ocr (dieses Dokument) - <del>Kurzzusammenfassung für AG Vorstellung: <code>https://docs.google.com /presentation/d/1LA5_Am4RZm-_0VUEiGLhUmIfgVrzPFIoigcKKXLbx2U</code></del> (**nicht bearbeiten**) ## Grobes Programm - Impulsvorträge zu verschiedenen Themen (ca. 14-15 Uhr) - [OCR-D Stand März 2020](https://hackmd.io/@kba/2020-03-02-dhd-ocrd) (Konstantin Baierer <del>und Matthias Boenig</del>) - [OCR-D Website Relaunch](https://ocr-d.de) - [<del>QURATOR (Clemens Neudecker)</del>](https://www.slideshare.net/cneudecker/kuratieren-mit-knstlicher-intelligenz) - Working Paper – Praktische Erfahrung der AG „Digitales Publizieren“ (Michael Dahnke) - Aufteilung der Convenorschaft (Michael Dahnke) - Stefan von der Heide: [CCS (Content Conversion Specialists) – Vorstellung und mögliche Kooperation](https://files.gitter.im/ag-ocr/community/wrnl/CCS_2020-03_DHdPaderborn_OCR-AG.pdf) - Bernhard Liebl - [Zwischenergebnisse der Erkennung des Berliner Börsenblatts](https://www.dropbox.com/s/lpcvz9eph1hsiov/Zwischenergebnisse.pdf) - Aktivitäten der AG (ca. 15-16 Uhr) - DHd-geförderte Projekte - [Aktuelles Projekt (Formatkonvertierung)](https://hackmd.io/@kba/2020-03-02-dhd-page2alto) - Beantragung des nächsten Projekts - Nächstes AG Treffen - Weitere Aktivitäten - [Ausbau der Website](https://hackmd.io/LRDZ5bx7QJyo9RxstGjzpw) - Ideensammlung [siehe unten](#Weitere-Aktivitäten) - Freie Diskussion in Kleingruppen (ca. 16-17 Uhr) - Sammeln der Ergebnisse und gemeinsamer Abschluss (ca. 17-17:30 Uhr) ## Notizen / Kommentare / Protokoll ### Weitere Aktivitäten #### Nächstes DHd-gefördertes Projekt - Gemeinsame, systematische Evaluation verschiedener Lösungen für verschiedene Schritte des OCR Workflows auf vielfältigem Material - ...? - \[Beitrag aus der Ferne, Andreas W.\] Kann man Ground Truth aus vorhandenen TEI/Image Sammlungen machen? Vgl. [Clemens Neudeckers Tweet](https://twitter.com/cneudecker/status/1234503058748530688). Was ist nötig? Was müssen die TEI- und Image-Dateien mitbringen? > [name="cneud"] Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung) - Ausbau einer gemeinsamen Virtualbox Appliance mit ocr4all, OCR-D, scantailor etc. - Konzeption, ggf. Implementierung, einer OCR-as-a-Service Cloudlösung, die perspektivisch kostengünstig auf AWS, Heroku, Azure deploybar ist - Konsolidierung der diversen ocropy-Forks und Modernisierung der Codebase - Leicht verständliche und umsetzbare Dokumentation zu Training, von GT-Erstellung bis zum Modell mit tesstrain, calamari und ocropy #### Nächste(s) AG Treffen - Vorschläge für Lokalität? - Mainz (Nikolaus)? - Erlangen (Vincent)? - Hamburg (Stefan)? #### Sonstiges - Working Paper - Hackathon unter dem Dach der AG (Kays Vorschlag aus Telko) * ggf. Coding da Vinci? * andere Struktur: Institutionen liefern Daten, Teilnehmer bilden Gruppen und entwickeln Prototypen auf den Daten. Aber: OCR-Daten oder zu-OCR-ende-Daten wären denkbar. @cneud ## Diskussion ### CCS ([Präsi](https://files.gitter.im/ag-ocr/community/wrnl/CCS_2020-03_DHdPaderborn_OCR-AG.pdf)) * Kommerzielle Dienstleister, die Layout-Analyse für OCR-D als leicht nutzbares Produkt anbieten könnten, entweder on-premise oder in der Cloud, durchaus reizvoll für bspw. DNB. * Neu oder iterativ weiterentwickelte Modelle teilen? ### White Paper * Als zitierbare Quelle für den State-of-the-art * Zielgruppe: Digital Humanists und Bibliotheken * Ggf. in Verbindung mit DHd-Projekt zu Dokumentation * Spannungsfeld: Detailreichtum vs. Up-to-date-ness ### Convenorschaft * Derzeit kein Bedarf an geänderter Struktur, aber falls Entlastung notwendig, nochmal mit größerem Quorum erruieren ### Weitere Projekte * Dokumentationsprojekt zu Training oder "OCR für Dummies" für Endanwender * GT aus TEI: Spannende Idee, (zu) schweres Problem * evtl. Dramen, Poesie wegen kodierten Zeilenumbrüchen * > [name="cneud"] Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung) * a propos: rui dong und david smith hatten alignment von segmentierung und DTA-Daten gemacht, vermeintlich zu 95% fertig, bei Rui Dong nachhaken. * Einschränken auf bestimmte Domäne, Textart o.ä. * ocropy: Zu engineeringlastig und spezifisch * OCR-as-a-service: Evaluieren was DFN, DFG, Länder usw. an nicht-kommerziellen Alternativen zu AWS, Azure etc. bieten * Virtualbox Appliance: Denkbar, kein zu großer Aufwand (Vorarbeiten OCR4all, OCR-D, Florian Landes) * Modellrepositorium: Muss von OCR-D kommen, da dort essentiell und weitgehend fertiger Prototyp von Rui Dong und Mathias Seuret vorhanden

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.