Treffen der AG OCR auf der DHd Jahrestagung

Rahmendaten

Grobes Programm

Notizen / Kommentare / Protokoll

Weitere Aktivitäten

Nächstes DHd-gefördertes Projekt

  • Gemeinsame, systematische Evaluation verschiedener Lösungen für verschiedene Schritte des OCR Workflows auf vielfältigem Material
  • ?
  • [Beitrag aus der Ferne, Andreas W.] Kann man Ground Truth aus vorhandenen TEI/Image Sammlungen machen? Vgl. Clemens Neudeckers Tweet. Was ist nötig? Was müssen die TEI- und Image-Dateien mitbringen?

"cneud" Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung)

  • Ausbau einer gemeinsamen Virtualbox Appliance mit ocr4all, OCR-D, scantailor etc.
  • Konzeption, ggf. Implementierung, einer OCR-as-a-Service Cloudlösung, die perspektivisch kostengünstig auf AWS, Heroku, Azure deploybar ist
  • Konsolidierung der diversen ocropy-Forks und Modernisierung der Codebase
  • Leicht verständliche und umsetzbare Dokumentation zu Training, von GT-Erstellung bis zum Modell mit tesstrain, calamari und ocropy

Nächste(s) AG Treffen

  • Vorschläge für Lokalität?
    • Mainz (Nikolaus)?
    • Erlangen (Vincent)?
    • Hamburg (Stefan)?

Sonstiges

  • Working Paper
  • Hackathon unter dem Dach der AG (Kays Vorschlag aus Telko)
    • ggf. Coding da Vinci?
      • andere Struktur: Institutionen liefern Daten, Teilnehmer bilden Gruppen und entwickeln Prototypen auf den Daten. Aber: OCR-Daten oder zu-OCR-ende-Daten wären denkbar. @cneud

Diskussion

CCS (Präsi)

  • Kommerzielle Dienstleister, die Layout-Analyse für OCR-D als leicht nutzbares Produkt anbieten könnten, entweder on-premise oder in der Cloud, durchaus reizvoll für bspw. DNB.
  • Neu oder iterativ weiterentwickelte Modelle teilen?

White Paper

  • Als zitierbare Quelle für den State-of-the-art
  • Zielgruppe: Digital Humanists und Bibliotheken
  • Ggf. in Verbindung mit DHd-Projekt zu Dokumentation
  • Spannungsfeld: Detailreichtum vs. Up-to-date-ness

Convenorschaft

  • Derzeit kein Bedarf an geänderter Struktur, aber falls Entlastung notwendig, nochmal mit größerem Quorum erruieren

Weitere Projekte

  • Dokumentationsprojekt zu Training oder "OCR für Dummies" für Endanwender
  • GT aus TEI: Spannende Idee, (zu) schweres Problem
    • evtl. Dramen, Poesie wegen kodierten Zeilenumbrüchen
    • "cneud" Vorteil bei Wittfind ist, dass die TEI Transkription über explizit kodierte Zeilenumbrüche verfügt (essentiell für Zeilen-Text-Image Alignierung)

    • a propos: rui dong und david smith hatten alignment von segmentierung und DTA-Daten gemacht, vermeintlich zu 95% fertig, bei Rui Dong nachhaken.
  • Einschränken auf bestimmte Domäne, Textart o.ä.
  • ocropy: Zu engineeringlastig und spezifisch
  • OCR-as-a-service: Evaluieren was DFN, DFG, Länder usw. an nicht-kommerziellen Alternativen zu AWS, Azure etc. bieten
  • Virtualbox Appliance: Denkbar, kein zu großer Aufwand (Vorarbeiten OCR4all, OCR-D, Florian Landes)
  • Modellrepositorium: Muss von OCR-D kommen, da dort essentiell und weitgehend fertiger Prototyp von Rui Dong und Mathias Seuret vorhanden
Select a repo