# Protokoll Auftakt-VC Pilotierung
## Vorstellungsrunde der Implementierungsprojekte
### SUUB Bremen/UB Frankfurt/ULB Bonn
* OCR-D soll in alle VL-Bib integriert werden
* an Kitodo-Projekt interessiert; bitte um Erfahrungsaustausch
* Göttingen Service-Broker, Massen-OCR, Skalierbarkeit
* Halle Migration
* Würzburg, Leipzig/Dresden, Mannheim für alle interessant
* semantics Beteiligung: Projektergebnisse sollen generisch und nicht zu sehr auf VL zugeschnitten sein
*
#### Fragen
1. Ist die "Offene OCR-Infrastruktur" so zu verstehen, dass Bibliotheken entweder einen eigenen OCR-D Server betreiben oder einen OCR-D Server vom Dienstleister zur Verfügung gestellt bekommen?
2. Wie möchten Sie das Konsortium der VL-Biblioteken organisieren und wie gewährleisten Sie, dass ein Technologie-Transfer alle Partner erreicht.
### SLUB Dresden/UB Mannheim/UB Braunschweig
* Production + Presentation für OCR-D nutzen
* Nutzer sollen in DFGviewer selbst OCR anstoßen können
* Hartwig: pdf erstellen
* Nölte: generische Software, auch gut nachnutzbar
*
#### Fragen
1. "verteilten Betrieb sowie die Bereitstellung des OCR-Dienstes durch einen dedizierten" - gibt es dazu schon weitergehende Überlegungen, denn Unterstützung bei OCR(-D) durch (kommerzielle) Dienstleister ist ein Desiderat vieler Projekte
2. "Dabei soll konfigurierbar sein, ob die bestehenden Ergebnisse ersetzt oder ergänzt werden sollen" - gibt es Überlegungen zu Versionierung, bzw. der Darstellung zitierfähiger Versionen im DFG Viewer?
3. "keine exklusiven Abhängigkeiten zu Kitodo" - hinsichtlich der großen Änderungen in Kitodo.Production V.30 - können Sie abschätzen ob das Betriebsmodell auch auf Goobi übertragbar ist?
### Uni Würzburg
* Eingriffsmöglichkeiten auch für GT-Erstellung gut
* OCR4all auch als Webdienst möglich
* GUI, niedrigschwellige Anwendung auch bei anderen Anträgen
* Synergien bei GT-Erstellung (schon eigene tools vorhanden)
* QA Synergien
* Kooperationen: Anwender gesucht
* Kay: Verhältnis zu Larex (pc separat zu Larex)
* Clemens: Tester auch aus OCR4all-community? in Pilotierung erstmal Prototyp machen; wirklihc Suche nach bestandshaltenden Einrichtungen; was brauchen Bibliotheken (workflows)
* Nölte: GUI OCR-Job definieren; Zusammenarbeit Interesse
#### Fragen
1. OCR4all wurde ja auf mehreren Workshops vorgestellt, auch ein "Train the trainers" Ansatz war zumindest im Gespräch - könnt ihr eure Erfahrungen damit kurz zusammenfassen und könntet ihr euch vorstellen, wie das ggf. auf die OCR-D Community übertragbar wäre?
2. Mit der Software Transkribus gibt schon heute eine recht gute und stabile Software, die von Einzelnutzern genutzt wird. Worin liegen die funktionalen Unterschiede mit Eurem Implementierungs-Ansatz?
### ULB Halle
* Datenmigration generisch nachnutzbar
* Cluster/Parallelisierung, QS (GT-los)
* PDF-Erstellug, OCR + Strukturdaten
* Kitodo-Interesse
* Kay: DSpace internationalere Ausrichtung => Ergebnisse international bekannt machen
* DFG-Viewer interessant
* Mustafa: auch IIIF? => jein; erstmal nicht im Antrag aber perspektivisch angedacht (hätten schon Lösung)
* Matthias: Datenmigration auch Problemlösung für wiederholte OCR? Versionierung im Repo geplant, Viewer + pdf on the fly für neuerste Version erstellt
#### Fragen
1. "PDF-Datei des vollständigen Werkes" - "Sandwiched PDF" sind ja ein häufigeres Desiderat. Gibt es dazu schon erste Tests, bspw. mit ocrd_pagetopdf, wie gut das funktioniert?
2. "Der komplette Workflow soll bei **Projektabschluss** auf GitHub zur Verfügung gestellt werden" - darüber bin ich etwas gestolpert, ich hoffe, dass wir bereits vorher über GitHub u.ä. kooperieren werden.
3. "Generieren von Fußzeilen für die Präsentationsbildderivate" - Wenn ich recht verstehe: Visuelles Wasserzeichen - wofür?
4. Inwieweit wird Ihre geplante Lösung auch dem Problem gerecht, der sogenannten immer wiederholenden OCR auf Grund von verbesserten Erkennungsmodellen?
5. Ihr Testkorpus wird ca. 5000 Seiten umfassen. Ist die Titelliste schon jetzt fertiggestellt? Wie sind Sie bei der Auswahl der Titel vorgegangen: thematisch, zeitlich oder phänomenologisch?
### ThULB Jena/VZG
* eigentlich andere Ansprechpartner
* viele Digitalisate vorliegend
* VZG prüft Normdatenanreicherung
* Jena OCR für nachträgliche Texterkennung
* MyCoRe hervorheben
* Clemens: Normdatenanreicherung? tagging der OCR
* Elisabeth: direkte Einbindung in Digitalisierungsprozess? soll evaluiert werden inwieweit möglich ohne zu viel manuelle Arbeit?
* Matthias: Anbindung an MyCoRe? nur schwache Anbindung geplant; keine Steuerung des OCR-Prozesses; wie Tagging unterbringen + wie gut Erkennung?
* Hartwig: Normdaten bis NER/LOD gedacht? erstmal nur NER; dbpedia spotlight aus Leipzig gemacht, könnte vllt. interessant sein
*
#### Fragen
1. "MyCoRe-Community insgesamt" - Ich kenne die MyCoRe Community nicht - wie weit verbreitet ist die Software und wie ist die Community organisiert?
2. "sollen die OCRBibliotheken von OCR-D durch das Projekt deutlich erweitert und durch Anbindung von Erschließungsnormdatenquellen qualitativ ergänzt werden." - was ist damit gemeint?
3. Der Bestand des VD umfasst viele verschiedene Digitalisierungs-Workflow-Systeme. <del>Warum soll gerade MyCoRe diese Disharmonie harmonisieren?</del><ins>Was hebt MyCoRe von anderen Repo-Lösungen hervor?</ins>
### Fraunhofer
* Fraunhofer hat keine eigenen Digitalisate
* OCR-D bei anderer Ausschreibung mit anderen Tools verglichen
* über Kombination mit anderen tools sehr gute Ergebnisse erreichbar
* Massenverarbeitungs-Lösung vorhanden die schon produktiv im Einsatz
* Hartwig: schon konkrete Schnittstellen vorhanden? ja
* Weil: VD-Drucke oder Zeitungen?
* Kay: Layout suboptimal; wie funktionsfähiges tools nutzbar für andere? tool soll auch mit entsprechenden Lizenzen bereitgestellt werden; Schnittstellen Anbindung möglich
* Weil: API oder Open Source auf Github? abhängig von Funktionsumfang von OLR; Submodule als Source Code möglich
* Matthias: OLR in Pilotierung für andere kostenlos nutzbar + vergleichbar zu bisherigen tools? ja
#### Fragen
1. "Suche nach einem oder mehreren Partnern für die Pilotierungsphase" - gab es dazu seit Einreichen des LoI schon Gespräche?
2. "DocuLib" - Können Sie etwas zur Lizensierung und Nutzung in Kultureinrichtungen sagen? Haben Sie vor, DocuLib in OCR-D unter einer freiverfügbaren Lizenz zu integrieren?
3. "Anwendungsszenarien mit Partnern" - Möchten Sie die Modulprojekte des DFKI bzw. das Erlangen-Mainz-Leipzig weiterentwickeln oder ist der Fokus eher die Integration in DocuLib
### Uni Siegen
* Fokus auf Praxiseinsatz + Verbreitung von OCR-D
* DMS bereits im Einsatz sodass auch schon Zugriff auf Prozesse möglich + großer Kundenstamm vorhanden (Museen, Immobilienverwalten) sollen für Praxiseinsatz genutzt werden
* Herausforderung Implementierung WSL für Endanwender
* technische Integration selbst recht einfach
* Barrierefreiheit auch evaluieren
* auch für Nicht-Techniker nutzbar
* Interesse an Massenprozessierung; bieten sich für Begleitevaluation an
* Weil: WSL problemlos
* Konstantin: Serverlösung wahrscheinlich schwieriger
#### Fragen
1. "bitfarm Archiv" - wer sind typische Kunden und wird es eine Testplattform geben, um auch Nicht-Kunden die OCR-D-Integration zu demonstrieren?
2. "Barrierefreiheit" - ein erfreulicher Anwendungsfall. Gibt es dazu schon Erfahrungen wie OCR bspw. Blindenarbeitsplätze unterstützt?
3. Welche Erfahrungen haben Sie mit frei-verfügbarer OCR-Software? Sowie welche Erfahrungen haben Sie bei der automatischen Handschriftenerkennung?
### SUB Göttingen/GWDG
* OLA-HD entwickelt
* Integration in Goobi/Kitodo mit Fokus auf Skalierbarkeit
* 2 Szenarien (bereits digitalisierte + neue Werke)
* Pilotierung mit HPC-Installation
* Kay: OLA-HD in MP nur konzeptionell gemacht => jetzt weiterentwickeln? kein Implementierungsszenario
* MP bald zu Ende; dann Konzept in die Runde geben
* Wieder: zugrunde liegende Software auch in anderen Umgebunden genutzt; das auf jeden Fall weiterentwickeln
* Kay: Parallelisierung schon viele Diskussionen => Angebot zur Unterstützung (Robert!)
##### Fragen
1. "bereits digitalisierte vs. neue zu digitalisierende Werke" - Was ist hier konzeptionell der Unterschied?
2. "Sammeln und Priorisieren der Anforderungen, die Auswahl des Testmaterials" - Gibt es dazu auch Gespräche mit Anwendern, bspw. der Digital Humanities?
### MWW
* einrichtungsübergreifende Sammlungserforschung beim MWW im Vordergrund
* digitale Labore im VFR sind forschungsprozessorientiert
* Nutzerfreundlichkeit wichtig (ohne Kommandozeile!)
* Webdienst (sodass nur an 1 Stelle Updates nötig) per Fomular bedienbar
* IIIF Manifeste nutzen da einfacher als Upload einzelner Digitalisate
* LZA auch interessant (dafür jetzt eigene Stelle)
* Clemens: ohne METS muss in Pilotierung genau angeschaut werden
* Kay: starke Änderung in core nötig wenn IIIF statt METS genutzt; wie Zusammenspiel Implementierung + Koordinierung möglich; MWW Beteiligung an Weiterentwicklung von core-Bibliothek geplant? => eigentlich nicht direkte Arbeit am Code geplant (wollen sich lieber auf anderes konzentrieren) => muss bald mit Koordinierung geklärt werden
* Matthias: Integration in FDM geplant? => 2 Stellen dazu in MWW; derzeit noch keine konkreten Lösungen vorhanden
#### Fragen
1. "VFR vs. bibliothekarische Erschließungssysteme" - Gibt es neben dem VFR auch hauseigenen Digitalisierungsworkflows und ist angedacht, OCR(-D) auch dort zu verankern?
2. Gibt es Überlegungen hinsichtlich "Crowdsourcing", bspw. manuelle Nachkorrektur von OCR-Ergebnissen?
### Uni Leipzig/SLUB Dresden
* automatische QS weil sehr großes Desiderat
* Möglichkeit sich damit von allen anderen OCR-Lösungen abzuheben
* viele Überschneidungen mit anderen Absichtserklärungen (Training + letztlich (fast) alle anderen Projekte)
* Nutzbarmachung DTA für OCR-D geplant
* Hartwig: QS sehr wichtig; selbst Experimente gemacht (Wörterbuchvergleich mit OCR; Austausch-Angebot)
* Robert: in letzten TechCalls auch schon Evaluation als Thema; Abstimmung dazu sehr wichtig!
#### Fragen
1. Nutzung von DTA-Daten - Inwieweit weicht der geplante Ansatz ab von GT4HistOCR oder dem Vorgehen von David Smith/Rui Dong ab?
### ULB Darmstadt
* bereits viel GT zu Tagblatt vorhanden bzw. wird gerade erstellt (mit ABBYY)
* Evaluation auf Prozessorenebene sodass optimaliste Konfiguration herausgefunden werden kann (auf Tagblatt-Korpus)
* Empehlungs-/Entscheidungssystem erstellen sodass vorkonfigurierte Konfigurationspakete ausgewählt
* bieten sich als Kooperationspartner an
* Konstantin: Computational Double Keying macht Calamari schon direkt mit; bekannt? Nachkorrektur-Projekte bekannt? => noch nicht gemacht, wird aber angeschaut
#### Fragen
1. "Computational Double Keying" - wurden Calamari's Voting oder die Modulprojektergebnisse von Leipzig und München in dieser Hinsicht schon evaluiert?
### UB Mannheim
* Modelle sehr wichtig für OCR-Qualität
* generische Modelle bieten sehr viele Möglichkeiten da mit verschiedenen Sprachen + Schriften nutzbar
* vereinfacht OCR für Nutzer deutlich
* werkspezifisches Modelltraining als Webdienst anbieten
* vorhandener GT kann mithilfe automatischer Tools verbessert werden
* Robert: Ansatz wiederspricht typegroupclassifier; Mannheim eher homogene Datensätze trainiert; wie erfolgsversprechend? => früher werksspezifischer Ansatz; nach GT4HistOCR Erkenntnis dass anders
#### Fragen
1. Das Training von Modellen setzt GroundTruth voraus. Inwieweit setzen Sie Methoden der Erzeugung von synthetische Trainingsdaten ein?
2. Ist der Ansatz des Trainings von werkspezifischen Modellen als nachfolgender Vorgang zur OCR/Korrektur gedacht worden? Kann das Training auch vom Nutzer des Dokumentes angestoßen werden.
3. Inwieweit ist Ihr Ansatz in Kitodo oder einem anderen System implementierbar?
### Uni Hamburg
* Anwendungsbereiche OCR-D in Manuskriptforschung
* zumindest Teile von OCR-D für Manuskripte nutzbar
* keine Massenverarbeitung sondern Qualitätssicherung
* Topic Modeling, GUI
* Kay: was in eigentlicher Projektphase gemacht? Segmentierung, Multispektralbilder
#### Fragen
1. Welches FDM-System nutzen Sie? Wie verbreitet ist dieses System? Ist dieses System um Module z.B. OCR erweiterbar?
2. Denken Sie, dass ein Workflow für die Massendigitalisierung, der Feedback von Nutzenden fordert, effizient und in angemessener Zeit die Aufgabe der Volltextdigitalisierung der VD realisieren kann?
3. Die Digitalisierung von Forschungsdaten aus Druckpublikationen setzt nicht die vollständige Volltextdigitalisierung voraus. Sehen Sie nicht hier einen Zielkonflikt gegenüber der Aufgabe des OCR-D Projektes die Massenvolltextdigitataliserung ganzer Bestände (VD16,17,18) zu realisieren?
### GEI Braunschweig
* GEI als assozierter Projektpartner angeboten
* wollen testen, haben use cases
* Schulbücher vorhanden, viel digitalisiert (auch Spezialfälle wie Fibeln, Atlanten)
* QS von OCR wichtig wegen DH-Projekten
* wollen unabhängig werden von OCR-Dienstleistern
* Schwerpunkt in Generierung von GT-Daten (mit DHlern)
* bereits Zusammenarbeit mit OCR4all
* Goobi-Anwender
* Kay: Partner wie GEI super für alle!
* Reul: großes Interesse an GEI
* Siegen auch Interesse
#### Fragen
1. Wie sieht der derzeitige Stand aus bei der Implementation eines FDM-Systems?
2. In der Vergangenheit haben Sie Digitalisierungen von Dienstleistern realisiert, möchten Sie ein eigenes System aufbauen?
3. Das GEI ist ein Institut der Leibnitz Gemeinschaft, inwieweit wird an einem gemeinsamen FDM innerhalb dieser Gemeinschaft gearbeitet?
## Ausgestaltung der Pilotierung
* Hartwig: super Support!
* Bedarfe melden: Nur bestehende MP können weiterentwickelt werden lt. DFG.
* > Ich melde Bedarf an für eine automatische “Workflow-Identifizierung”, Texterkennung verbessern durch “Generische Modelle + Nachtraining” und soetwas wie “Training-as-a-service” (Webdienst)
* > [name=Manfred Nölte]
* Workshop 7. August
## Links
https://github.com/tesseract-ocr/tesstrain/wiki/Fibeln
https://hackmd.io/n9KF5LGzQ2-KB6buYUwJVQ
https://github.com/OCR-D/ocrd-website/wiki/OCR-D-on-Windows
Kontaktdaten DFG (Werner) mit Fragebogen + Folien verschicken