Protokoll zum Antragsworkshop (7.8.2020)

# Protokoll zum Antragsworkshop (7.8.2020) ## aktuelle Entwicklungspläne des Koordinierungsprojekts ## Update der Implementierungsvorhaben ### SUUB Bremen/UB Frankfurt/ULB Bonn * 16 Bibliotheken potentiell Interesse an Implementierung * QA auch Set an Standardworkflows möglich/geplant? * VZG ausführlichere Gespräche => erst Geschäftsmodell, jetzt eher API * Bedarf an Koordinierung für API-Entwicklung (Training + OCR) * Frankfurt Docker, Bremen nativ installiert * user guide schwierig * Bonn 17.8. große VC mit VL #### Fragen VL * Karlsruhe jetzt Pilotbibliothek, semantics Interesse an Open Source ### ThULB Jena/VZG * MyCoRe eher verworfen * Jena keine Ressourcen für Entwicklung * Kooperation mit Bremen intendiert #### Fragen VZG * Aufgabenverteilung der gemeinsamen API-Entwicklung in möglichst viele Anträge unterbringen ### SLUB Dresden/UB Mannheim/UB Braunschweig * API wichtig * Kommandozeile <=> Web API * wer entwickelt backend/job queue? * Halle hat sich als Pilotnutzer angeboten * MWW API-Interesse * Leipzig nicht mehr dabei (QA) * Kernidee des Projekts evtl. in Kitodo-Projekt einbinden * #### Fragen Kitodo * ### Uni Würzburg * vermutlich zusammen mit GEI Braunschweig als Anwender Antrag stellen * Worfklows zusammenstellen und dann möglichst auch exportieren und für OCR-D nutzen * Ergebnisse von Workflows visualisieren um Probleme zu finden * Taggings vergeben sodass daran Testsets erstellt werden können * Training gemischter Modelle für Calamari (Ergänzung zu Tesseract, Mannheim) * Infrastruktur aus Würzburg könnten andere Projekte nutzen * METS-Schnittstelle hat funktioniert * Pilotierung weitgehend abgeschlossen + läuft alles * Layoutevaluation Lösung inzwischen vorhanden? #### Fragen OCR4all * Gameifizierung GT-Produktion * ### ULB Halle * Austausch mit Göttingen für Performanz * QA war/ist auch großes Interesse * kleineres Testset schon durchlaufen lassen => Fokus auf Performanz, Parallelisierung * Datenbereinigung über OAI-Schnittstelle recht aufwändig => Hilfe von Koordinierung erwünscht (zu viele fileGroups) * neue Derivate müssen erzeugt werden (pdf mit Volltexten, ...) * nach Prozessierung bereinigen (Zwischenergebnissebnissebnisse) * bei Altdaten unterschiedlichste Konventionen/Standards => Herausforderung * #### Fragen Halle * ### SUB Göttingen/GWDG * Altbestand Bilddigitalisate + Neudigitalisate prozessieren * Fokus auf Parallelisierung/HPC * Gespräche mit anderen Implementierungspartnern (z.B. Halle, ...) * #### Fragen Göttingen ### UB Mannheim * viele Mannheim angefragt wegen Zusammenarbeit => Mannheim an allen Interesse * GT-Aufwertung gerade als wichtiges Thema * in Transkribus-GT meist nur Baselines gut (aber nicht line boxes) => gerade auf der Suche nach gutem Werkzeug für Verbesserung * Multiparameter-Analyse für Training aus Leipzig gerade veröffentlicht * Trainingsdaten-Verbesserung sicher auch für Würzburg interessant #### Fragen Mannheim * in Kraken neue Segmentierungsmethode um Polygone aus Baselines zu erzeugen * Angebot für Letter of Support zu Projektidee ### MWW * Fokus auf Niedrigschwelligkeit + einfache Nutzbarkeit für einzelne Forschungsprojekte * Interesse an Zusammenarbeit mit Siegen * Nutzbarmachung für IIIF soll als Bedarf an Koordinierung gemeldet werden * großes Interesse an API * Tests erst gestartet, Know.How zu OCR-D fehlt noch * #### Fragen MWW * Bremen Interesse an gemeinsamem Anfänger-Workshop zu OCR-D => könnte in SupportCall gemacht werden * Installationsprobleme in Wiki sammeln * ### Uni Siegen * Bitfarm abgesprungen => derzeit auf der Suche nach Kooperationspartnern * Kooperation mit OCR4all eher nicht möglich * offen für weitere Kooperationen #### Fragen Siegen * Barrierefreiheit für Sehbehinderte weiterhin wünschenswert * dazu schon erste Gespräche mit MWW * Kompetenzen für einfache Sprache über Konsortium auf vorhanden, könnte ggf. für Projekt genutzt werden * ### Fraunhofer/Uni Hamburg/ULB Darmstadt * Fraunhofer Fokus auf Massenverarbeitung (Implementierung Werkzeuge + Deployment auf Kubernetes-Cluster) * Hamburg Fokus auf Fronted (Integration OCR-D in Forschungsdatenrepo mit einfach bedienbarer GUI, Feedbach über eigene Test-Anwender) * Darmstadt Cloudbasierter OCR-D-Workflow auf Rechencluster, Integration mit GUI * Docker + native Installation mit verschiedensten Workflows und Materialien getestet * Darmstadt soll auf Implementierung von Fraunhofer aufbauen #### Fragen Forschungsdatenrepo ### SLUB Dresden/Uni Leipzig #### Fragen Dresden * Projekte die QA-Ergebnisse nutzen wollten sollten diese an Dresden melden damit diese ggf. in neuem Antrag berücksichtigt werden können ## Diskussion möglicher Koordinierungs- und Entwicklungsbedarfe ### Koordinierung * API (Dresden auch Interesse an gemeinsamen Entwicklungen für Backend (job queue, Parallelisierung, ...); gefühlt alle) * IIIF (METS über IIIF-Manifest laden oder direkt IIIF in OCR-D (als Alternative zu METS) ermöglichen; Schwierigkeiten mit fehlenden IIIF-Konventionen => Umfrage unter Bibliotheken + DFG-Praxisregeln; MWW) * Datenbereinigung (OCR-D-(Zwischen-)Ergebnisse => ocrd-sanitize; Halle sammelt "Probleme" und Konkordanzen in Tabellen und würde diese der Koordinierung + anderen Einrichtungen zugänglich machen) Halle) * Bereinigung Input-Daten von nicht zu prozessierenden Seiten (Buchdeckel, leere Seiten, Tabellen, ... => so soll zum einen nicht unnötig Rechenzeit vergeudet werden, zum anderen kommt es bei diesen Seiten bei der abschließenden Konversion zu Problemen/Abbrüchen; Bedarf wird von Halle (ggf. in Absprache mit Koordinierung) selbst bedient; eigentlich war Interesse an Nachnutzung von QA-Ergebnissen) * Berücksichtigung QA-Ergebnisse in möglichst allen OCR-D-Werkzeugen + dynamisch während Workflow sodass z.B. schlechte Seiten erkannt und aussortiert oder Workflow abgebrochen werden kann * ### Weiterentwicklung * Page Splitting (nur für Altdaten (bei Neudigitalisaten ohnehin Einzelseiten vorliegend, kein großer Bedarf; Frage aus Würzburg) * Aber ggf. informelles Projekt für DIY-Bookscanner von hnesk mit vouissour * Segmentierung (Marginalien (Würzburg)) * Texterkennung Textattribute (z.B. für Lexika relevant, für eng begrenzte Korpora schon gemacht/möglich <=> derzeit (vermutlich) nicht ausweitbar/für Vielzahl an Vorlagen nutzbar; auch für GT-Produktion relevant, mehr perspektivisch) * wird gerade in calamari evaluiert ob das möglich ist * ggf. für MWW/HAB Arbeitskreise bzw. die Forscher interessant * wäre v.a. für Erkennung von Titelblättern wichtig/hilfreich * Würzburg Forscher? * LZA kein Interesse (nur Göttingen sich selbst genannt) * aber auch nicht geleugnet, dass LZA interessant und wichtig ist * SLUB sieht keinen Bedarf, da hausintern bereits "vorerst" ausreichend guter Workflow * Mustafa betont Adressierbarkeit, Versionierung usw., nicht nur LZA für OLA-HD ## Hinweise zur Antragstellung * Keine Verlängerung Abgabetermin Pilotierungsfragebogen * Nachfrage wer weiterentwickeln darf und wie spezifisch Bedarfe formuliert werden müssen (Würzburg) * Nur die ursprünglichen Entwickler * Prozessor-genau