Dokumentation der Pilotierungserfahrungen im Wiki

# Dokumentation der Pilotierungserfahrungen im Wiki ## Vorhandene Doku * Wie seid ihr mit der vorhandenen Doku zurechtgekommen? * Ist die Aufteilung in setup, user und workflow guide verständlich * Wo hättet ihr euch noch weitere Informationen gewünscht? Was musstet ihr mehrfach lesen, um es zu verstehen? * Wie hättet ihr euch die Dokumentation noch gewünscht (andere Strukturierung, ...)? * Wie hilfreich ist die `ocrd-foo --help` Ausgabe? ## Testerfahrungen * Welche Prozessoren habt ihr getestet? Habt ihr euch mit einem Bereich besonders intensiv beschäftigt? * Welche positiven und negativen Erfahrungen habt ihr mit diesen Prozessoren auf euren Vorlagen gemacht? * Welche Prozessoren haben bei welchen Vorlagen die besten Ergebnisse erzielt? * Welche Parameter haben bei welchen Vorlagen die besten Ergebnisse erzielt? * Welche Prozessoren/Parameter waren für bestimmte Vorlagen ungeeignet? * Welche Prozessorenkombinationen/Workflows habt ihr getestet? * Mit welchen Workflows habt ihr auf welchen Vorlagen die besten Ergebnisse erzielt? * Gibt es einen Workflow, der bei dem Großteil eurer Vorlagen erfolgreich war oder bei dem für andere Vorlagen ggf. nur geringfügig Parameter angepasst werden mussten? * Welche Prozessorenkombinationen haben gar nicht funktioniert oder nur sehr schlechte Ergebnisse erzielt? * Was für Bilddaten habt ihr getestet? * Von Film oder direkt digitalisiert? * Welche DPI? Verlässlich? * TIFF oder JPEG oder PNG? JPEG2000? * Bibliografische Epoche und Werkart? * Habt ihr Beispielbilder, die wir zu den Parameter-/Prozessoren-/Workflowempfehlungen im Wiki einstellen könnten? ## Marius Nisslmueller ### Doku * Fehlende System Requirements waren ein Problem * Zu neues Python in zu neuem Ubuntu 20.04 * Workspace-Konfiguration unpraktisch in Docker * Docker-Befehle zu lang und umständlich * Satz ergänzen dass neuere Ubuntu Versionen wegen Python 3.8 nicht kompatibel ist * Betonen, dass Docker-Deployment auch mit neuerem Ubuntu/Windows/MacOSX möglich ist statt nur "Alternatively use Docker" * Workflow-Doku * Fehlt Dokumentation wie Docker-Befehl aussieht mit Modell laden * Docker vs nativ * nativ: vorteil einfachere aufrufe * docker: vorteil plattformunabhängig * Befehle im User Guide/Workflow Guide: Immer auch Docker-Befehl mit angeben * Insbesondere auch für die Example-Workflows am ende des WF Guide * Einteilung in user&setup&workflows * System Requirements für alle 4 Installationsvarianten * Docker als Virtuelle Maschine nutzen zumindest zum Einstieg * Docker-Aufrufe mit Erklärung wie man Modelle mountet * `--help` * besser auf der Webseite dokumentieren * Parameter sollten *alle* in der Doku gelistet werden * tesserocr: Ggf. erwägen ob PSM parametrisierbar sein ### Testerfahrung * anybase-binarize * olena-binarize: Binarisierung Algos in OLENA durchgetestet -> Hinweis auf die verschiedenen Algos in WF Guide * cropping: teilweise text abgeschnitten -> kein cropping, weil vorlagen weitgehend gecroppt * (Fehlendes) Cropping verursachte Fehler in der Segmentierung => Cropping ist notwendig * `k` Parameter für olena: dokumentieren, dass nur für sauvola greift * Dokumentieren wie man Parameterwerte mit Leerzeichen mit `-P` dokumentiert * tesseract > calamari mit empfohlenen Modellen (aber evtl. Calamari ohne) * tesseract: Modell-Pfad mit TESSDATA_PREFIX prominenter dokumentieren * tesserocr-segment: Gedoppelte Fussnoten? * preprocess-image mit ImageMagick wavelet-denoise * Hamburg macht Tamilische OCR mit Papyri (Sprachkentnnisse optional) ### Bilddaten * TIFFs aus JPEG2000 erzeugt, aber mit starken JPEG-Artefakten * 570 Seiten * 72dpi * tw. Zeitungsseiten in Fraktur von Film ### Sonstiges * ocrd-sanitize ggf. auch wärend der Verabeitung weil METS sonst riesig wird und HDD-Platz verballert