# Dokumentation der Pilotierungserfahrungen im Wiki
## Vorhandene Doku
* Wie seid ihr mit der vorhandenen Doku zurechtgekommen?
* Ist die Aufteilung in setup, user und workflow guide verständlich
* Wo hättet ihr euch noch weitere Informationen gewünscht? Was musstet ihr mehrfach lesen, um es zu verstehen?
* Wie hättet ihr euch die Dokumentation noch gewünscht (andere Strukturierung, ...)?
* Wie hilfreich ist die `ocrd-foo --help` Ausgabe?
## Testerfahrungen
* Welche Prozessoren habt ihr getestet? Habt ihr euch mit einem Bereich besonders intensiv beschäftigt?
* Welche positiven und negativen Erfahrungen habt ihr mit diesen Prozessoren auf euren Vorlagen gemacht?
* Welche Prozessoren haben bei welchen Vorlagen die besten Ergebnisse erzielt?
* Welche Parameter haben bei welchen Vorlagen die besten Ergebnisse erzielt?
* Welche Prozessoren/Parameter waren für bestimmte Vorlagen ungeeignet?
* Welche Prozessorenkombinationen/Workflows habt ihr getestet?
* Mit welchen Workflows habt ihr auf welchen Vorlagen die besten Ergebnisse erzielt?
* Gibt es einen Workflow, der bei dem Großteil eurer Vorlagen erfolgreich war oder bei dem für andere Vorlagen ggf. nur geringfügig Parameter angepasst werden mussten?
* Welche Prozessorenkombinationen haben gar nicht funktioniert oder nur sehr schlechte Ergebnisse erzielt?
* Was für Bilddaten habt ihr getestet?
* Von Film oder direkt digitalisiert?
* Welche DPI? Verlässlich?
* TIFF oder JPEG oder PNG? JPEG2000?
* Bibliografische Epoche und Werkart?
* Habt ihr Beispielbilder, die wir zu den Parameter-/Prozessoren-/Workflowempfehlungen im Wiki einstellen könnten?
## Marius Nisslmueller
### Doku
* Fehlende System Requirements waren ein Problem
* Zu neues Python in zu neuem Ubuntu 20.04
* Workspace-Konfiguration unpraktisch in Docker
* Docker-Befehle zu lang und umständlich
* Satz ergänzen dass neuere Ubuntu Versionen wegen Python 3.8 nicht kompatibel ist
* Betonen, dass Docker-Deployment auch mit neuerem Ubuntu/Windows/MacOSX möglich ist statt nur "Alternatively use Docker"
* Workflow-Doku
* Fehlt Dokumentation wie Docker-Befehl aussieht mit Modell laden
* Docker vs nativ
* nativ: vorteil einfachere aufrufe
* docker: vorteil plattformunabhängig
* Befehle im User Guide/Workflow Guide: Immer auch Docker-Befehl mit angeben
* Insbesondere auch für die Example-Workflows am ende des WF Guide
* Einteilung in user&setup&workflows
* System Requirements für alle 4 Installationsvarianten
* Docker als Virtuelle Maschine nutzen zumindest zum Einstieg
* Docker-Aufrufe mit Erklärung wie man Modelle mountet
* `--help`
* besser auf der Webseite dokumentieren
* Parameter sollten *alle* in der Doku gelistet werden
* tesserocr: Ggf. erwägen ob PSM parametrisierbar sein
### Testerfahrung
* anybase-binarize
* olena-binarize: Binarisierung Algos in OLENA durchgetestet -> Hinweis auf die verschiedenen Algos in WF Guide
* cropping: teilweise text abgeschnitten -> kein cropping, weil vorlagen weitgehend gecroppt
* (Fehlendes) Cropping verursachte Fehler in der Segmentierung => Cropping ist notwendig
* `k` Parameter für olena: dokumentieren, dass nur für sauvola greift
* Dokumentieren wie man Parameterwerte mit Leerzeichen mit `-P` dokumentiert
* tesseract > calamari mit empfohlenen Modellen (aber evtl. Calamari ohne)
* tesseract: Modell-Pfad mit TESSDATA_PREFIX prominenter dokumentieren
* tesserocr-segment: Gedoppelte Fussnoten?
* preprocess-image mit ImageMagick wavelet-denoise
* Hamburg macht Tamilische OCR mit Papyri (Sprachkentnnisse optional)
### Bilddaten
* TIFFs aus JPEG2000 erzeugt, aber mit starken JPEG-Artefakten
* 570 Seiten
* 72dpi
* tw. Zeitungsseiten in Fraktur von Film
### Sonstiges
* ocrd-sanitize ggf. auch wärend der Verabeitung weil METS sonst riesig wird und HDD-Platz verballert