Robert Sachunsky

@bertsky

Joined on Jun 7, 2019

  • Robuste und performante Verfahren für die Layoutanalyse in OCR-D Beitrag SLUB (Arbeitstreffen) Robert Sachunsky    ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) 26.11.2024 : https://hackmd.io/@bertsky/ocrd-layout-meeting Status Fortschritt OCR-D (allgemein)
     Like  Bookmark
  • OCR-D, was bisher geschah (Überblick, Verlauf, Status) Robert Sachunsky, Kay-Michael Würzner   ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) 3.3.2023 : https://hackmd.io/@bertsky/ocrd-recap-dfg Überblick Projekthistorie Ziel: Volltextdigitalisierung der VD-Bestände (16.-19. Jh.)
     Like  Bookmark
  • Robuste und performante Verfahren für die Layoutanalyse in OCR-D (Vorschau DFG-Projekt) Robert Sachunsky    ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) 3.3.2023 : https://hackmd.io/@bertsky/ocrd-layout-vorab-kurz Motivation Optical Layout Recognition (OLR):conditio sine qua non für "gute" Texterkennung (OCR) Durchbruch mit Paradigmenwechsel zu Deep-Learning-Ansätzen:in OCRin OLRForschungseit ~2009seit ~2015Anwendungseit ~2016seit ~2018?
     Like  Bookmark
  • (Stand: 30.11.2022) Aktuelle Issues und Pull-Requests Spezifikation: https://github.com/OCR-D/spec/issues (35) https://github.com/OCR-D/spec/pulls (8) Implementierung/Framework: https://github.com/OCR-D/core/issues (78) https://github.com/OCR-D/core/pulls (20)
     Like  Bookmark
  • Erstellung wissenschaftlich nachnutzbarer Volltexte für Präsentation und Analyse am Beispiel obersorbischer Drucke Wito Böhmak                                    ![si-logo](https://www.serbski-institut.de/wp-content/themes/serbski_2021/img/si_logo_weiss.svg =200x) Robert Sachunsky                 ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =150x)![slub-logo](https://web.archive.org/web/20040523122611im_/http://www.tu-dresden.de/slub/_images/iTitle_Header.gif =x30) Kay-Michael Würzner     ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =150x)![slub-logo](https://web.archive.org/web/20040523122611im_/http://www.tu-dresden.de/slub/_images/iTitle_Header.gif =x30) 8. Bibliothekskongress Leipzig, 1.6.2022 : https://hackmd.io/@bertsky/bibkon22-hsb-si-slub Themen/Todo Veröffentlichung hsb-Modelle für Antiqua/Fraktur plus GT
     Like  Bookmark
  • Implementation ProjectOCR‑D / Kitodo Erik Sommer                     ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) Robert Sachunsky       ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) Katya Rykhlinskaya    1st OCR-DIII developer workshop, 29 Nov 2021 : https://hackmd.io/@bertsky/ocrd-workshop1-kitodo Status and Planning Development
     Like  Bookmark
  • ImplementierungsprojektOCR‑D / Kitodo Stefan Weil                ![ubm-logo](https://www.bib.uni-mannheim.de/typo3conf/ext/uma_site/Resources/Public/Images/Icons/logo-ub-de.svg =200x) Robert Sachunsky   ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) Kitodo-Anwendertreffen, 24-25.11.2021 : https://hackmd.io/@bertsky/kitodo-anwendertreffen-ocrd Was ist OCR-D? Projekthistorie
     Like  Bookmark
  • Von Zeilen- und Zeichenerkennung zur germanistischen Textanalyse Dominik Hetjens     ![tud-logo](https://tu-dresden.de/++theme++tud.theme.webcms2/img/tud-logo.svg =200x) Robert Sachunsky   ![slub-logo](https://www.slub-dresden.de/typo3conf/ext/slub_template/Resources/Public/Images/slublogo.svg =200x) Partizipative Transkriptionsprojekte in Museen, Archiven, Bibliotheken Oktober 2021, Berlin https://hackmd.io/@bertsky/workshop-transkriptionsprojekte-2021-10 Kooperation SLK/TU Dresden ↔ SLUB
     Like  Bookmark
  • Integration of Kitodo and OCR-D for Productive Mass-Digitisation OCR-D Phase 3 Kick-Off Robert Sachunsky July 29, 2021 Implementation Project Kitodo / OCR-D Participants Sächsische Landesbibliothek –
     Like  Bookmark
  • Integration of Kitodo and OCR-D for Productive Mass-Digitisation OCR-D Phase 3 Kick-Off Robert Sachunsky July 30, 2021 Implementation Project Kitodo / OCR-D 8 man-years, 2 years, 3 libraries: Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden
     Like  Bookmark
  • Since GT4HistOCR has been published, various OCR models have been trained on all or subsets of the data for various engines. This is an account of how well these models fare: Tesseract models trained at UB Mannheim – published 2019-2020 Calamari models trained by Qurator team – published 2019-2020 Calamari models trained by ZPD / Uni Würzburg ... TODO The original corpus had various flaws, which have been semi-automatically corrected by UB Mannheim. Also, there have been multiple full training runs by both teams. Methodology
     Like  Bookmark
  • Beim Wechsel von Tesseract auf Calamari (wegen GPU-Unterstützung und besserer Nachverarbeitung) hängen wir zunächst stark von einem für deutschsprachige Gegenwartsdokumente geeigneten Modell ab – Calamari liefert ja keines mit. (Das von Tesseract mitgelieferte deu hat zwar auch viele systematische Fehler und wurde rein synthetisch trainiert, ist aber nicht leicht zu überbieten.) Zwar gibt es schon eine Reihe von Modellen für historische Drucke (und Handschriften): Qurator Calamari OCR4all (Auswertung auf historischen Daten: siehe GT4HistOCR-Auswerung.)
     Like  Bookmark
  • OCR-D Produktiv (Einführung zu Konzept und Benutzung)¹ Robert Sachunsky, Uni Leipzig, 12.05.2021 : https://hackmd.io/@bertsky/HyJgghd_d 1: basiert auf: Konstantin Baierer – https://dhd-ag-ocr.github.io/slides/OCR@vDHd-Z1.pdf
     Like  Bookmark
  • [TOC] Projektziel Die Layout-Workbench soll deutlich effizienter werden, wobei der Fokus zunächst auf der Stapelverarbeitung (Durchsatz) liegt. Außerdem ist die LW funktional so zu erweitern, daß eine robuste Einteilung von Bildseiten in vordefinierte Klassen ermöglicht und Workflows seitenklassenspezifisch spezialisiert werden können. Performance-Optimierung Profiling zur Identifikation von Auffälligkeiten des Betriebsmittelbedarfs (CPU, RAM, I/O) innerhalb des Workflows Beseitigung von Flaschenhälsen in Prozessoren durch algorithmische und programmtechnische Optimierung Erweiterung der Optionen zur Parallelisierung von Workflows zusätzlich zur dokumenten-parallelen um seiten-parallele Prozessierung
     Like  Bookmark
  • Layout-Analyse für Tabellen-Dokumente: Zwischenbericht Verbund-Arbeitstreffen Smart-HEC 15.01.2021 Robert Sachunsky, J. Nathanael Philipp, Dr. Andreas Niekler Übersicht Rekap.: Problemstellung Rekap.: Lösungsansatz Schwierigkeiten
     Like  Bookmark
  • OCR-Workflows mit OCR-D Robert Sachunsky Leipzig, 18. Dezember 2020 Übersicht Projekt Ziele Architektur
     Like  Bookmark
  • Nutzung von Tesseract für die Layout-Analyse und Tabellen-OCR Robert Sachunsky Leipzig, 18. Dezember 2020 Übersicht Geschichte Leistungsmerkmale Layout-Analyse (allgemein)
     Like  Bookmark
  • The Current Model Currently, the OCR-D API stipulates the following run-time model for OCR-D processors: Workflow engine calls processor on a workspace with a number of parameters. The processor gets started, parses the CLI arguments, and loads all its config files and models into memory. It reads/deserialises the METS. It chdirs into the workspace directory and loops over all pages, consuming files in the input fileGrp(s), producing files in the output fileGrp(s), respectively. This involves physical I/O for PAGE and image files. It writes/serialises the METS. The processor exits and wakes up the workflow engine again.
     Like  Bookmark
  • Layout-Analyse für Tabellen-Dokumente: Zwischenbericht Verbund-Arbeitstreffen Smart-HEC 25.09.2020 Robert Sachunsky, Dr. Andreas Niekler Übersicht Rekap.: Problemstellung Rekap.: Lösungsansatz Schwierigkeiten
     Like  Bookmark
  • Layout-Analyse für Seitenstruktur mit Deep Learning SCADS.AI-SLUB-Auftakttreffen 07.10.2020 Robert Sachunsky (SLUB) Übersicht Problemstellung Related Work Lösungsansatz
     Like  Bookmark