okralact

a multi-engine Open Source OCR training system

Rui Dong, Konstantin Baierer, Clemens Neudecker

Slides: https://hackmd.io/@kba/SyiQKUCUH

okralact a multi-engine Open Source OCR training system Rui Dong, Konstantin Baierer, Clemens Neudecker Slides: https://hackmd.io/@kba/SyiQKUCUH

{"metaMigratedAt":"2023-06-15T00:06:25.162Z","metaMigratedFrom":"YAML","title":"okralact - a multi-engine Open Source OCR training system","breaks":false,"description":"Yeah.","slideOptions":"{\"theme\":\"blood\",\"spotlight\":{\"enabled\":false}}","contributors":"[{\"id\":\"e8137db5-d2e1-4125-8f51-e51a4ef3646b\",\"add\":9708,\"del\":3916},{\"id\":\"522e25fb-df8d-45d9-92fc-8ba16bd41dd1\",\"add\":60,\"del\":0}]"}

okralact

a multi-engine Open Source OCR training system

OCRopus

kraken

calamari

tesseract

Training

Basic Approach

Different Conventions (examples)

Case in Point: tesstrain (formerly known as ocrd-train)

Standardize!

Why?

Ground Truth

Training

Evaluation

Models

Architecture

Caveat

Tech stack

Engine-agnostic training interfaces:

Let's do this!

Thank you!