Flexible OCR workflows with OCR-D

Robert Sachunsky, Kay-Michael Würzner

Workspaces

Physical representation of a METS file
- Directory with subdirectories for each file group
- Each subdirectory contains the listed files
Adding and removing files explicitly via ocrd workspace command
Adding files implicitly via ocrd process command
- Using the output file group parameter -O
Cloning remote “workspaces” (i.e. METS files)
- Access to millions of digitized books!

ocrd workspace clone \
  https://digital.slub-dresden.de/data/kitodo/gottgott_38213401X/gottgott_38213401X_mets.xml .

	`DetectOrientationScript()`	`AnalyseLayout()` + `Orientation()`
confidence	yes	no
orientation	yes	yes
script	yes	no
deskewing	no	yes
textline order	no	yes
reading direction	no	yes

Processor	Status	Note
Binarization
`ocrd-olena-binarize`	✓
`ocrd-anybaseocr-binarize`	✗	Interface
`ocrd-cis-ocropy-binarize`	✓
`ocrd-kraken-binarize`	✗	Invocation
`ocrd-tesserocr-binarize`	✓
Despeckling
`ocrd-cis-ocropy-denoise`	✓

Processor	Status	Note
Cropping
`ocrd-anybaseocr-crop`	✓
`ocrd-kraken-crop`	✗	Interface
`ocrd-tesserocr-crop`	✓
Deskewing
`ocrd-anybaseocr-deskew`	✗	Interface
`ocrd-cis-ocropy-deskew`	✓
`ocrd-tesserocr-deskew`	✓
Dewarping
`ocrd-anybaseocr-dewarp`	✗	Interface
`ocrd-cis-ocropy-dewarp`	✓

Processor	Status	Note
Region Segmentation
`ocrd-tesserocr-segment-region`	✓
Clipping/Resegmentation
`ocrd-cis-ocropy-clip`	✓
`ocrd-cis-ocropy-resegment`	✓
`ocrd-segment-repair`	✓
Line Segmentation
`ocrd-ocropy-segment`	✗	Invocation
`ocrd-kraken-segment`	✗	Invocation
`ocrd-tesserocr-segment-line`	✓

Processor	Status	Note
Font identification
`ocrd-typegroups-classifier`	✓
Text recognition
`ocrd-cis-ocropy-recognize`	✓
`ocrd-tesserocr-recognize`	✓
`ocrd-calamari-recognize`	✓

Processor	Status	Note
OCR alignment
`ocrd-cis-align`	✓
Text optimization
`ocrd-cor-asv-ann-process`	✓
`ocrd-cor-asv-fst-process`	✓
`ocrd-cis-profile`	✓
`ocrd-cis-postcorrection`	✗	Interface
`ocrd-keraslm-rate`	✓
OCR evaluation
`ocrd-keraslm-rate`	✓
`ocrd-cor-asv-ann-evaluate`	✓
`ocrd-dinglehopper`	✓

OCR	CER[%]
OCRO{fraktur}	23.7
OCRO{fraktur(jze)}	28.4
TESS{Fraktur}	12.2
TESS{frk}	11.9
TESS{frk+deu}	11.5

OCR	CER[%]	comparison
OCRO{fraktur}	23.2	(-0.5 for s/tesserocr/ocropy/)
OCRO{fraktur(jze)}	28.0	(-0.4 for s/tesserocr/ocropy/)
TESS{Fraktur}	12.1	(-0.1 for s/tesserocr/ocropy/)
TESS{frk}	11.9	(±0 for s/tesserocr/ocropy/)
TESS{frk+deu}	11.4	(-0.1 for s/tesserocr/ocropy/)

OCR	CER[%]	comparison
OCRO{fraktur}	24.4	(+1.2 for s//-DESKEW/)
OCRO{fraktur(jze)}	29.3	(+1.3 for s//-DESKEW/)
TESS{Fraktur}	12.8	(+0.7 for s//-DESKEW/)
TESS{frk}	12.6	(+0.7 for s//-DESKEW/)
TESS{frk+deu}	12.2	(+0.8 for s//-DESKEW/)

OCR	CER[%]	comparison
OCRO{fraktur}	52.6	(+28.2 for s//-DEWARP/)
OCRO{fraktur(jze)}	61.4	(+32.1 for s//-DEWARP/)
TESS{Fraktur}	13.3	(+ 0.5 for s//-DEWARP/)
TESS{frk}	13.2	(+ 0.6 for s//-DEWARP/)
TESS{frk+deu}	12.8	(+ 0.6 for s//-DEWARP/)

OCR	CER[%]	comparison
OCRO{fraktur}	53.2	(+0.6 for s/-DEWARP/-DEWARP-DESKEW/)
OCRO{fraktur(jze)}	63.0	(+1.6 for s/-DEWARP/-DEWARP-DESKEW/)
TESS{Fraktur}	13.5	(+0.2 for s/-DEWARP/-DEWARP-DESKEW/)
TESS{frk}	13.3	(+0.1 for s/-DEWARP/-DEWARP-DESKEW/)
TESS{frk+deu}	12.9	(+0.1 for s/-DEWARP/-DEWARP-DESKEW/)

OCR	CER[%]	comparison
OCRO{fraktur}	56.8	(+3.6 for s/-DEWARP-DESKEW/-DEWARP-DESKEW-RESEG/)
OCRO{fraktur(jze)}	66.0	(+3.0 for s/-DEWARP-DESKEW/-DEWARP-DESKEW-RESEG/)
TESS{Fraktur}	13.6	(+0.1 for s/-DEWARP-DESKEW/-DEWARP-DESKEW-RESEG/)
TESS{frk}	13.7	(+0.4 for s/-DEWARP-DESKEW/-DEWARP-DESKEW-RESEG/)
TESS{frk+deu}	13.3	(+0.4 for s/-DEWARP-DESKEW/-DEWARP-DESKEW-RESEG/)

OCR	CER[%]	comparison
OCRO{fraktur}	24.6	(+0.9 for s/DESKEW{BLOCK}/DESKEW{PAGE}/)
OCRO{fraktur(jze)}	29.7	(+1.3 for s/DESKEW{BLOCK}/DESKEW{PAGE}/)
TESS{Fraktur}	13.4	(+1.2 for s/DESKEW{BLOCK}/DESKEW{PAGE}/)
TESS{frk}	13.2	(+2.2 for s/DESKEW{BLOCK}/DESKEW{PAGE}/)
TESS{frk+deu}	12.7	(+1.2 for s/DESKEW{BLOCK}/DESKEW{PAGE}/)

OCR	CER[%]	comparison
OCRO{fraktur}	19.1	(-5.5 for s//DENOISE{PAGE}/)
OCRO{fraktur(jze)}	23.5	(-6.2 for s//DENOISE{PAGE}/)
TESS{Fraktur}	11.7	(-1.7 for s//DENOISE{PAGE}/)
TESS{frk}	11.8	(-1.4 for s//DENOISE{PAGE}/)
TESS{frk+deu}	11.2	(-1.5 for s//DENOISE{PAGE}/)

OCR	CER[%]	comparison
OCRO{fraktur}	23.9	(+0.2 for s//-CLIP{BLOCK}/)
OCRO{fraktur(jze)}	28.6	(+0.2 for s//-CLIP{BLOCK}/)
TESS{Fraktur}	12.3	(+0.1 for s//-CLIP{BLOCK}/)
TESS{frk}	12.3	(+0.4 for s//-CLIP{BLOCK}/)
TESS{frk+deu}	11.9	(+0.4 for s//-CLIP{BLOCK}/)

OCR	CER[%]	comparison
OCRO{fraktur}	31.2	(+7.5 for s//-RESEG/)
OCRO{fraktur(jze)}	35.1	(+6.7 for s//-RESEG/)
TESS{Fraktur}	13.2	(+1.0 for s//-RESEG/)
TESS{frk}	12.7	(+0.8 for s//-RESEG/)
TESS{frk+deu}	12.4	(+0.9 for s//-RESEG/)

OCR	CER[%]	comparison
OCRO{fraktur}	24.1	(+0.4 for s/RESEG/CLIP{LINE}/)
OCRO{fraktur(jze)}	28.9	(+0.5 for s/RESEG/CLIP{LINE}/)
TESS{Fraktur}	12.9	(+0.7 for s/RESEG/CLIP{LINE}/)
TESS{frk}	12.7	(+0.8 for s/RESEG/CLIP{LINE}/)
TESS{frk+deu}	12.4	(+0.9 for s/RESEG/CLIP{LINE}/)

OCR	CER[%]	comparison
OCRO{fraktur}	24.9	(+1.2 for s/wolf/kim/)
OCRO{fraktur(jze)}	29.6	(+1.2 for s/wolf/kim/)
TESS{Fraktur}	14.0	(+1.8 for s/wolf/kim/)
TESS{frk}	14.2	(+2.3 for s/wolf/kim/)
TESS{frk+deu}	13.8	(+2.3 for s/wolf/kim/)

OCR	CER[%]	comparison
OCRO{fraktur}	23.0	(-0.7 for s/wolf/sauvola/)
OCRO{fraktur(jze)}	27.9	(-0.5 for s/wolf/sauvola/)
TESS{Fraktur}	12.0	(-0.2 for s/wolf/sauvola/)
TESS{frk}	11.8	(-0.1 for s/wolf/sauvola/)
TESS{frk+deu}	11.5	(±0 for s/wolf/sauvola/)

OCR	CER[%]	comparison
OCRO{fraktur}	22.8	(-0.9 for s/wolf/sauvola-ms-split/)
OCRO{fraktur(jze)}	27.6	(-0.8 for s/wolf/sauvola-ms-split/)
TESS{Fraktur}	11.6	(-0.6 for s/wolf/sauvola-ms-split/)
TESS{frk}	11.5	(-0.4 for s/wolf/sauvola-ms-split/)
TESS{frk+deu}	11.1	(-0.4 for s/wolf/sauvola-ms-split/)

OCR	CER[%]	comparison
OCRO{fraktur}	36.4	(+12.7 for s/wolf/ocropy/)
OCRO{fraktur(jze)}	41.1	(+12.7 for s/wolf/ocropy/)
TESS{Fraktur}	15.7	(+ 3.5 for s/wolf/ocropy/)
TESS{frk}	14.9	(+ 3.0 for s/wolf/ocropy/)
TESS{frk+deu}	14.8	(+ 3.3 for s/wolf/ocropy/)

OCR	CER[%]	comparison
OCRO{fraktur}	23.0	(-13.4 for s/BIN{PAGE}/BIN{BLOCK}/)
OCRO{fraktur(jze)}	27.4	(-13.7 for s/BIN{PAGE}/BIN{BLOCK}/)
TESS{Fraktur}	11.5	(- 4.2 for s/BIN{PAGE}/BIN{BLOCK}/)
TESS{frk}	11.4	(- 3.5 for s/BIN{PAGE}/BIN{BLOCK}/)
TESS{frk+deu}	11.2	(- 3.6 for s/BIN{PAGE}/BIN{BLOCK}/)

OCR	CER[%]	comparison
OCRO{fraktur}	55.8	(+32.8 for s/ocropy{nlbin}/tesserocr/)
OCRO{fraktur(jze)}	63.5	(+36.1 for s/ocropy{nlbin}/tesserocr/)
TESS{Fraktur}	15.0	(+ 3.5 for s/ocropy{nlbin}/tesserocr/)
TESS{frk}	15.3	(+ 3.9 for s/ocropy{nlbin}/tesserocr/)
TESS{frk+deu}	14.8	(+ 3.6 for s/ocropy{nlbin}/tesserocr/)

OCR	CER[%]	comparison
OCRO{fraktur}	55.4	(+32.4 for s//-CLIP-DESKEW-RESEG-DEWARP/)¹
OCRO{fraktur(jze)}	64.6	(+37.2 for s//-CLIP-DESKEW-RESEG-DEWARP/)¹
TESS{Fraktur}	12.9	(+ 1.4 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{frk}	12.9	(+ 1.5 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{frk+deu}	12.7	(+ 1.5 for s//-CLIP-DESKEW-RESEG-DEWARP/)

OCR	CER[%]	comparison
OCRO{fraktur}	66.4	(+10.4 for s//-CLIP-DESKEW-RESEG-DEWARP/)
OCRO{fraktur(jze)}	72.4	(+ 8.9 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{Fraktur}	16.2	(+ 1.2 for s//-CLIP-DESKEW-RESEG-DEWARP/)²
TESS{frk}	16.9	(+ 1.6 for s//-CLIP-DESKEW-RESEG-DEWARP/)²
TESS{frk+deu}	16.4	(+ 1.6 for s//-CLIP-DESKEW-RESEG-DEWARP/)²

OCR	CER[%]	comparison
OCRO{fraktur}	56.8	(+33.1 for s//-CLIP-DESKEW-RESEG-DEWARP/)
OCRO{fraktur(jze)}	66.0	(+37.6 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{Fraktur}	13.6	(+ 1.4 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{frk}	13.5	(+ 1.6 for s//-CLIP-DESKEW-RESEG-DEWARP/)
TESS{frk+deu}	13.3	(+ 1.8 for s//-CLIP-DESKEW-RESEG-DEWARP/)

OCR	CER[%]	comparison
OCRO{fraktur}	8.33	(-14.5 for s/OCR-D/4HistOCR/)
OCRO{fraktur(jze)}	6.27	(-21.3 for s/OCR-D/4HistOCR/)
TESS{Fraktur}	8.33	(-3.3 for s/OCR-D/4HistOCR/)
TESS{frk}	?	(- ? for s/OCR-D/4HistOCR/)
TESS{frk+deu}	?	(- ? for s/OCR-D/4HistOCR/)

Flexible OCR workflows with OCR-D Robert Sachunsky, Kay-Michael Würzner