Tools im NSK-Projekt (insbesondere: Catmandu)

# Tools im NSK-Projekt (insbesondere: Catmandu) https://librecat.org/index.html SRU: https://verbundwiki.gbv.de/display/VZG/SRU | https://lab.sbb.berlin/bibliographische-daten-aus-dem-stabikat/ | http://jorol.de/talks/2020-sbb/slides/11-catmandu-praxis.html#1 Catmandu: http://jorol.de/talks/2020-sbb/slides/09-catmandu-einfuehrung.html#1 | http://jorol.de/talks/2020-sbb/slides/10-catmandu-marc-pica.html#1 Link GND: https://swb.bsz-bw.de/DB=2.104/SET=2/TTL=1/START_WELCOME Tesseract Installation: https://github.com/UB-Mannheim/tesseract/wiki | https://github.com/manisandro/gImageReader --- ## Erstellte Übersichten / Datensets - Basisklassifikation: Nummer, Name und PPN des Datensatzen ==bk.csv== - GND-Sachbegriffe: DDC (falls vorhanden), Schlagwort, ID (unklar, was genau das ist...) ==gnd_sw.csv== - Fachgruppe Theologie: NSK-Klassen ==nsk_fgr.csv== - Sachkatalogschlüssel NSK ==nsk_sk.csv== - NSK-Normdatensätze Theologie: Notation und Sachbegriff ==nsk_sys_sw.csv== - Aufstellung aller Systemstellen (Kombination nsk_fgr und nsk_sk) ==systemstellen_theologie.csv== - Schlagwörter, die in Normdaten zur Stelle The A 91 vorkommen ==schalgwoerter_nsk_91.csv== - OCR-Datensatz, strukturiert: Pfad, Kategorie, OCR-Text, Signatur, Systemstellen, ISBN ==data_gesamt.csv== - OCR-Daten mit geprüften Systemstellen (noch nicht alle geprüft, teilmanuell) ==ergebnis_vollstaendig.csv== - Datensätze, die anhand der erkannten ISBN abgerufen wurden im Ordner ==IsbnErgebnisse== # Tesseract Tesseract kann nach der Installation über die Kommandozeile ausgeführt werden. Man navigiert in den Ordner, in dem Tesseract installiert ist und führt dann dort den Tesseract-Befehl aus: ```shell! $ for %i in (D:\ProjektSE\CD_038_870\*\*.tif) do tesseract.exe "%i" "%i" -l deu+eng+ita+fra ``` Der Pfad muss angepasst werden, je nachdem, wo die Bilder liegen. Die Bilder müssen im tif-Format vorliegen (ist für den NSK gegeben). Möglich ist auch eine Ausführung über den gImageReader. # Allgemeines zu Catmandu Catmandu kann entweder über UNIX oder eine virtuelle Maschine genutzt werden. [Installationsanleitungen](https://librecatproject.wordpress.com/get-catmandu/) werden auf der Homepage bereitgestellt. Die Befehle werden über die UNIX-Shell ausgeführt. Eine Übersicht über die Befehle und sonstigen Möglichkeiten liefert die Dokumentation: https://librecat.org/Catmandu/. ## Konvertieren von Objekten / Dateien mit Catmandu über *convert* Grundstruktur des Befehls: ```shell! $ catmandu convert TYPA --fix myfixes.fix to TYPB <quelldatei.typa >zieldatei.typb ``` - TYPA: Datenformat der Quelldaten - TYPB: Datenformat der Zieldaten - Fixes: hier entweder direkt fixes (s.u.) eingeben oder Datei einbinden - Quelldatei und Zieldatei mit Dateierweiterung eingeben Beispiele: ```shell! $ catmandu convert MARC to JSON --fix 'marc_map("245","title");remove_field("record")' <records.mrc $ catmandu convert MARC to CSV --fix myfixes.fix --var source="Springer" <records.mrc ``` Dateiformate: * Typ A / [importers](https://librecat.org/Catmandu/#importers): MARC, JSON, YAML, CSV, Excel, und viele weitere Formate * für MARC gibt es verschiedene Formate: **MARCMaker** (besser lesbares MARC-Format); **MiJ** (= MARC-in-JSON); **XML** (= MARCXML); **USMARC** (use ISO as an alias); MicroLIF; RAW; Lint; ALEPHSEQ (Aleph Sequential) * Typ B / [exporters](https://librecat.org/Catmandu/#exporters): * JSON- und YAML-exporter können jeglichen Dateninput verarbeiten; unabhängig von der Datenstruktur ist es immer möglich, eine JSON- oder YAML-Datei zu erzeugen * Verschachtelungen sind in manchen Formaten nicht möglich (z.B. CSV, XLSX) und müssen dann über fixes gehandelt werden, Beispiel: `$ echo '{"colors":["red","green","blue"]}' | catmandu convert JSON to CSV --fix 'join_field(colors,",")'` Mapping-Rules: https://github.com/LibreCat/Catmandu-MARC/wiki/Mapping-rules Fixes: https://librecat.org/Catmandu/#fixes-cheat-sheet ## Anwendung im Projekt: ### Bsp. 1: Abrufen der NSK-Normdatensätze zur 'The'-Systemstelle im CBS ```shell! $ catmandu convert SRU --base 'http://sru.k10plus.de/opac-de-1!rec=2' --recordSchema marcxml --parser marcxml --query 'pica.xlsy=The *' to MARC --type MARCMaker > nskalle.mrc ``` Hier wurden über die SRU-Schnittstelle der SBB Normdatensätze abgerufen. Eingrenzung auf Normdatensätze erfolgtüber die Angabe ==!rec=2==, die die Base-URL ==http://sru.k10plus.de/opac-de-1== ergänzt. Die Daten werden im Format ==marcxml== abgerufen, mit dem Parser ==marcxml== wird nach MARC vom Typ ==MARCMaker== konvertiert. Im SBB-Lab ist eine [Einführung in die Funktionsweise der SRU-Schnittstelle](https://lab.sbb.berlin/bibliographische-daten-aus-dem-stabikat/) vorhanden, die Suchschlüssel können über die SRU-Schnittstelle abgerufen werden: [http://sru.k10plus.de/opac-de-1](http://sru.k10plus.de/opac-de-1). Mit dem Suchschlüssel ==xlsy== werden lokale Klassifikationseinträge durchsucht, in diesem Fall werden die Normdatensätze ausgewählt, die eine NSK-Notation für den Bereich Theologie aufweisen. Suchbegriff ==The \*== mit Leerzeichen und Sternchen als Platzhalter. Entsprechende SRU-Abfrage im Browser: :::info https://sru.k10plus.de/opac-de-1!rec=2?version=1.1&operation=searchRetrieve&query=pica.xlsy=The%20*&startRecord=1&maximumRecords=100&recordSchema=picaxml ::: Suchschlüssel im k10plus: :::info f lsy The * and bbl T* ::: ### Bsp. 2: Normdatensätze der Basisklassifikation abrufen Abrufen der Normdatensätze, die im Feld für die Klassifikationen mit einer Zahl beginnen: ```shell! $ catmandu convert SRU --base 'http://sru.k10plus.de/opac-de-1!rec=2' --recordSchema marcxml --parser marcxml --query 'pica.xbkl=[1234567890]*' to MARC -type MARCMaker > bk.mrc ``` Konvertieren nach .csv: ```shell! $ catmandu convert MARC --type MARCMaker to CSV < bk.mrc > bk.csv ``` ### Bsp. 3: Abrufen der Titledatensätze nach ISBN und Signatur #### ISBN Zu den aus dem OCR extrahierten ISBNs und Signaturen sollen die Titeldatensätze gesucht werden, um eine Zuordnung zu schaffen. Ziel ist es, dem Datensatz die korrekte PPN zuzuweisen. Die gefundenen Datensätze soll in eine Datei, die nach Identifier benannt ist, geschrieben werden. Für die Suche nach der **ISBN** wäre eine SRU-Beispielsuchanfrage, wie man sie im Browser ausführen würde: :::info https://sru.k10plus.de/opac-de-1?version=1.2&operation=searchRetrieve&query=pica.xsgb=1A116660&maximumRecords=10&recordSchema=mods ::: Die ISBN wird ohne Leerzeichen eingegeben, als Dateiname wird der Identifier des Datensatzes benutzt, aus dem die ISBN ausgelesen wurde. Der dazugehörige catmandu-Befehl lautet dann mit Dateiformat MARC im MARCMaker-Format ```shell! $ catmandu convert SRU --base 'http://sru.k10plus.de/opac-de-1!rec=1' --recordSchema marcxml --parser marcxml --query 'pica.xisb=____' to MARC -type MARCMaker > _____.mrc ``` Für die Erzeugung der Shell-Befehle wurde ein Shell-Script mit Python geschrieben: ```python= import csv #Funktion zum Einlesen einer .csv-Datei, gibt eine Liste mit den Werten zurück def csv_einlesen(datei): liste = [] with open(datei,encoding='utf-8-sig') as csvdatei: csv_reader_object = csv.reader(csvdatei, delimiter=';') for row in csv_reader_object: liste.append(row) return liste # MAIN liste = csv_einlesen('data_korrigiert.csv') # erzeuge Liste mit Werten aus .csv-Datei del liste[0] #löscht Überschriftenzeile liste_neu = str() # initialisiere Liste for row in liste: if row[6]: isbn = str(row[6]).rstrip(',') isbn = isbn.split(',') isbn = list(dict.fromkeys(isbn)) # identische Werte in der Liste werden entfernt k = '' # ab der zweiten gefundenen ISBN pro Datenreihe wird dem Dateinamen jeweils ein 'i' angehängt for x in isbn: # in einigen Fällen wurden mehrere ISBNs eingelesen, für diese soll jeweils eine Kommando-Befehlszeile geschrieben werden isbn_einzeln = str(x)[5:] isbn_einzeln = isbn_einzeln.replace(' ','') # Die Kommandozeilen-Befehle werden als ein zusammenhängender String mit Zeilenumbrüchen gespeichert liste_neu += ('\ncatmandu convert SRU --base \'http://sru.k10plus.de/opac-de-1!rec=1\' --recordSchema marcxml --parser marcxml --query \'pica.xisb='+isbn_einzeln+'\' to MARC -type MARCMaker > '+row[0]+k+'.mrc') k += 'i' shellscript = open('ShellIsbn.sh','w') shellscript.write(liste_neu) shellscript.close() ``` Dieses Shell-Script muss dann in den virtuellen Unix-Desktop übertragen werden und wird dort in der Shell ausgefüht (siehe unten). Die so gewonnenen Titeldatensätze werden mit catmandu in strukturiertes .csv gebracht. ```shell! $ catmandu convert MARC --type MARCMaker --fix fixIsbnExtract.fix to CSV < NSKFR990066.mrc* > NSKFR990063.csv ``` Hinter .mrc wird das Sternchen benötigt, da beim Abrufen der SRU-Schnittstelle hier Dateien mit weiteren Zeichen erzeugt wurden ==WARUM?== Auch hier wird die Shell-Datei wieder über ein Python-Script geschrieben: ```python= #Das Modul 'glob' ist eine Python-Erweiterung zum Umgang mit Pfaden und Dateien import glob def isbnListeSchreiben(Dateiliste): liste_neu = str() for row in Dateiliste: dateinamen = str(row).lstrip('IsbnErgebnisse/IsbnErgebnisse\\') dateinamen = dateinamen.rstrip('.mrc_') liste_neu += ('\ncatmandu convert MARC --type MARCMaker --fix fixIsbnExtract.fix to CSV < '+str(dateinamen)+'.mrc* > '+str(dateinamen)+'.csv ') return liste_neu #Erzeugen einer Liste mit den im Ordner vorhandenen .mrc-Dateien Dateiliste = glob.glob("IsbnErgebnisse/IsbnErgebnisse/*") liste_neu = isbnListeSchreiben(Dateiliste) # Liste in Datei schreiben: shellscript = open('ShellIsbnExtract.sh','w') shellscript.write(liste_neu) shellscript.close() ``` Fixes: Nochmal prüfen: split:1 und nested_arrays:1 (wenn Unterfelder repeatable sind!), vgl https://jorol.de/kim/slides/#122 ```clike= marc_map("001",PPN) marc_map("041a",Sprache) marc_map("264c",Erscheinungsjahr) marc_map("655a",Formschlagwort) marc_map("100a",AutorIn) marc_map("1000",AutorIn_indent,join:' / ') marc_map("245",Titel,join:' / ') marc_map("936a",Klasse_Nummer,join:' / ') marc_map("689a",Schlagwortreihe,join:' / ') marc_map("689a",Schlagwortreihe,join:' / ') marc_map("6890",Schlagwort_ident,join:' / ') remove_field('record') ``` Evtl noch weiter einbauen: Umbenennung von Dateinamen: https://lerneprogrammieren.de/dateien-pfade-umbenennen-tutorial/ --- #### Signatur Für die **Signatur** wurde genauso vorgegangen, eine Beispielsuchanfrage, wie man sie im Browser ausführen würde sähe dort so aus: :::info https://sru.k10plus.de/opac-de-1?version=1.2&operation=searchRetrieve&query=pica.xisb=3870612177&maximumRecords=10&recordSchema=mods ::: Der dazugehörige catmandu-Befehl lautet dann mit Dateiformat MARC im MARCMaker-Format ```shell! $ catmandu convert SRU --base 'http://sru.k10plus.de/opac-de-1!rec=1' --recordSchema marcxml --parser marcxml --query 'pica.xsgb=____' to MARC -type MARCMaker > _____.mrc ``` Das Python-Script zur Erstellung des Shell-Script funktioniert äquivalent: ```python= import csv def csv_einlesen(datei): liste = [] with open(datei,encoding='utf-8-sig') as csvdatei: csv_reader_object = csv.reader(csvdatei, delimiter=';') for row in csv_reader_object: liste.append(row) return liste liste = csv_einlesen('data_korrigiert.csv') liste_neu = str() for row in liste: if row[4]: sig = str(row[4]).rstrip(',') sig = sig.split(',') sig = list(dict.fromkeys(sig)) k = '' for x in sig: sig_einzeln = str(x).replace(' ','') liste_neu += ('\ncatmandu convert SRU --base \'http://sru.k10plus.de/opac-de-1!rec=1\' --recordSchema marcxml --parser marcxml --query \'pica.xsgb='+sig_einzeln+'\' to MARC -type MARCMaker > '+row[0]+k+'.mrc') k += 'i' shellscript = open('ShellSignatur.sh','w') shellscript.write(liste_neu) shellscript.close() ``` Shell für die Konvertierung: ```python= #Das Modul 'glob' ist eine Python-Erweiterung zum Umgang mit Pfaden und Dateien import glob def signaturListeSchreiben(Dateiliste): liste_neu = str() for row in Dateiliste: dateinamen = str(row).lstrip('SignaturErgebnisse/SignaturErgebnisse\\') dateinamen = dateinamen.rstrip('.mrc_') liste_neu += ('\ncatmandu convert MARC --type MARCMaker --fix fixIsbnExtract.fix to CSV < '+str(dateinamen)+'.mrc* > '+str(dateinamen)+'.csv ') return liste_neu #Erzeugen einer Liste mit den im Ordner vorhandenen .mrc-Dateien Dateiliste = glob.glob("IsbnErgebnisse/IsbnErgebnisse/*") liste_neu = signaturListeSchreiben(Dateiliste) # Liste in Datei schreiben: shellscript = open('ShellIsbnExtract.sh','w') shellscript.write(liste_neu) shellscript.close() ``` Fixes: ```clike= marc_map("001",PPN) marc_map("020a",ISBN) marc_map("022a",ISSN) marc_map("041a",Sprache) marc_map("264c",Erscheinungsjahr) marc_map("655a",Formschlagwort) marc_map("100a",AutorIn) marc_map("1000",AutorIn_indent,join:' / ') marc_map("245",Titel,join:' / ') marc_map("936a",Klasse_Nummer,join:' / ') marc_map("689a",Schlagwortreihe,join:' / ') marc_map("689a",Schlagwortreihe,join:' / ') marc_map("6890",Schlagwort_ident,join:' / ') remove_field('record') ``` ### Bsp. 4: Abrufen aller Titeldatensätze, die bereits mit einem NSK-Normdatensatz verknüpft sind Zuerst: Abrufen aller Datensätze über die SRU-Schnittstelle und speichern im MARCMaker-Format. ```shell! $ catmandu convert SRU --base 'http://sru.k10plus.de/opac-de-1!rec=1' --recordSchema marcxml --parser marcxml --query 'pica.xlsy=The *' to MARC --type MARCMaker > nsktitelalle.mrc ``` Im Vergleich zur Abfrage der Normdatensätze zum NSK-The-Bereich muss hier lediglich bei der base-URL die Angabe ==rec=2== zu ==rec=1== geändert werden. Extraktion der Daten und Abspeichern in CSV über Catmandu: Convert und Fix: ```shell! $ catmandu convert MARC --type MARCMaker to CSV --fix fixtitel.fix < nsktitelalle.mrc > nsktitelalle.csv ``` Für mich wichtige Daten aus Datenfeldern extrahieren und in .csv-Datei speichern über fix-Datei: ```clike! marc_map("001",PPN) marc_map("936a",Klasse_Nummer,join:' / ') marc_map("689a",Schlagwortreihe,join:' / ') remove_field('record') ``` und mit Shell-Befehl ```shell! $ catmandu convert MARC --type MARCMaker to CSV --fix fixnsktitel.fix <nsktitelalle.mrc >nsktitelalle.csv ``` Wichtige Felder im MARC-Datensatz: 001: PPN (ohne Unterfeld); catmandu convert MARC --type MARCMaker --fix fixIsbn.fix to CSV < NSKFR990066.mrc* > NSKFR990063.csv # Shell-Script Befehle in .sh-Datei schreiben, dann im entsprechenden Ordner zuerst ```shell! $ chmod +x DATEINAME.sh ``` und dann ```shell! $ ./DATEINAME.sh ``` ausführen. Fertig. # Statistische Auswertung (breaker) Zuerst in XML-Format konvertieren (nicht nötig! kann man direkt vom MARCMaker-Format aus machen), dann zu breaker konvertieren, dann mit breaker auswerten und anzeigen lassen. Auch möglich: Speichern in beliebiger Dateiversion ```shell! $ catmandu convert MARC --type MARCMaker to Breaker --handler marc <nsktitel_bio.mrc >nsktitel_bio.breaker $ catmandu convert MARC --type XML to Breaker --handler marc <nsktitelalle.xml >nsktitelalle.breaker $ catmandu convert MARC --type MARCMaker to Breaker --handler marc <nsk_spra.mrc >nsk_spra_breaker.breaker ## Anzeigen: $ catmandu breaker nsktitelalle.breaker ## Statistische Auswertung als csv speichern: $ catmandu breaker --as CSV nsktitelalle.breaker > nsktitelalle.csv ```

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.