Kollaboratives Dokument
für https://vdb-org.github.io/2018-11-05-Hamburg/
Willkommen zum Library Carpentry Workshop an der SUB-HH :-) Dies ist ein MarkDown-Pad, in dem wir Notizen, Links, Fragen, etc. teilen. Die MarkDown-Syntax wird oben hinter dem (?)
-Button kurz erklärt.
Bitte vor dem Workshop schon die Setup-Anleitungen durcharbeiten.
Schön wäre auch, wenn Sie vorab die Umfrage ausfüllen könnten: Pre-workshop survey
Motivation (Vorstellungsrunde)
- Umgehen mit Statistiken
- Metadatenmanagement, Schnittstellen
- Scripte geerbt
- Analyse und Prüfung von Metadaten aus Verlagen
- Arbeit effizienter gestalten
- Tieferen Einstieg in Themen, z.B. Shell-Scripte
- alltägliche bibliothekarische Prozesse automatisieren
- Format Library Carpentry
- Hintergrundwissen für Datenverarbeitung in Forschungsinformationssystemen
- CSV-Dateien bearbeiten und vereinheitlichen mit OpenRefine
- IT-Prozesse nachvollziehen zu können (z.B. Git)
- viel Veränderung, dazu gerne informieren, um mitreden zu können
- sich selbst breiter aufstellen im Bereich Datenmanagement
- Input in zeitgemäßen Hilfsmitteln
- Weiterbildung zu spezifischen Alltagshilfen
Tag 1 Vormittag: Jargon Busting und Data Intro
Jargon Busting / Fachchinesisch erklären
oft verwendete Begriffe
- Data Prinzipien
- Software nativ, generisch
- "nativ" = in der zum Betriebssystem passenden Sprache programmiert
- Ökosystem
- Interdisziplinarität
- shell script => siehe Tag 2
- Linked Data
- Bibliothekarische Schnittstellen wie OAI-PMH, SRU
- Cloud Computing
- virtuelle Maschine
- "Computer waren wie Haustiere, sind heute eher wie Vieh"
- Cloud = viele virtuelle Maschinen, die je nach aktuellem Bedarf hoch- & runtergefahren werden. Weder Nutzer noch Betreiber müssen sich drum kümmern, auf welcher Maschine gerade welche Aufgabe erfüllt.
- reconciliation
- Anreicherung (z. B. in Open Refine), indem Datensätzen von externen Datenquellen ergänzende Informationenen hinzugefügt werden
noch offen
- Begriffe in der Linux-Welt, z.B. grafische Oberfäche
- weniger Probleme mit Vokabeln, mehr die Sinnzusammenhänge - wie Frage formulieren ohne Fachbegriffe zu können
- rechteckige Daten: Zuordnenbarkeit
- Shell => siehe Tag 2
Hilfsmittel
- Google
- Glossare
- Wissensstrukturen im Haus, z.B. Wiki oder kollegialer Austausch
- StackOverflow.com, insbesondere Fehlermeldungen suchen (!!!)
- in Projekten "Kochbücher" erstellen
- Warum automatisieren?
- Arbeitserleichterung für häufig wiederkehrende Aufgaben
- Beispiel Fernleihkonto im GBV einrichten
- "immer wenn Maus- & Tastaturgeräusche irgendwie rhythmisch klingen"
- Vorteile von einfachen Textformaten (.txt, .csv, .xml, Markdown)
- Änderungen über Versionsverwaltung leichter nachvollziehbar
- Plattformunabhängig
- Zusatz: vi & nano <3 (Linux)
- Beispiel für Texteditor unter Windows (von LC empfohlen): Notepad++
- Unterschiedliche Zeichensätze können bei Datenlieferungen (z.B. von Verlagen) problematisch sein. Ein guter Texteditor kann dies erkennen.
- Nicht Standard-Texteditoren (Wordpad / Editor) von Windows verwenden. strange things may happen
- Für akademische Publikationen findet Markdown immer weitere Verbreitung. Das Format lässt sich gut in andere Zielformate (PDF, DOCX, HTML) umwandeln
- Beispiele für Markdown-Editor
- Beispiel für Transformationswerkzeug: Pandoc
- Dateinamen für Metadaten verwenden
- Inhaltsbeschreibung (Titel)
- Datumsstempel möglichst "invertiert" mit Jahr, Monat, Tag z.B. 20181105 oder 2018-11-05
- ggf. Namenskürzel Bearbeiter/in
- ggf. Versionierung (falls kein Versionierungssystem vorliegt)
- bei automatisierter Verarbeitung möglichst ohne Leerzeichen (stattdessen Unterstrich (_) verwenden), ggf. auch besser ohne Umlaute
- Empfehlung für Kleinschreibung, damit Autovervollständigung auf der Kommandozeile genutzt werden kann
- Dateien im Batch umbenennen (Bordmittel Win 10?)
- Regular Expressions (Reguläre Ausdrücke)
- Übung mit RegEx: https://librarycarpentry.github.io/lc-data-intro/04-regular-expressions/index.html
- Zum Testen: https://regex101.com/
- Frage: Was bedeutet "++"? => Erläuterung siehe https://www.regular-expressions.info/possessive.html unter "How Possessive Quantifiers Work"
Greedy |
Lazy |
Possesive |
+ |
+? |
++ |
Materialien zum Selbststudium
Falls sich der Browser nach dem Start von OpenRefine nicht automatisch öffnet: http://127.0.0.1:3333
Speichern: Während der Arbeit sichert Open Refine alle 5 Minuten automatisch. Am Ende unter Windows Open Refine in der Komandozeile mit Strg + C beenden, um sicherzugehen, dass Open Refine heruntergefahren wurde und alle Änderungen seit dem letzten Autosave auch gesichert wurden.
Kapitel 2
Häufigste Ursache, falls Daten nicht eingelesen werden können: Arbeitsspeicher. Wie der erhöht werden kann, folgt weiter unten.
Kapitel 3
Trennzeichen sollten selbst nicht in den Daten vorkommen. Daher etwas nehhmen, dass nur schwer über die Tastatur zu erzeugen ist.
Kapitel 5
Kapitel 8
Kapitel 10
- Beispiel, um Datumsformat 01/11/2015 zu konvertieren:
- value.replace("/","").toDate("ddMMyyyy").toString("yyyy-MM-dd")
- value.toDate("false").toString("yyyy-MM-dd")
Sammlung Anwendungsfälle
Tag 2 Vormittag: Shell
Warum und wozu Shell?
- Automatisierung von Arbeitsschritten
- Verarbeitung großer Datenmengen, die Software mit grafischer Benutzeroberfläche "überfordern"
- bei der Arbeit auf Server-Systemen (die mehrheitlich mit Linux betrieben werden) steht nur die Shell zur Verfügung, keine grafische Oberfläche vorhanden
- viele Werkzeuge für die Arbeit mit bibliografischen Daten werden über die Kommandozeile bedient. Beispiele: yaz, catmandu, sed, awk
Beispiel aus der Arbeit der UB Kiel: Einführung eines Discovery-Systems für die Hochschule
- Verarbeitung und Indexierung von MARC-Daten (> 5 Mio. Datensätze) mit Shell-Skripten
- Analyse der Daten mit Spezial-Interface für Solr: https://github.com/lucidworks/banana
- Beispielehafte Fragen, die zu klären sind:
- Welche Ausleihindikatoren sind vorhanden?
- Welche Werte stehen in gewissen Feldern? Wichtig dabei ist die Abhängigkeit von Werten in mehreren Feldern.
Befehle:
- ls (list) listet Dateien
- ls -lh menschenlesbare Details
- pwd (print working directory) WO. BIN. ICH. GERADE???
- curl Dateien herunterladen
- unzip entpacken
- cd change directory
- cd ohne weitere Angaben - bring mich nach Hause
- mkdir (make directory) - einen ordner erstellen
- cat
- head (nur die ersten 3 Zeilen anzeigen: head -n 3)
- tail (nur die letzten 3 Zeilen anzeigen: tail -n 3)
- less
- mv (move) umbenennen
Hilfe zu Shell-Befehlen:
In der Kommandozeile
- [Kommando] –help
- man [Kommando] (nur unter Linux und MacOS; mit Git Bash unter Windows leider nicht vorhanden)
Online-Hilfen
Übungen
Die Instructors stehen Ihnen/Euch auch nach dem Workshop für Fragen zu den Übungen gerne zur Verfügung. Phú: phu@openbiblio.eu
OpenRefine in der Shell "fernsteuern"
Windows (mit Git Bash)
-
OpenRefine starten
-
Installation OpenRefine-Client
curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_windows.exe
chmod +x openrefine-client_0-3-4_windows.exe
- Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_windows.exe --list
- Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
curl -O -L https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl -O -L https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
- Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv
Linux
- OpenRefine starten
- Installation OpenRefine-Client
wget https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_linux-64bit
chmod +x openrefine-client_0-3-4_linux-64bit
- Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_linux-64bit --list
- Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
wget https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
wget https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
- Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv
Mac OS X
- OpenRefine starten
- Installation OpenRefine-Client
curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_mac
chmod +x openrefine-client_0-3-4_mac
- Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_mac --list
- Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
curl https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
- Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv
OpenRefine automatisieren mit Shell-Script
Windows (mit Git Bash)
- Datei für Shell-Script anlegen und im Editor Nano öffnen
- Standard-Beginn für Shell-Scripte einfügen
- Befehle von oben einfügen
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv
- Nano beenden mit
STRG+X
und Abfrage, ob gespeichert werden soll, bestätigen
- Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
- Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_windows.exe --delete "doaj-article-sample"
- Shell-Script ausführen
Linux
- Datei für Shell-Script anlegen und im Editor Nano öffnen
- Standard-Beginn für Shell-Scripte einfügen
- Befehle von oben einfügen
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv
- Nano beenden mit
STRG+X
und Abfrage, ob gespeichert werden soll, bestätigen
- Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
- Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_linux-64bit --delete "doaj-article-sample"
- Shell-Script ausführen
Mac OS X
- Datei für Shell-Script anlegen und im Editor Nano öffnen
- Standard-Beginn für Shell-Scripte einfügen
- Befehle von oben einfügen
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv
- Nano beenden mit
STRG+X
und Abfrage, ob gespeichert werden soll, bestätigen
- Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
- Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_mac --delete "doaj-article-sample"
- Shell-Script ausführen
Tag 2 Nachmittag: Git
Wenn ihr in vi gefangen seid, dann kommt ihr dort mit ":q!" wieder heraus ohne mögliche Änderungen zu speichern.
- Wichtige git-Kommandos auf einen Blick:
git init
git config
git add
git commit
git log
git show
git status
git remote add
git revert
git checkout
GitHub-URLS für gegenseitige Tippfehlerkorrektur-Pull-Requests gerne hier einfügen
Memo der DozentInnen
- Es ist oft das Wort "einfach" gefallen, die Wertung ob etwas einfach ist, ist aber je nach Perspektive und Vorerfahrung unterschiedlich. Das Adjektiv sollte vermieden werden, weil es den TeilnehmerInnen suggeriert, dass sie es können müssen.
Niedrigschwellige Einstiege