Kollaboratives Dokument

für https://vdb-org.github.io/2018-11-05-Hamburg/

Willkommen zum Library Carpentry Workshop an der SUB-HH :-) Dies ist ein MarkDown-Pad, in dem wir Notizen, Links, Fragen, etc. teilen. Die MarkDown-Syntax wird oben hinter dem (?)-Button kurz erklärt.

Bitte vor dem Workshop schon die Setup-Anleitungen durcharbeiten.

Schön wäre auch, wenn Sie vorab die Umfrage ausfüllen könnten: Pre-workshop survey

Motivation (Vorstellungsrunde)

  • Umgehen mit Statistiken
  • Metadatenmanagement, Schnittstellen
  • Scripte geerbt
  • Analyse und Prüfung von Metadaten aus Verlagen
  • Arbeit effizienter gestalten
  • Tieferen Einstieg in Themen, z.B. Shell-Scripte
  • alltägliche bibliothekarische Prozesse automatisieren
  • Format Library Carpentry
  • Hintergrundwissen für Datenverarbeitung in Forschungsinformationssystemen
  • CSV-Dateien bearbeiten und vereinheitlichen mit OpenRefine
  • IT-Prozesse nachvollziehen zu können (z.B. Git)
  • viel Veränderung, dazu gerne informieren, um mitreden zu können
  • sich selbst breiter aufstellen im Bereich Datenmanagement
  • Input in zeitgemäßen Hilfsmitteln
  • Weiterbildung zu spezifischen Alltagshilfen

Tag 1 Vormittag: Jargon Busting und Data Intro

Jargon Busting / Fachchinesisch erklären

oft verwendete Begriffe

  • Data Prinzipien
  • Software nativ, generisch
    • "nativ" = in der zum Betriebssystem passenden Sprache programmiert
  • Ökosystem
  • Interdisziplinarität
  • shell script => siehe Tag 2
  • Linked Data
  • Bibliothekarische Schnittstellen wie OAI-PMH, SRU
  • Cloud Computing
    • virtuelle Maschine
    • "Computer waren wie Haustiere, sind heute eher wie Vieh"
      • Cloud = viele virtuelle Maschinen, die je nach aktuellem Bedarf hoch- & runtergefahren werden. Weder Nutzer noch Betreiber müssen sich drum kümmern, auf welcher Maschine gerade welche Aufgabe erfüllt.
  • reconciliation
    • Anreicherung (z. B. in Open Refine), indem Datensätzen von externen Datenquellen ergänzende Informationenen hinzugefügt werden

noch offen

  • Begriffe in der Linux-Welt, z.B. grafische Oberfäche
  • weniger Probleme mit Vokabeln, mehr die Sinnzusammenhänge - wie Frage formulieren ohne Fachbegriffe zu können
  • rechteckige Daten: Zuordnenbarkeit
  • Shell => siehe Tag 2

Hilfsmittel

  • Google
  • Glossare
  • Wissensstrukturen im Haus, z.B. Wiki oder kollegialer Austausch
  • StackOverflow.com, insbesondere Fehlermeldungen suchen (!!!)
  • in Projekten "Kochbücher" erstellen

Data Intro

  • Warum automatisieren?
    • Arbeitserleichterung für häufig wiederkehrende Aufgaben
    • Beispiel Fernleihkonto im GBV einrichten
    • "immer wenn Maus- & Tastaturgeräusche irgendwie rhythmisch klingen"
  • Vorteile von einfachen Textformaten (.txt, .csv, .xml, Markdown)
    • Änderungen über Versionsverwaltung leichter nachvollziehbar
    • Plattformunabhängig
    • Zusatz: vi & nano <3 (Linux)
    • Beispiel für Texteditor unter Windows (von LC empfohlen): Notepad++
    • Unterschiedliche Zeichensätze können bei Datenlieferungen (z.B. von Verlagen) problematisch sein. Ein guter Texteditor kann dies erkennen.
    • Nicht Standard-Texteditoren (Wordpad / Editor) von Windows verwenden. strange things may happen
  • Für akademische Publikationen findet Markdown immer weitere Verbreitung. Das Format lässt sich gut in andere Zielformate (PDF, DOCX, HTML) umwandeln
    • Beispiele für Markdown-Editor
    • Beispiel für Transformationswerkzeug: Pandoc
  • Dateinamen für Metadaten verwenden
    • Inhaltsbeschreibung (Titel)
    • Datumsstempel möglichst "invertiert" mit Jahr, Monat, Tag z.B. 20181105 oder 2018-11-05
    • ggf. Namenskürzel Bearbeiter/in
    • ggf. Versionierung (falls kein Versionierungssystem vorliegt)
    • bei automatisierter Verarbeitung möglichst ohne Leerzeichen (stattdessen Unterstrich (_) verwenden), ggf. auch besser ohne Umlaute
    • Empfehlung für Kleinschreibung, damit Autovervollständigung auf der Kommandozeile genutzt werden kann
    • Dateien im Batch umbenennen (Bordmittel Win 10?)
  • Regular Expressions (Reguläre Ausdrücke)
  • Übung mit RegEx: https://librarycarpentry.github.io/lc-data-intro/04-regular-expressions/index.html
  • Zum Testen: https://regex101.com/
  • Frage: Was bedeutet "++"? => Erläuterung siehe https://www.regular-expressions.info/possessive.html unter "How Possessive Quantifiers Work"
Greedy Lazy Possesive
+ +? ++

Tag 1 Nachmittag: OpenRefine

Materialien zum Selbststudium

Falls sich der Browser nach dem Start von OpenRefine nicht automatisch öffnet: http://127.0.0.1:3333

Speichern: Während der Arbeit sichert Open Refine alle 5 Minuten automatisch. Am Ende unter Windows Open Refine in der Komandozeile mit Strg + C beenden, um sicherzugehen, dass Open Refine heruntergefahren wurde und alle Änderungen seit dem letzten Autosave auch gesichert wurden.

Kapitel 2

Häufigste Ursache, falls Daten nicht eingelesen werden können: Arbeitsspeicher. Wie der erhöht werden kann, folgt weiter unten.

Kapitel 3

Trennzeichen sollten selbst nicht in den Daten vorkommen. Daher etwas nehhmen, dass nur schwer über die Tastatur zu erzeugen ist.

Kapitel 5

Kapitel 8

Kapitel 10

  • Beispiel, um Datumsformat 01/11/2015 zu konvertieren:
    • value.replace("/","").toDate("ddMMyyyy").toString("yyyy-MM-dd")
    • value.toDate("false").toString("yyyy-MM-dd")

Sammlung Anwendungsfälle

Tag 2 Vormittag: Shell

Warum und wozu Shell?

  • Automatisierung von Arbeitsschritten
  • Verarbeitung großer Datenmengen, die Software mit grafischer Benutzeroberfläche "überfordern"
  • bei der Arbeit auf Server-Systemen (die mehrheitlich mit Linux betrieben werden) steht nur die Shell zur Verfügung, keine grafische Oberfläche vorhanden
  • viele Werkzeuge für die Arbeit mit bibliografischen Daten werden über die Kommandozeile bedient. Beispiele: yaz, catmandu, sed, awk

Beispiel aus der Arbeit der UB Kiel: Einführung eines Discovery-Systems für die Hochschule

  • Verarbeitung und Indexierung von MARC-Daten (> 5 Mio. Datensätze) mit Shell-Skripten
  • Analyse der Daten mit Spezial-Interface für Solr: https://github.com/lucidworks/banana
    • Beispielehafte Fragen, die zu klären sind:
      • Welche Ausleihindikatoren sind vorhanden?
      • Welche Werte stehen in gewissen Feldern? Wichtig dabei ist die Abhängigkeit von Werten in mehreren Feldern.

Befehle:

  • ls (list) listet Dateien
    • ls -lh menschenlesbare Details
  • pwd (print working directory) WO. BIN. ICH. GERADE???
  • curl Dateien herunterladen
  • unzip entpacken
  • cd change directory
    • cd ohne weitere Angaben - bring mich nach Hause
  • mkdir (make directory) - einen ordner erstellen
  • cat
  • head (nur die ersten 3 Zeilen anzeigen: head -n 3)
  • tail (nur die letzten 3 Zeilen anzeigen: tail -n 3)
  • less
  • mv (move) umbenennen

Hilfe zu Shell-Befehlen:

In der Kommandozeile

  • [Kommando] help
  • man [Kommando] (nur unter Linux und MacOS; mit Git Bash unter Windows leider nicht vorhanden)

Online-Hilfen

Übungen

Die Instructors stehen Ihnen/Euch auch nach dem Workshop für Fragen zu den Übungen gerne zur Verfügung. Phú: phu@openbiblio.eu

OpenRefine in der Shell "fernsteuern"

Windows (mit Git Bash)

  1. OpenRefine starten

  2. Installation OpenRefine-Client

curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_windows.exe
chmod +x openrefine-client_0-3-4_windows.exe
  1. Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_windows.exe --list
  1. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
curl -O -L https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl -O -L https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
  1. Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv

Linux

  1. OpenRefine starten
  2. Installation OpenRefine-Client
wget https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_linux-64bit
chmod +x openrefine-client_0-3-4_linux-64bit
  1. Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_linux-64bit --list
  1. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
wget https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
wget https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
  1. Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv

Mac OS X

  1. OpenRefine starten
  2. Installation OpenRefine-Client
curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_mac
chmod +x openrefine-client_0-3-4_mac
  1. Projekte auflisten (als Funktionstest)
./openrefine-client_0-3-4_mac --list
  1. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
curl https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
  1. Projekt erstellen, transformieren und exportieren
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv

OpenRefine automatisieren mit Shell-Script

Windows (mit Git Bash)

  1. Datei für Shell-Script anlegen und im Editor Nano öffnen
nano openrefine-doaj.sh
  1. Standard-Beginn für Shell-Scripte einfügen
#!/bin/sh
  1. Befehle von oben einfügen
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv
  1. Nano beenden mit STRG+X und Abfrage, ob gespeichert werden soll, bestätigen
  2. Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
  1. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_windows.exe --delete "doaj-article-sample"
  1. Shell-Script ausführen
./openrefine-doaj.sh

Linux

  1. Datei für Shell-Script anlegen und im Editor Nano öffnen
nano openrefine-doaj.sh
  1. Standard-Beginn für Shell-Scripte einfügen
#!/bin/sh
  1. Befehle von oben einfügen
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv
  1. Nano beenden mit STRG+X und Abfrage, ob gespeichert werden soll, bestätigen
  2. Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
  1. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_linux-64bit --delete "doaj-article-sample"
  1. Shell-Script ausführen
./openrefine-doaj.sh

Mac OS X

  1. Datei für Shell-Script anlegen und im Editor Nano öffnen
nano openrefine-doaj.sh
  1. Standard-Beginn für Shell-Scripte einfügen
#!/bin/sh
  1. Befehle von oben einfügen
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv
  1. Nano beenden mit STRG+X und Abfrage, ob gespeichert werden soll, bestätigen
  2. Shell-Script ausführbar machen
chmod +x openrefine-doaj.sh
  1. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
./openrefine-client_0-3-4_mac --delete "doaj-article-sample"
  1. Shell-Script ausführen
./openrefine-doaj.sh

Tag 2 Nachmittag: Git

Wenn ihr in vi gefangen seid, dann kommt ihr dort mit ":q!" wieder heraus ohne mögliche Änderungen zu speichern.

  • Wichtige git-Kommandos auf einen Blick:
    • git init
    • git config
    • git add
    • git commit
    • git log
    • git show
    • git status
    • git remote add
    • git revert
    • git checkout

GitHub-URLS für gegenseitige Tippfehlerkorrektur-Pull-Requests gerne hier einfügen

Flipchart-Fotos

Memo der DozentInnen

  • Es ist oft das Wort "einfach" gefallen, die Wertung ob etwas einfach ist, ist aber je nach Perspektive und Vorerfahrung unterschiedlich. Das Adjektiv sollte vermieden werden, weil es den TeilnehmerInnen suggeriert, dass sie es können müssen.

Niedrigschwellige Einstiege

Select a repo