owned this note
owned this note
Published
Linked with GitHub
# Kollaboratives Dokument
für https://vdb-org.github.io/2018-11-05-Hamburg/
Willkommen zum Library Carpentry Workshop an der SUB-HH :-) Dies ist ein MarkDown-Pad, in dem wir Notizen, Links, Fragen, etc. teilen. Die MarkDown-Syntax wird oben hinter dem `(?)`-Button kurz erklärt.
Bitte _vor_ dem Workshop schon die [Setup-Anleitungen](https://vdb-org.github.io/2018-11-05-Hamburg/#setup) durcharbeiten.
Schön wäre auch, wenn Sie vorab die Umfrage ausfüllen könnten: [Pre-workshop survey](https://www.surveymonkey.com/r/lcpreworkshopsurvey?workshop_id=2018-11-05-Hamburg)
## Motivation (Vorstellungsrunde)
- Umgehen mit Statistiken
- Metadatenmanagement, Schnittstellen
- Scripte geerbt
- Analyse und Prüfung von Metadaten aus Verlagen
- Arbeit effizienter gestalten
- Tieferen Einstieg in Themen, z.B. Shell-Scripte
- alltägliche bibliothekarische Prozesse automatisieren
- Format Library Carpentry
- Hintergrundwissen für Datenverarbeitung in Forschungsinformationssystemen
- CSV-Dateien bearbeiten und vereinheitlichen mit OpenRefine
- IT-Prozesse nachvollziehen zu können (z.B. Git)
- viel Veränderung, dazu gerne informieren, um mitreden zu können
- sich selbst breiter aufstellen im Bereich Datenmanagement
- Input in zeitgemäßen Hilfsmitteln
- Weiterbildung zu spezifischen Alltagshilfen
## Tag 1 Vormittag: Jargon Busting und [Data Intro](https://librarycarpentry.github.io/lc-data-intro/)
### Jargon Busting / Fachchinesisch erklären
#### oft verwendete Begriffe
- Data Prinzipien
- Nachhaltigkeit
- Reproduzierbarkeit
- Interoperabilität
=> https://tibhannover.github.io/2018-07-09-FAIR-Data-and-Software/#schedule & Links dort
- Software nativ, generisch
- "nativ" = in der zum Betriebssystem passenden Sprache programmiert
- Ökosystem
- Interdisziplinarität
- shell script => siehe Tag 2
- Linked Data
- Bibliothekarische Schnittstellen wie OAI-PMH, SRU
- [OAI-PMH-Doku](http://www.openarchives.org/OAI/openarchivesprotocol.html)
- [SRU-Schnittstellendokumentation des GBV](https://verbundwiki.gbv.de/display/VZG/SRU) und eine [Beispielanfrage](http://sru.gbv.de/gvk?version=1.1&operation=searchRetrieve&query=pica.ppn%3D887836224&maximumRecords=1&recordSchema=marcxml) an den Service
- Cloud Computing
- virtuelle Maschine
- "Computer waren wie Haustiere, sind heute eher wie Vieh"
- Cloud = viele virtuelle Maschinen, die je nach aktuellem Bedarf hoch- & runtergefahren werden. Weder Nutzer noch Betreiber müssen sich drum kümmern, auf welcher Maschine gerade welche Aufgabe erfüllt.
- reconciliation
- Anreicherung (z. B. in Open Refine), indem Datensätzen von externen Datenquellen ergänzende Informationenen hinzugefügt werden
#### noch offen
- Begriffe in der Linux-Welt, z.B. grafische Oberfäche
- weniger Probleme mit Vokabeln, mehr die Sinnzusammenhänge - wie Frage formulieren ohne Fachbegriffe zu können
- rechteckige Daten: Zuordnenbarkeit
- Shell => siehe Tag 2
#### Hilfsmittel
- Google
- Glossare
- Wissensstrukturen im Haus, z.B. Wiki oder kollegialer Austausch
- StackOverflow.com, insbesondere Fehlermeldungen suchen (!!!)
- in Projekten "Kochbücher" erstellen
### [Data Intro](https://librarycarpentry.github.io/lc-data-intro/)
- Warum automatisieren?
- Arbeitserleichterung für häufig wiederkehrende Aufgaben
- Beispiel Fernleihkonto im GBV einrichten
- "immer wenn Maus- & Tastaturgeräusche irgendwie rhythmisch klingen"
- Vorteile von einfachen Textformaten (.txt, .csv, .xml, Markdown)
- Änderungen über Versionsverwaltung leichter nachvollziehbar
- Plattformunabhängig
- Zusatz: vi & nano <3 (Linux)
- Beispiel für Texteditor unter Windows (von LC empfohlen): [Notepad++](https://notepad-plus-plus.org/)
- Unterschiedliche Zeichensätze können bei Datenlieferungen (z.B. von Verlagen) problematisch sein. Ein guter Texteditor kann dies erkennen.
- **Nicht** Standard-Texteditoren (Wordpad / Editor) von Windows verwenden. strange things may happen
- Für akademische Publikationen findet Markdown immer weitere Verbreitung. Das Format lässt sich gut in andere Zielformate (PDF, DOCX, HTML) umwandeln
- Beispiele für Markdown-Editor
- Hackmd.io (dieses Dokument)
- [Typora](https://typora.io) für Windows, Mac, Linux
- Beispiel für Transformationswerkzeug: [Pandoc](https://pandoc.org)
- Dateinamen für Metadaten verwenden
- Inhaltsbeschreibung (Titel)
- Datumsstempel möglichst "invertiert" mit Jahr, Monat, Tag z.B. 20181105 oder 2018-11-05
- ggf. Namenskürzel Bearbeiter/in
- ggf. Versionierung (falls kein Versionierungssystem vorliegt)
- bei automatisierter Verarbeitung möglichst ohne Leerzeichen (stattdessen Unterstrich (_) verwenden), ggf. auch besser ohne Umlaute
- Empfehlung für Kleinschreibung, damit Autovervollständigung auf der Kommandozeile genutzt werden kann
- Dateien im Batch umbenennen (Bordmittel Win 10?)
- nein, kann Windows10 immer noch nicht, nur fortlaufende Nummerierung: https://support.microsoft.com/de-de/help/928546
- Empfehlung [Total Commander](https://www.ghisler.com)
- Regular Expressions (Reguläre Ausdrücke)
- [Link zu Präsentationsfolien](https://doi.org/10.5281/zenodo.1478464)
- hilfreich für Suchen & Ersetzen
- technisch betrachtet kein einheitlicher Standard, aber die Grundlagen sind in allen Programmen und Programmiersprachen sehr ähnlich
- Beispiel für Suche nach PPN im GBV: [\dX]{9,10}
- Empfehlung https://www.regular-expressions.info
- Übung mit RegEx: https://librarycarpentry.github.io/lc-data-intro/04-regular-expressions/index.html
- Zum Testen: https://regex101.com/
- Frage: Was bedeutet "++"? => Erläuterung siehe https://www.regular-expressions.info/possessive.html unter "How Possessive Quantifiers Work"
| Greedy | Lazy | Possesive |
| ------ | ---- | --------- |
| + | +? | ++ |
## Tag 1 Nachmittag: [OpenRefine](https://librarycarpentry.github.io/lc-open-refine/)
* OpenRefine Insights auf GitHub: https://github.com/OpenRefine/OpenRefine/graphs/contributors
**Materialien zum Selbststudium**
* Felix Lohmeier: OpenRefine Summerschool 2017 @ SLUB Dresden: https://felixlohmeier.gitbooks.io/summerschool-openrefine/content/
* John Little: Cleaning Data with OpenRefine: https://libjohn.github.io/openrefine/
* MARC und OpenRefine: https://blog.reeset.net/archives/1873 & http://www.meanboyfriend.com/overdue_ideas/2015/07/worked-example-fixing-marc-data-4/
Falls sich der Browser nach dem Start von OpenRefine nicht automatisch öffnet: http://127.0.0.1:3333
**Speichern**: Während der Arbeit sichert Open Refine alle 5 Minuten automatisch. Am Ende unter Windows Open Refine in der Komandozeile mit Strg + C beenden, um sicherzugehen, dass Open Refine heruntergefahren wurde und alle Änderungen seit dem letzten Autosave auch gesichert wurden.
### Kapitel 2
* Link für Projekt erstellen aus URL: https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
* Beispiel für XML: https://beluga.sub.uni-hamburg.de/vufind/Record/1024352803 (Export-Button und dort MARCXML auswählen)
Häufigste Ursache, falls Daten nicht eingelesen werden können: Arbeitsspeicher. Wie der erhöht werden kann, folgt weiter unten.
### Kapitel 3
Trennzeichen sollten selbst nicht in den Daten vorkommen. Daher etwas nehhmen, dass nur schwer über die Tastatur zu erzeugen ist.
* Trennzeichen aus Unicode-Zeichensatz: Unit Separator (U+241F) https://www.fileformat.info/info/unicode/char/241f/index.htm
### Kapitel 5
* OpenRefine: Clustering in Depth: https://github.com/OpenRefine/OpenRefine/wiki/Clustering-In-Depth (Beschreibung der Methoden und Funktionen)
* In den Beispieldaten kommt zu der Frage der Clusterung von AuorInnennamen die Frage nach der korrekten oder gewünschten Transliteration
### Kapitel 8
* Kochrezepte im OpenRefine Wiki: https://github.com/OpenRefine/OpenRefine/wiki/Recipes
### Kapitel 10
* Beispiel, um Datumsformat 01/11/2015 zu konvertieren:
* value.replace("/","").toDate("ddMMyyyy").toString("yyyy-MM-dd")
* value.toDate("false").toString("yyyy-MM-dd")
### Sammlung Anwendungsfälle
* Datenbereinigung zur Übernahme in andere Tools
* JSON / XML
* TXT
* Vorbereitung von Verlagsdaten für statistische Auswertung
* Mal eben schnell Daten analysieren, einen schnellen Überblick gewinnen
* Datenanreicherung mit Wikidata (integriert): https://github.com/OpenRefine/OpenRefine/wiki/Reconciliation
* Datenanreicherung mit GND über die zusätzliche OpenRefine-Reconciliation-API von lobid (hbz): http://blog.lobid.org/2018/08/27/openrefine.html
* "schmutzige" weil seltsam strukturierte Literaturhinweise von Lehrenden aus STINE (Lernmanagementsystem) aufbereiten für Erwerbungsentscheidungen als Fachreferent
* Aufbereitung von bibliografischen Daten und Mapping nach MARC 21 unter Nutzung von MarcEdit's Delimited Text Translator: http://guides.library.illinois.edu/c.php?g=463460&p=3168299
* Repositorien in Dublin Core harvesten und in ein auf DataCite basierendes Indexformat transformieren um die Daten über ein Discoverysystem recherchieren zu können: https://github.com/subhh/HOS-MetadataTransformations
## Tag 2 Vormittag: [Shell](https://librarycarpentry.github.io/lc-shell/)
* Bitte Daten für Übungen downloaden: https://raw.githubusercontent.com/librarycarpentry/lc-shell/gh-pages/data/shell-lesson.zip
* GitBash öffnen:
* Unter Windows die Suche nach "gitbash" nutzen
* Unter MacOS das Terminal öffnen
* Bei den unterschiedlichen Linux-Distributionen gibt es unterschiedliche Programme (Terminals)
### Warum und wozu Shell?
* Automatisierung von Arbeitsschritten
* Verarbeitung großer Datenmengen, die Software mit grafischer Benutzeroberfläche "überfordern"
* bei der Arbeit auf Server-Systemen (die mehrheitlich mit Linux betrieben werden) steht nur die Shell zur Verfügung, keine grafische Oberfläche vorhanden
* viele Werkzeuge für die Arbeit mit bibliografischen Daten werden über die Kommandozeile bedient. Beispiele: yaz, catmandu, sed, awk
### Beispiel aus der Arbeit der UB Kiel: Einführung eines Discovery-Systems für die Hochschule
* Verarbeitung und Indexierung von MARC-Daten (> 5 Mio. Datensätze) mit Shell-Skripten
* Analyse der Daten mit Spezial-Interface für Solr: https://github.com/lucidworks/banana
* Beispielehafte Fragen, die zu klären sind:
* Welche Ausleihindikatoren sind vorhanden?
* Welche Werte stehen in gewissen Feldern? Wichtig dabei ist die Abhängigkeit von Werten in mehreren Feldern.
### Befehle:
* **ls** (list) listet Dateien
* ls -lh menschenlesbare Details
* **pwd** (print working directory) WO. BIN. ICH. GERADE????
* **curl** Dateien herunterladen
* **unzip** entpacken
* **cd** change directory
* cd ohne weitere Angaben - bring mich nach Hause
* **mkdir** (make directory) - einen ordner erstellen
* cat
* head (nur die ersten 3 Zeilen anzeigen: head -n 3)
* tail (nur die letzten 3 Zeilen anzeigen: tail -n 3)
* less
* mv (move) umbenennen
### Hilfe zu Shell-Befehlen:
#### In der Kommandozeile
* **[Kommando] --help**
* **man [Kommando]** (nur unter Linux und MacOS; mit Git Bash unter Windows leider nicht vorhanden)
*
#### Online-Hilfen
* Linux Man Pages Online (mit Suchfunktion und ausführlicher Dokumentation) http://man.he.net/
* Ebenfalls mit Suchfunktion, aber deutlich kompakter https://tldr.sh/
* Übersicht der wichtigsten Befehle https://wiki.ubuntuusers.de/Shell/Befehls%C3%BCbersicht/
* Kommandos eingeben und erklären lassen https://explainshell.com/
### Übungen
Die Instructors stehen Ihnen/Euch auch nach dem Workshop für Fragen zu den Übungen gerne zur Verfügung. Phú: phu@openbiblio.eu
### OpenRefine in der Shell "fernsteuern"
#### Windows (mit Git Bash)
1. OpenRefine starten
2. Installation OpenRefine-Client
```
curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_windows.exe
chmod +x openrefine-client_0-3-4_windows.exe
```
3. Projekte auflisten (als Funktionstest)
```
./openrefine-client_0-3-4_windows.exe --list
```
4. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
```
curl -O -L https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl -O -L https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
```
5. Projekt erstellen, transformieren und exportieren
```
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
#### Linux
1. OpenRefine starten
2. Installation OpenRefine-Client
```
wget https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_linux-64bit
chmod +x openrefine-client_0-3-4_linux-64bit
```
3. Projekte auflisten (als Funktionstest)
```
./openrefine-client_0-3-4_linux-64bit --list
```
4. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
```
wget https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
wget https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
```
5. Projekt erstellen, transformieren und exportieren
```
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
#### Mac OS X
1. OpenRefine starten
2. Installation OpenRefine-Client
```
curl -O -L https://github.com/opencultureconsulting/openrefine-client/releases/download/v0.3.4/openrefine-client_0-3-4_mac
chmod +x openrefine-client_0-3-4_mac
```
3. Projekte auflisten (als Funktionstest)
```
./openrefine-client_0-3-4_mac --list
```
4. Beispieldaten (CSV) und Transformationsregeln (JSON) herunterladen
```
curl https://raw.githubusercontent.com/LibraryCarpentry/lc-open-refine/gh-pages/data/doaj-article-sample.csv
curl https://raw.githubusercontent.com/vdb-org/2018-11-05-Hamburg/gh-pages/data/lc-open-refine-chapter-01-09.json
```
5. Projekt erstellen, transformieren und exportieren
```
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
### OpenRefine automatisieren mit Shell-Script
#### Windows (mit Git Bash)
1. Datei für Shell-Script anlegen und im Editor Nano öffnen
```
nano openrefine-doaj.sh
```
2. Standard-Beginn für Shell-Scripte einfügen
```
#!/bin/sh
```
3. Befehle von oben einfügen
```
./openrefine-client_0-3-4_windows.exe --create doaj-article-sample.csv
./openrefine-client_0-3-4_windows.exe --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_windows.exe --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
4. Nano beenden mit `STRG+X` und Abfrage, ob gespeichert werden soll, bestätigen
5. Shell-Script ausführbar machen
```
chmod +x openrefine-doaj.sh
```
6. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
```
./openrefine-client_0-3-4_windows.exe --delete "doaj-article-sample"
```
7. Shell-Script ausführen
```
./openrefine-doaj.sh
```
#### Linux
1. Datei für Shell-Script anlegen und im Editor Nano öffnen
```
nano openrefine-doaj.sh
```
2. Standard-Beginn für Shell-Scripte einfügen
```
#!/bin/sh
```
3. Befehle von oben einfügen
```
./openrefine-client_0-3-4_linux-64bit --create doaj-article-sample.csv
./openrefine-client_0-3-4_linux-64bit --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_linux-64bit --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
4. Nano beenden mit `STRG+X` und Abfrage, ob gespeichert werden soll, bestätigen
5. Shell-Script ausführbar machen
```
chmod +x openrefine-doaj.sh
```
6. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
```
./openrefine-client_0-3-4_linux-64bit --delete "doaj-article-sample"
```
7. Shell-Script ausführen
```
./openrefine-doaj.sh
```
#### Mac OS X
1. Datei für Shell-Script anlegen und im Editor Nano öffnen
```
nano openrefine-doaj.sh
```
2. Standard-Beginn für Shell-Scripte einfügen
```
#!/bin/sh
```
3. Befehle von oben einfügen
```
./openrefine-client_0-3-4_mac --create doaj-article-sample.csv
./openrefine-client_0-3-4_mac --apply lc-open-refine-chapter-01-09.json "doaj-article-sample"
./openrefine-client_0-3-4_mac --export "doaj-article-sample" > doaj-article-sample-transformed.csv
```
4. Nano beenden mit `STRG+X` und Abfrage, ob gespeichert werden soll, bestätigen
5. Shell-Script ausführbar machen
```
chmod +x openrefine-doaj.sh
```
6. Vorhandenes OpenRefine Projekt doaj-article-sample löschen (es stört)
```
./openrefine-client_0-3-4_mac --delete "doaj-article-sample"
```
7. Shell-Script ausführen
```
./openrefine-doaj.sh
```
## Tag 2 Nachmittag: [Git](https://librarycarpentry.github.io/lc-git/)
- Homepage: [Git-SCM.com/about](https://git-scm.com/about/)
- 20min-Vortrag: [Einführung in Git(Hub/Lab): Wieso, weshalb, warum Versionskontrolle? Und wie?](https://av.tib.eu/media/32224)
- [2h-Demo im FAIR-Kontext](https://av.tib.eu/media/37825)
- [`git status` meme](https://giphy.com/gifs/eyes-robert-de-niro-n6Gk6pAMeP9NS)
- [bibsongithub](https://github.com/hbunke/bibsongithub)
- [grafische Git-Werkzeuge](https://git-scm.com/downloads/guis/)
Wenn ihr in _vi_ gefangen seid, dann kommt ihr dort mit ":q!" wieder heraus ohne mögliche Änderungen zu speichern.
* Wichtige git-Kommandos auf einen Blick:
* `git init`
* `git config`
* `git add`
* `git commit`
* `git log`
* `git show`
* `git status`
* `git remote add`
* `git revert`
* `git checkout`
### GitHub-URLS für gegenseitige Tippfehlerkorrektur-Pull-Requests gerne hier einfügen
* https://github.com/steffben/LC-Git-Demo
* https://github.com/hemmefelix/hello-world
* ...
## [Flipchart-Fotos](https://github.com/vdb-org/2018-11-05-Hamburg/tree/gh-pages/files)
- [schönere Arbeitsdreieck-Grafik](https://docs.google.com/presentation/d/1cMdyHkuvK3bgi3FMP_R9wQJ5qFmoYMR7XAWciHf8H4s/edit#slide=id.g3cce71fdb4_5_15)
- [Flipchart mit Kommandos und Workflow](https://github.com/vdb-org/2018-11-05-Hamburg/blob/gh-pages/files/git_commandos_workflow.jpg)
## Memo der DozentInnen
- Es ist oft das Wort "einfach" gefallen, die Wertung ob etwas einfach ist, ist aber je nach Perspektive und Vorerfahrung unterschiedlich. Das Adjektiv sollte vermieden werden, weil es den TeilnehmerInnen suggeriert, dass sie es können müssen.
## Niedrigschwellige Einstiege
* www.codecademy.com/
* code.org
* https://tomorrowcorporation.com/humanresourcemachine (-;
* https://opensource.guide/de/