--- tags: Praxislabor --- # Praxislabor Digitale Geisteswissenschaften - Sommersemester 22 Alle Materialien sind im [moodle-Kurs](https://moodle.studiumdigitale.uni-frankfurt.de/moodle/course/view.php?id=2817) verfügbar. habe lediglich qualitative Daten erhoben und am workshop openrefine teilweise teilgenommen Ich habe bisher nur qualitive Daten erhoben und ausgewertet. bisher habe ich noch keine Erfahrungswerte sammeln können in der Datenerhebung ## Datenbereinigung mit Openrefine ### Zum Einstieg... #### Mein fachlicher Hintergrund ist... Germanistik ### Ich gehöre zu... - TU Darmstadt - Gotehe-Uni - Goethe-Universität - Goethe-Uni - Goethe Uni - TU Darmstadt - TU Darmstadt - Goethe-Uni - Goethe Uni - TU Darmstadt - Goethe Uni - Goethe Uni - -Uni Mainz | Andere hessische Hochschule | Goethe-Uni | Sonstige | | --------------------------- | -----------------------|----------------------- | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | | <input type="checkbox"> | <input type="checkbox"> | <input type="checkbox"> | ### Themenvorschläge für die Hands-on Übung zur Datenbereinigung mit Openrefine (bitte ergänzen Sie!) - - - ## Einführung in R ### Mich interessiert R, weil... - - - ### Themenvorschläge für die Hands-on Übung zu Einführung in R (bitte ergänzen Sie!) - bis heute noch nicht.. - bin auf dem guten Weg - - - ### Anregungen und Wünsche (z.B. bestimmte Vertiefungen) -Für Einsteiger fand ich die Veranstaltung nicht unbedingt geeignet. Es wurden sehr viele Basics vorausgesetzt. ## Tidy data - Basics ### Zum Einstieg... Haben Sie schon einmal Daten erhoben / bereinigt? Wofür und welches Tool haben Sie benutzt? - nein - nein - ein wenig mit OpenRefine - Ja, aber vermutlich bloß recht basal - habe mit .csv gearbeitet, vielleicht fällt auch der Umgang mit maschinenlesbar gemachten Handschriften darunter - nein, bzw. nur in vergangenen Kursen des Praxislabor - habe mein BA-Arbeit mit R gemacht und musste dort Zeitungsartikel auswerten - im Seminar "Data Literacy" (KJL, Dr. Giesa) haben wir mithilfe der Datenbank der Bibliothek für Jugendbuchforschung und Excel Daten zu kinder- und jugendliterarischen Themen erhoben und ausgewertet. - Ich habe erste Erfahrungen in der Erhebung von social media Daten mit R & Python und habe diese sowohl in R als auch Python bereinigt - Ich habe quantitative Textdaten erhoben und mit R ausgewertet - Nein, noch keine Erfahrung. ### Übung (Beakout-Room; ca. 10 Minuten) Laden Sie bitte [diese Datei](https://librarycarpentry.org/lc-spreadsheets/data/training_attendance.xlsx) herunter. Was könnte an dieser Art der Datenerhebung nicht ganz optimal sein? Was könnte man besser realisieren? Fassen Sie bitte ihre Beobachtungen hier zusammen. - können zwei Tabellen in einer Datei sinnvoll ausgelesen werden? - Spaltenbezeichnungen/Maßeinheiten nicht einheitlich - Monate nicht ausschreiben, sondern als Nummern angeben, außerdem die Tage einheitlich (01, anstelle von 1, da sonst die Monate durcheinander geraten) - Cancelled ja/nein lieber nicht durch farbliche Markierung, sondern in neuer Spalte als Variable - PGR/PDRA/other lieber auftrennen in verschiedene Spalten statt nur eine - Versionierung über Git und nicht über das 4. Tabellensheet - Chronologische Sortierung der Tabellenblätter - Nicht zwei Tabellen nebeneinander in einem Sheet anlegen - Nicht mehrere Informationen in einer Spalte (in 2016) - Vereinheitlichung der Tabellen! - verschiedene Einheiten - ### Übung Schauen Sie sich bitte in der Übungstabelle die Datumsangaben für 2015 an. Extrahieren Sie Monat, Tag und Jahr jeweils in eine neue Spalte mit den entsprechenden Funktionen: =TAG(A2) =MONAT(A2) =JAHR(A2) Welche Beobachtung können Sie machen? - - ### Feedback Helfen Sie uns mit Ihrem Feedback, das Angebot zu verbessern :clap: Link zur Umfrage: https://survey.lamapoll.de/Tidy_Data/ ## Einführung in TEI/XML ### Icebreaker #### Grill the teacher... Richten Sie hier eine ggf. auch "unangenehme" Frage an die Dozentin, die sie beantworten muss: - - #### Mein fachlicher Hintergrund ist... - Judaistik MA - Mitarbeiter ULB Darmstadt - Empirische Sprachwissenschaft - Mittelaltergermanistik - Skandinavistik, gerade bei der Fertigstellung der MA * Bibliotheksmitarbeiter * Politikwissenschaft MA * Germanistik * Allgemeine und Vergleichende Literaturwissenschaft (BA) * Geschichte der Frühen Neuzeit (Promotion) ### Übung 1: Richtig oder falsch? (10 Minuten in Breakout-Rooms) ```{html} <p>Lorem ipsum</P> ``` - [ ] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch weil: zweites P groß - [x] falsch, weil: beide Ps müssen entweder klein oder groß sein. - [x] falsch, weil: ```{html} <p><wort>Lorem ipsum</p></wort> ``` - [ ] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: die Klammer wort muss zuerst geschlossen werden. - [ ] falsch, weil: - [ ] falsch, weil: ```{html} <wort>Lorem <p>ipsum</p></wort> ``` - [x] richtig, weil: Alles richtig geklammert - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: öffnendes p muss vor Lorem stehen - [ ] falsch, weil: - [ ] falsch, weil: ```{html} <p type=blindtext>Lorem ipsum</p> ``` - [ ] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: blindtext sollte in Klammer stehen - [x] falsch, weil: nach erstes p sollte Klammer stehen - [x] falsch, weil: "blindtext" muss in Anführungszeichen stehen ```{html} <p type="blindtext" > ``` - [ ] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: Es fehlt / vor >. - [x] falsch, weil:es fehlt das schließende element /> - [x] falsch, weil: schließendes Element fehlt ```{html} <p type="blindtext"/> ``` - [x] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: weder die öffnende noch die schließende Klammer sind vollständig - [ ] falsch, weil: - [ ] falsch, weil: ```{html} < p type="blindtext"/>Lorem ipsum</p> ``` - [ ] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [x] falsch, weil: Sollte kein Abstand nach dem ersten Klammer sein, fehlt ein schließende Klammer - [ ] falsch, weil: - [ ] falsch, weil: ```{html} <p type="blindtext">Lorem ipsum <gap/></p> ``` - [x] richtig, weil: - [ ] richtig, weil: - [ ] richtig, weil: - [ ] falsch, weil: - [ ] falsch, weil: - [ ] falsch, weil: ## Feedback Helfen Sie uns mit Ihrem Feedback, das Angebot zu verbessern :clap: Link zur Umfrage: https://survey.lamapoll.de/TEI-SoSe22 ## Einführung in manuelles Webscraping mit dem Browser-Plugin Scraper ### Warm-up Was interessiert Sie an dem Thema Webscraping? Was ist Ihre Motivation am Workshop teilzunehmen? - Bin Einsteiger und am Thema interessiert - Mir ist Datascraping in den letzten Jahren immer mal wieder über den Weg gelaufen, und habe mich eher theoretisch damit beschäftigt, aber es bisher noch nie praktisch selbst ausprobiert. Ich hoffe hier vielleicht einen Zugang dazu zu finden und das vielleicht auch für weitere Lehrveranstaltungen o.Ä. zweckentfremden zu können - Ist Teil meines Einarbeitungsplans, finde das Thema aber auch recht interessant - Habe noch nichts davon gehört und fand eine Einführung in diesem Rahmen daher sehr spannend - Ich habe noch keine Erfahrung _ ich habe noch keine Vorkenntnisse und möchte gerne etwas darüber erfahren ### Übung (10 Minuten in Breakout-Rooms) Besuchen Sie bitte die Seite https://www.geschichtsquellen.de/start Öffnen Sie den Seitenquelltext Formulieren Sie XPath-Ausdrücke für: 1. die Überschrift: ![](https://i.imgur.com/whwRviO.png) 2. die Legende zum Hintergrundbild: ![](https://i.imgur.com/SMs6SPG.png) 2. die Lizenzangabe: ![](https://i.imgur.com/WYpxpRZ.png) Lösungen: 1.html/head/body/header/h1 2.html/body/main/article/selection/p[3] 3. 1.html/body/main/article/section/h1 2 html/body/main/article/section/p [@class="petit"] 3 html/body/header/nav [starts-with(text(), 'Lizenz: CC BY-SA')] 3 html/body/header/nav[@class='extra']/a[1] ### Übung (10 Minuten in Breakout-Rooms) Extrahieren Sie folgende Informationen aus dieser [Titelliste](http://sammlungen.ub.uni-frankfurt.de/schopenhauer/nav/index/all?max=100) und schreiben Sie die passenden XPath-Ausdrücke hier auf: Pfad: //td/div/div - Titel: ./a/text() - URL zum Titel:concat("https://sammlungen.ub.uni-frankfurt.de/",./a/@href) - Entstehungsdatum: ./following-sibling::div ### Übung (15 Minuten in Breakout-Rooms) Extrahieren Sie folgende Informationen aus dieser [Titelliste](https://de.wikipedia.org/wiki/Liste_deutschsprachiger_Autorinnen) und schreiben Sie die passenden XPath-Ausdrücke hier auf: //table[*]/tbody/tr/td[1] - Name: ./a - Pseudonym: ./text() - URL zum entsprechenden Wikipedia-Artikel: concat("https;//de.wikipedia.org",./a/@href) - Bild-URL (falls vorhanden) ### Übung (15 Minuten in Breakout-Rooms) Extrahieren Sie folgende Informationen von dieser [Seite](https://www.bundestag.de/abgeordnete) und schreiben Sie die passenden XPath-Ausdrücke hier auf: - Name: - Parteizugehörigkeit: - Link zur Biographie: - Personen-ID: ## Feedback Helfen Sie uns mit Ihrem Feedback, das Angebot zu verbessern :clap: Link zur Umfrage: https://survey.lamapoll.de/Scraper/ ## Ihre Anregungen und Wünsche für künftige Workshops - Danke. Fand es sehr informativ. - - Danke für Ihr Feedback! ## Einführung in Git ### Ihre Anregungen und Wünsche für künftige Workshops - - - Danke für Ihr Feedback!