# Hausaufgabe 6. Woche ###### tags: `Vl Datenanalyse 21/22` ## Aufgabe 1: Depressions-Scores In der Vorlesung haben wir eine Punktzahl aus dem Depressions-Screening-Fragebogen PHQ-9, der in NHANES verwendet wird, verwendet. Hier berechnen wir diese Punktzahl (a) Sehen Sie sich den Fragebogen an. Sie finden ihn in der deutschen Wikipedia unter "PHQ-9". Lesen Sie sich durch, wie die Punktzahl berechnet wird. Laden Sie die Tabelle DPQ_J mit den Antworten der Probanden von der NHANES-Webseite herunter. (b) In der Tabelle hat jeder Proband eine Zeile. Pivotieren Sie die Tabelle so, dass jeder Proband mehrere Zeilen erhält, nämlich eine pro Antwort. Verwenden Sie dazu `pivot_longer` [*] wir folgt: Sie möchten alle Spalten "einsammeln", deren Namen mit "DPQ" beginnt (`starts_with("DPQ")`) oder (gleichbedeutend) alle Spalten außer SEQN (`-SEQN`). Die eingesammelten Spalten sollen ersetzt werden durch zwei neue Spalten: was vorher die Spaltenüberschriften (Namen) waren soll in die neue Spalte "question" (`names_to="question"`) und was vorher die Werte in den Spalten waren soll in die neue Spalte "answer" (`values_to="answers"`). [*] Hier stand anfangs `pivot_wider` statt korrekt `pivot_longer`. Sorry an die, die dieser Fehler auf die falsche Fährte gelockt hat. (c\) Um den Depressions-Score zu berechnen, müssen Sie für jeden Probanden die Punktzahlen der einzelnen Antworten aufaddieren (0, 1, 2, oder 3). Führen Sie dies durch. (d) Es gibt 9 Fragen, die maximale Punktzahl pro Antwort ist 3. Somit sollte die maximale Punktzahl 27 betragen. Benutzen Sie `arrange`, um die Tabelle nach Punktzahl zu sortieren. Warum sieht man sehr viel höhere Punktzahlen? Sehen Sie sich dazu das Codebuch zur Tabelle an. Wie lässt sich das Problem lösen? (e) Die korrekte Lösung zu (d) lautet: Bevor Sie die Punkte aufaddieren, sollten Sie alle Zeilen, die zu Frage 10 gehören, entfernen (warum?) und in allen anderen Zeilen die Antworten mit Wert über 3 durch `NA` ersetzen. Für letzteres verwenden Sie: ``` ... %>% mutate( answer = ifelse( answer > 3, NA, answer ) ) ``` Wie funktioniert das wohl? (f) Wenn nun die Werte korrekt zwischen 0 und 27 liegen, erstellen Sie ein Histogramm aller Werte. (g) Spalten Sie das Histogramm nach Geschlecht auf. Dazu müssen Sie die Informationen zum Geschlecht aus der DEMO-Tabelle per Table-Join hinzufügen. ## Aufgabe 2 Ein Düngemittel-Hersteller hat die Rezeptur seines Weizen-Düngers üúberarbeitet. Um die neue Rezeptur zu erproben, möchte die Forschunsgabteilung des Unternehmens möchte die alte und die neue für drei verschiedene Weizensorten vergleichen. Die Forscher teilen dazu die Versuchs-Ackerfläche des Betriebs in 30 Felder auf, auf denen sie jeweils eine der drei Weizensorten aussähen und jeweils entweder den alten oder den neuen Dünger verwenden. Die Tabelle `duenger.csv` gibt die Erträge in Zentner für jede des 30 Flächen an. Sie können sie [hier](https://heibox.uni-heidelberg.de/f/fe0fde2faa8848b8a55a/) herunter laden. (a) Stellen Sie die Daten der Tabelle durch einen geeigneten Plot dar. Denken Sie, dass die neue Rezeptur besser ist? (b) Fitten Sie ein lineares Modell an die Daten, indem Sie, wie in der Vorlesung gezeigt, die Funktion `lm` verwenden. Erklären Sie die Bedeutung der von `lm` ermittelten Koeffizienten. Lassen Sie sich mit `summary` p-Werte zu den Koeffizienten angeben. Wie erkennen Sie, ob der Effekt der Unterschied zwischen altem und neuem Dünger statistisch signifikant ist? Was passiert, wenn Sie die Ausgabe von `lm` and `confint` weiter geben? (c\) Denken Sie, dass der Nutzen des neuen Düngers im Vergleich zum alten bei allen drei Sorten gleich ist? (d) Um leichter den Überblick zu behalten, beschließt der Versuchsleiter, das Versuchsfeld folgendermaßen in 6x5 Felder einzuteilen: ``` +----+----+----+----+----+----+ | Aa | Ba | Ca | An | Bn | Cn | +----+----+----+----+----+----+ | Aa | Ba | Ca | An | Bn | Cn | +----+----+----+----+----+----+ | Aa | Ba | Ca | An | Bn | Cn | +----+----+----+----+----+----+ | Aa | Ba | Ca | An | Bn | Cn | +----+----+----+----+----+----+ | Aa | Ba | Ca | An | Bn | Cn | +----+----+----+----+----+----+ ``` Der alte Dünger ("`a`") wird also auf der westlichen und der neue Dünger ("`n`") auf der östlichen Hälfte der Versuchsfläche benutzt. Was halten Sie von diesem Verfahren? ## Aufgabe 3 Hier sehen Sie einen Plot der Körpergröße der Jungen in der NHANES-Studie: ![](https://i.imgur.com/vHWxb1w.png) (a) Um wie viel Zentimeter wächst ein Junge im Schnitt pro Jahr? Damit Sie das leichter ablesen können, habe ich eine Ausgleichgerade eingezeichnet. (b) Erinnern Sie sich an Ihre Schulzeit, ca. 8. Klasse, und stellen Sie die Geradengleichung (mit Achsenabschnitt und Steigung) der eingezeichneten Gerade auf. (c\) Probieren Sie den folgenden Code aus: ```r= nhanes %>% filter( age <= 14, gender=="male" ) %>% lm( height ~ age, . ) ``` - Erkennen Sie die Geradengleichung in der Ausgabe von `lm`? - Wo liegt der Unterschied zwischen diesem linearen Modell und dem aus Aufgabe 2? Was ist der wesentliche Unterschied zwischen den Variablen, die in Aufgabe 2 rechts der Tilde standen, und der Variablen, die hier rechts der Tilde steht? - Warum habe ich wohl den Filter `age <= 14` eingefügt? Für welchen Altersbereich gibt die Geradengleichung brauchbare Ergebnisse? ## Umfrage Bitte füllen Sie wieder die Umfrage aus: https://www.surveymonkey.de/r/PSDGX99 Die Umfrage ist anonym, aber ich hoffe sehr, dass die meisten von Ihnen etwas eintragen, so dass ich dann an der Zahl der Antworten ersehen kann, dass Sie diesmal *alle* die Aufgaben zumindest angesehen haben.