# Hausaufgaben zur 7. Vorlesung In der letzten Vorlesung haben wir über die Stichprobenverteilung von Mittelwerten gesprochen: Wenn man eine Stichprobe mit $n$ Werten hat, die aus einer Grundgesamtheit mit Mittelwert $\mu$ und Standardabweichung $\sigma$ stammen, dann kann man abschätzen, wie nah der Stichproben-Mittelwert $\hat\mu$ am "wahren" Mittelwert liegen sollte: - Mit einer Wahrscheinlichkeit von 68,3% ist der Abstand von $\hat\mu$ zu $\mu$ nicht mehr als $\sigma_\text{m}$. - Mit einer Wahrscheinlichkeit von 95,4% ist der Abstand von $\hat\mu$ zu $\mu$ nicht mehr als $2\sigma_\text{m}$. - Mit einer Wahrscheinlichkeit von 99,7% ist der Abstand von $\hat\mu$ zu $\mu$ nicht mehr als $3\sigma_\text{m}$. Dabei ist $\sigma_\text{m}=\sigma/\sqrt{n}$ der sog. Standardfehler des Mittelwertes. <small>Nebenbemerkung: Sie sehen hier eine Konvention in der Statistik. Wir schreiben $\mu$ (ohne "Dach") für den wahren Mittelwert (Mittelwert der Grundgesamtheit) und $\hat\mu$ (mit "Dach") für den geschätzten Wert (also den Mittelwert der Stichprobe). Das Dach benutzt man, um anzuzeigen, dass der Wert von einer Stichprobe stammt (also, in der Statistiker-Sprache, eine "Schätzung" ist). Das Zeichen $\hat\mu$ liest man auf Deutsch "Mü-Dach" und auf Englisch "mu-hat".</small> ## Aufgabe 1 Zunächst einige Verständnisfragen: - Was versteht man unter der Stichproben-Verteilung des Mittelwertes, was hat sie mit den o.g. Aussagen zu tun, und wie sieht sie aus? - Wo kommen diese drei Werte (68%, 95%, 99%) her? Erinnern Sie sich an die Form der Standard-Normalverteilung, und an die Teilflächen darunter. Können Sie dies aus dem Gedächtnis skizzieren? Wo finden sich die Werte in ihrer Skizze der Normalverteilung? - Der folgende R-Code berechnet die drei Werte. ```r > 1 - 2 * pnorm( 1, lower.tail=FALSE ) [1] 0.6826895 > 1 - 2 * pnorm( 2, lower.tail=FALSE ) [1] 0.9544997 > 1 - 2 * pnorm( 3, lower.tail=FALSE ) [1] 0.9973002 ``` Können Sie den Code erklären? Was genau berechnet `pnorm`? Erklären Sie das mit einer Skizze. Warum nehmen wir den Wert aus `pnorm` mal 2 und ziehen ihn von 1 ab? ## Aufgabe 2 Nun möchten wir o.g. die Behauptung überprüfen. Ein Mathematiker würde nach einem Beweis suchen, aber wir begnügen uns damit, es auszuprobieren. Unsere Grundgesamtheit sind alle Männer in Deutschland. Wir nehmen an, dass die Körpergröße von Männern bei uns normalverteilt ist, mit Mittelwert 178 cm und Standardabweichung 7 cm. - Ziehen Sie 100000 Werte aus einer Normalverteilung mit $\mu=178$ und $\sigma=7$ und plotten Sie ein Histogramm. <small>Wenn Sie diese Aufgabe nicht lösen kommen, kommen Sie witer unten nicht weiter. Versuchen Sie es also eine Weile selbst, und wenn es Ihnen nicht gelingt (aber erst nachdem Sie es ehrlich versucht haben), spicken Sie [hier](https://gist.github.com/simon-anders/e42d39598431b0ad0f6e6a1a58c72ae0).</small> So wie dieses Histogramm sieht also die Verteilung für alle erwachsenen Männer in Deutschland vermutlich aus -- zumindest nehmen wir das im folgenden an. Nun wählen wir zufällig 100 Männer aus. Dazu können wir entweder 100 Zahlen aus den oben generierten 100000 Werten ziehen (mit `sample`) oder 100 neue Werte aus der Normalverteilung ziehen (mit `rnorm`). Simulieren Sie also eine solche Stichprobe und berechnen Sie ihren Mittelwert. "Legen" Sie dann einen Standardfehler $\sigma_\text{m}$ um den ermittelten Stichproben-Mittelwert, d.h., ziehen Sie einmal den Standardfehler ab und zählen Sie ihn einmal hinzu, um so einen "Fehlerbalken" (fachsprachlich: ein "Konfidenzintervall") zu erhalten: das Intervall von $\hat\mu-\sigma_\text{m}$ bis $\hat\mu+\sigma_\text{m}$. Nach der anfangs zitierten Regel sollte dieses Intervall den wahren Mittelwert $\mu$ (also 178 cm) mit 68% Wahrscheinlichkeit enthalten. Führen Sie dieses Experiment einige Dutzend Male durch und führen Sie eine Strichliste, wie oft das Mittelwert-Konfidenzintervall den wahren Wert enthält. Ist dies bei ca. 68% der Stichproben der Fall gewesen? ## Aufgabe 3 Eine Strichliste auf Papier zu führen (wie in Aufgabe 3) ist mühsam unprofessionell. Benutzen Sie die `replicate`-Funktion, um die Operation "100 Zahlen ziehen und Mittelwert berechnen" automatisch 1000 mal auszuführen. Schreiben Sie einen R-Code, der jedesmal das Konfidenzintervall $[\hat\mu-\sigma_\text{m},\hat\mu+\sigma_\text{m}]$ konstruiert und prüft, ob es den wahren Wert $\mu$ enthält. Das Intervall $[\hat\mu-\sigma_\text{m},\hat\mu+\sigma_\text{m}]$ hat (laut o.g. Regel) eine "Konfidenz" von 68%. Passt das zu Ihrem Ergebnis? Probieren Sie das auch für das "95,4%-Konfidenzintervall" $[\hat\mu-2\sigma_\text{m},\hat\mu+2\sigma_\text{m}]$ und das "99,7%-Konfidenzintervall" $[\hat\mu-3\sigma_\text{m},\hat\mu+3\sigma_\text{m}]$. Wie sieht es aus, wenn wir die Stichprobengröße reduzieren und jeweils nur 10 oder nur 5 statt 100 Personen nehmen? Wiederholen Sie die Aufgabe für diese Werte. ## Aufgabe 4 In den Aufgaben 2 und 3 haben wir geschummelt. Ist es Ihnen aufgefallen? In einer echten statistischen Erhebung könnten wir gar nicht auf diese Weise bestimmen, wie genau der Mittelwert ist, denn wir wüssten ja nicht, dass die Standardabweichung der Grundgesamtheit 7 cm beträgt. (Wenn wir Mittelwert und Standardabweichung der Grundgesamtheit wüßten, müßten wir ja keine Erhebung durchführen.) Somit könnten wir "im richtigen Leben" ein Konfidenzintervall gar nicht erstellen, in dem wir $\sigma_\text{m}$ dazu zählen oder abziehen. Wir müssen also die Standardabweichung der Stichprobe nehmen und mit $s_\text{m}=\hat\sigma/\sqrt{n} arbeiten. Damit erhalten wir als unser Konfidenz-Intervall $[\hat\mu-s_\text{m},\hat\mu+s_\text{m}]$. Modifizieren Sie also Ihren Code zu Aufgabe 3. Passen die Intervalle immer noch? (Tipp: Jetzt sollte es nicht mehr ganz so gut klappen. Wann genau bekommen wir ein Problem?)