# 13 Punkte zum Konfidenzintervall
###### tags: `Vl Datenanalyse 21/22`
als Zusammenfassung der Vorlesung der 5. Woche
### (1) Zentraler Grenzwertsatz (ZGW)
Wenn man viele Zufallsgrößen, die unabhängig voneinander sind, aufaddiert, dann folgt die Summe näherungsweise einer Normalverteilung.
### (2) Mittelwerte
Aus (1) folgt: Wenn man über viele Werte mittelt, ist der Mittelwert normalverteilt
### (3) Standardfehler des Mittelwerts
Die Standardabweichung eines Mittelwerts über $n$ Einzelwerte, auch genannt Standardfehler des Mittelwerts (standard error of the mean, SEM), ist: $\text{SEM} = \text{SD} / \sqrt{n},$ wobei SD die (wahre) Standardabweichung der Einzelwerte ist.
### (4) 68-95-99,7-Regel
Wenn eine Zufallsgröße normalverteilt ist, dann weicht ein Einzelwert in 68% der Fälle höchstens um die Standardabweichung, in 95% der Fälle höchstens um die doppelte Standardabweichung, und in 99,7% h«chstens um die dreifache Standardabweichung vom Mittelwert ab.
### (5) Standardfehler als 68%-Konfidenzintervall
Aus (3) und (4) folgt: das Intervall, dass durch Stichproben-Mittelwert $\pm$ Standardfehler begrenzt wird, enthält in 68% der Fälle den wahren Wert.
### (6) Doppelter Standardfehler als 95%-Konfidenzintervall
Aus (3) und (4) folgt ebenso: das Intervall, dass durch Stichproben-Mittelwert $\pm$ doppelter Standardfehler begrenzt wird, enthält in 95% der Fälle den wahren Wert.
### (7) wahre und geschätzte Standardabweichung
Wo in (3-6) von Standardabweichung (und Standardfehler) die Rede ist, ist der *wahre* Wert der Standardabweichung gemeint. Die Standardabweichung der Stichprobe kann davon abweichen.
### (8) Problem kleiner Stichproben
Diese Abweichung kann *erheblich* sein, wenn die Anzahl $n$ an Einzelwerten klein ist. Daher gelten die Regeln (5) und (6) nur, wenn $n\gtrsim 50$. Für kleiner $n$ genügt es nicht, den Wert $\text{SD} / \sqrt{n}$ zu verdoppeln, um ein 95%-Konfidenzintervall zu erhalten.
### (9) Studentsche Korrektur
Statt $\text{SD} / \sqrt{n}$ einfach mit 2 zu multiplizieren, um ein 95%-Konfidenzintervall zu erhalten, nimmt man besser den Wert `qt( .975, n-1)`, d.h., das 97.5-Perzentil der Studentschen t-Verteilung für $n-1$ Freiheitsgrade.
### (10) 95%-Konfidenzinterval für Mittelwerte kleiner Stichproben
Folglich lautet die Formel für ein 95%-Konfidenzintervall des MIttelwerts:
$$ \left[\quad \hat\mu - q\,\hat\sigma/\sqrt{n}; \quad \hat\mu + q\, \hat\sigma/\sqrt{n} \quad \right].$$
Hierbei ist
- $\hat\mu$ der Mittelwert der Stichprobe,
- $\hat\sigma$ die Standardabweichung der Stichprobe,
- $n$ die Lqnge der Stichprobe, d.h. die Anzahl der gemessenen Werte,
und $q$ ist das in (9) erwähnte $t$-Quantil: `q = qt( 0.975, n-1 )`
### (11) Grenzwert für große Stichproben
Für großes $n$ ergibt die Formel für $q$ in (10) den Wert $q=1,\!96$, der in (3) zu $q=2$ vereinfacht wurde.
### (12) Konfidenzintervall für andere Überdeckungswahrscheinlichkeiten
Will man ein Konfidenzintervall für eine andere Überdeckungswahrscheinlichkeit $\alpha$ als das übliche 95% erhalten, ersetzt man in der Formel für $q$ das Quantil: `q=qt( (1+α)/2, n-1 )`.
### (13) Bedeutung der Überdeckungswahrscheinlichkeit
Wenn Sie bei einer großen Zahl an Analysen stets 95%-Konfidenzintervalle berechnen, dann werden 95% dieser Intervall den wahren Wert enthalten (und 5% werden den wahren Wert verfehlen)