owned this note
owned this note
Published
Linked with GitHub
# Einheit 1
# Einheit 2 und 3
# Diagramme
Kreuztabelle = Kontingenztabelle
Richtlinien zur Klasseneinteilung
• Wenn möglich gleichmäßige Anzahl von Objekten in den einzelnen Klassen
• Gleiche Breite der einzelnen Klassen (aber nicht immer sinnvoll, z.B.: Einkommensklassen, ...)
• „Gebräuchliche“ Klassengrenzen verwenden (z.B.: Alter in 10 Jahresschritten, ...)
• In der Mitte der Verteilung sollten alle Klassen gut besetzt sein.
• Bei großen Klassenbreiten können Besonderheiten der Verteilung verwischt werden.
• Klassen bestehen aus Objekten mit gleicher Merkmalsausprägung bzw. bei sehr vielen Merkmalsausprägungen einer Zusammenfassung verschiedener Merkmalsausprägungen, die einander ähnlich sind.
Haeufigkeitsdiagramme = Balken/Stabdiagramm: nur bei qualitativen ordinalen oder quantitativ-diskreten merkmalen sinnvoll.
Histogramme: bei metrischen daten

Ein Histogramm ist gut geeignet die Form der Verteilung abzubilden.
Tabellendarstellung
(empirische) Verteilungsfunktion:
• Die empirische Verteilungsfunktion F(x) stellt die kumulierte relative Häufigkeit der Elemente der Grundgesamtheit dar, deren Merkmalsausprägungen ≤ x ist.
• Die empirische Verteilungsfunktion des Merkmals X ist somit ein Darstellungsmittel für die kumulierten relativen Häufigkeiten basierend auf empirisch erhobenen Daten.
• Die grafische Darstellung wird auch als „Summenkurve“ bezeichnet.
• Als Abkürzung wird gelegentlich auch CDF („Cumulative Distribution Function“) verwendet; nicht zu verwechseln mit PDF („Probability Density Function“ ... Wahrscheinlichkeitsdichtefunktion).

## Boxplot



## Bivariate Daten

## Zusammenfassung

- Zusammenfassung deskriptive Statistik

# Lagemaßzahlen
## (Arithmetischer) Mittelwert ungruppiert

## Mittelwert gruppiert, diskret

arithmetisches Mittel macht lineare Transformationen der Ausgangswerte mit ➔ nicht lageinvariant und nicht skaleninvariant
## Mittelwert gruppiert, stetig
- Klassenmitten verwenden

## Geometrisches Mittel



## Harmonisches Mittel
- Auto Geschwindigkeitsbeispiele

## Gewogenes arithmetisches Mittel

### "trimmed" Average
- z.B largest und smallest 5% of values not into calculation (hides extremes)
## Median
• zweite wichtige Lagemaßzahl neben dem arithmetischen Mittel
• definiert als Wert, der wenn die Zahlen der Größe nach geordnet werden, in der Mitte dieser geordneten Zahlenreihe liegt



## Quantile

### Quantile bei ungruppierten Daten
- Verwende Tukey’s Hinges: Unterscheidung ob gerade/ungerade Fallzahl.

### Quantile bei gruppierten Daten

$d_i=Klassenbreite, f_i = abs. Häufigkeit, N=gesamt, F_{i} = kum. ABS. Häufigkeit$
### Modalwert (Modus)
• Der Modalwert xmod ist die Merkmalsausprägung, die am häufigsten vorkommt (sprich der Wert mit der größten Wahrscheinlichkeit).
• Falls mehrere Ausprägungen gleich häufig vorkommen, spricht man von einer multimodalen Verteilung (Gegenteil: unimodale Verteilung).
• Bei einer Klasseneinteilung gilt:
Klasse mit der größten Häufigkeit = modale Klasse
#### Zusammenfassung
• Mittelwert bestimmbar bei metrischen Merkmalen
• Median bestimmbar bei ordinalen oder metrischen Merkmalen
• Modus bestimmbar bei nominalen, ordinalen oder metrischen Merkmalen
• links-schiefe Verteilung : Mittelwert < Median < Modus • symmetrische Verteilung: Mittelwert ≈ Median ≈ Modus • rechts-schiefe Verteilung: Modus < Median < Mittelwert

# Streuungsmaßzahlen

## Ungruppierte Daten
### Spannweite und Interquartilsdistanz

### Varianz

### Standardabweichung

### Varianz

Verschiebungssatz von Steiner verwenden für schnellere Berechnung:
- $\overline{x}$ berechnen ($f_i * x_i$), um dann einfacher das ($f_i$ * $x_i^2$) berechnen zu können. (tabelle machen mit Spalten)
Beispiel:

### Stichprobenvarianz


## Gruppierte Daten
### Varianz

## Variationskoeffizient

## Empirische Schiefe

## Empirische Wölbung (Kurtosis)

# Einheit 4
# Korrelation
- Streudiagramme (Scatterplot)
## Kovarianz

Verschiebungssatz nach Steiner

## Korrelationskoeffizient

## Bravis-Pearson Korrelationskoeffizient



### Interpretation
• Auf Grund der Normierung hat der Korrelationskoeffizient immer einen Wertebereich von -1 bis +1.
• Es gilt:
rxy < 0 ... negativer linearer Zusammenhang rxy > 0 ... positiver linearer Zusammenhang rxy = 0 ... kein linearer Zusammenhang
• Um so näher der Betrag des Korrelationskoeffizienten bei 1 liegt, desto stärker ist der Zusammenhang.
• Bei einem Korrelationskoeffizienten von 0 liegt kein linearer Zusammenhang („unkorreliert“) vor. Es kann aber ein nicht-linearer (z.B.: quadratischer, ...) Zusammenhang bestehen.

## Rangkorrelationskoeffizient nach Spearman
robuste Alternative, welche auch bei ordinalem Datenniveau verwendet werden kann.



### Beispiel








## Korrelation und Kausalität
• Korrelation ist eine Maßzahl für den Zusammenhang von Daten.
• Kausalität bedeutet eine Beziehung zwischen Ursache und Wirkung und beschreibt die Abfolge von Ereignissen.
Korrelation ≠ Kausalität
• Besteht eine Korrelation zwischen X und Y können folgende Situationen vorliegen: - X könnte Y verursachen
- Y könnte X verursachen
- X und Y könnten durch ein drittes Ereignis C („Confounder“) verursacht sein
- der Zusammenhang in den Daten könnte ein zufälliges Ergebnis sein
• Erst durch zusätzliche Informationen, die nicht mittels statistischen Analysen gewonnen wurden, kann unter Umständen aus einer statistischen Korrelation auf eine Kausalität geschlossen werden.
## Regression
### Regressionsgerade

### Regressionsmodell




### Gütemaßzahl für ein Regressionsmodell


### R^2

# Einheit 5
# Wahrscheinlichkeitsrechnung und Kombinatorik
- Grundlage der induktiven Statistik


## Grenzwertsatz

## Kombinatorik
### Permutation

### Permutation mit Wiederholung
• Definition: Die n-stelligen Sequenzen aus Elementen der Grundgesamtheit A1, ... , Ar in denen das Element Aj genau
nj–mal vorkommt, nennt man Permutationen mit Wiederholungen der Längenmitjen1,n2,...,nr gleichenElementen(n1 +n2 +...+nr=n).
Dividieren durch die Permutationen der Wiederholungen um diese Faelle du auszugleichen.

### Kombination
• Definition: Die Auswahl von k Elementen (ohne Zurücklegen) aus einer Menge von n Elementen unter Nichtbeachtung der Anordnungen der ausgewählten Elemente wird als Kombination ohne Wiederholung bezeichnet („ungeordnete Ziehung ohne Zurücklegen“).

### Kombination mit Wiederholung
• Definition: Die Auswahl von k Elementen (mit Zurücklegen) aus einer Menge von n Elementen unter Nichtbeachtung der Anordnungen der ausgewählten Elemente wird als Kombination mit Wiederholung bezeichnet („ungeordnete Ziehung mit Zurücklegen“).

### Binomialkoeffizient

### Variation
• Definition: Die Auswahl von k Elementen (ohne Zurücklegen) aus einer Menge von n Elementen unter Beachtung der Anordnungen der ausgewählten Elemente wird als Variation ohne Wiederholung bezeichnet („geordnete Ziehung ohne Zurücklegen“).

### Variation mit Wiederholung
• Definition: Die Auswahl von k Elementen (mit Zurücklegen) aus einer Menge von n Elementen unter Beachtung der Anordnungen der ausgewählten Elemente wird als Variation mit Wiederholung bezeichnet („geordnete Ziehung mit Zurücklegen“).

# Unabhaengige Ereignisse
## Multiplikationsregel

## Additionsregel (disjunkte Ereignisse)

## Allgemeine Additionsregel

## Gegenwahrscheinlichkeit

## Axiome von Kolmogorov


## Unabhängige vs. abhängige Ereignisse

# Bedinge Wahrscheinlichkeit






## Satz der totalen Wahrscheinlichkeit

## Satz von Bayes


# Zufallsvariablen
## Verteilungsfunktion

## Wahrscheinlichkeitsfunktion


## Wahrscheinlichkeitsdichte
- Flaeche under der Wahrscheinlichkeitsfunktion


- Zusammenfassung


## Erwartungswert von Zufallsvariablen

## Momente von Zufallsvariablen

## Rechenregeln


## Beispiele










## Verteilung von Zufallsvariablen
Spezielle Verteilungen
Wir betrachten folgende diskrete Verteilungen:
- diskrete Gleichverteilung
- Binomialverteilung
- Bernoulli-Verteilung
- hypergeometrische Verteilung - Poisson-Verteilung
Wir betrachten folgende stetige Verteilungen:
- Normalverteilung (auch Gauss-Verteilung genannt)
- t-Verteilung (auch Student-Verteilung genannt)
- Chi-Quadrat-Verteilung
- F-Verteilung (auch Fisher-Snedecor-Verteilung genannt)
### Diskrete Gleichverteilung


### Binomialverteilung



### Bernoulli-Verteilung

### Hypergeometrische Verteilung


#### Beispiel

### Poisson-Verteilung

#### Beispiel

### Approximation

#### Beispiel



---
# Einheit 9
# Stetige Verteilungen
## Normalverteilung
Es lässt sich zeigen, dass die Verteilung der Summe von n unabhängig identisch verteilten Zufallsvariablen für großes n gegen die Normalverteilung strebt (zentraler Grenzwertsatz nach Lindeberg & Lévy).
### Dichte der Normalverteilung

## Standardnormalverteilung

### Tabellen spalten


## Umkehraufgaben - Giraffe





## Prüfverteilungen der Normalverteilung

### Chi-Quadratverteilung
• Die Chi-Quadratverteilung wurde erstmals vom Astronomen Friedrich Robert Helmert (1843-1917) im Jahre 1876 beschrieben. Der Name geht auf Karl Pearson zurück (1857-1936).
• Die Chi-Quadrat-Verteilung bildet die Basis des Chi-Quadrat-Tests, der u.a. beim statistischen Vergleich nominaler Daten eine wichtige Rolle spielt.
• Es wird ein Zufallsexperiment Zi mit standard-normalverteiltem Ausgang betrachtet.
• Dieses Zufallsexperiment wird n-mal unter gleichen Bedingungen unabhängig voneinander wiederholt. Damit erhält man die Zufallsvariablen Z1, Z2, ... , Zn.
• Die Summe dieser quadrierten Zufallsvariablen folgt einer Chi-Quadratverteilung mit n Freiheitsgraden („Degrees of Freedom“).
### t-Verteilung
• Die t-Verteilung wurde von William Sealy Gosset (1876-1937) im Jahr 1908 unter dem Pseudonym „Student“ entwickelt. W.S. Gosset arbeitete in der Guinness Brauerei und wendete statistische Methoden unter anderem zur Qualitätssicherung bei der Bierherstellung an.
• Die t-Verteilung ist die Basis des t-Tests, der zur Überprüfung dient, ob sich die Mittelwerte zweier Stichproben statistisch signifikant unterscheiden oder nicht.
• Es werden folgende zwei Zufallsexperimente Z und X betrachtet, wobei Z standardnormalverteilt und X Chi-Quadrat-verteilt mit n Freiheitsgraden ist.
### F-Verteilung
• Die F-Verteilung basiert auf dem Quotienten zweier Chi-Quadrat-verteilter Zufallsvariablen. Die F-Verteilung besitzt dadurch zwei unabhängige Freiheitsgrade m und n als Parameter.
• Die F-Verteilung geht auf Ronald Aylmer Fisher (1890-1962) und George Waddel Snedecor (1881-1974) zurück und bildet die Basis für den F-Test, der zur Überprüfung dient, ob sich die Varianzen zweier Stichproben statistisch signifikant unterscheiden oder nicht. Sie bildet ebenfalls die Basis für die Varianzanalyse („Analysis of Variance“).
## Zentraler Grenzwertsatz
• Die Bestimmung der exakten Verteilung solcher Summen von Zufallsvariablen ist teilweise extrem aufwendig.
• Lösung: Bestimmung einer approximativen (asymptotischen) Lösung basierend auf dem zentralen Grenzwertsatz.
• Der zentrale Grenzwertsatz ist Teil einer Familie von Grenzwertsätzen, die Konvergenzaussagen in der Wahrscheinlichkeitsrechnung beschreiben.



### Beispiel


---
# Einheit 10
• Deskriptive Statistik („Informationen über erhobene Daten“)
• Wahrscheinlichkeitsrechnung
• Induktive Statistik („Schließen von einer Stichprobe auf eine Grundgesamtheit“)
Aufgaben der induktiven Statistik:
- Schätzen von Parametern
- Testen von Hypothesen

## Punktschätzung

## Gütekriterien für Punktschätzer

## Bereichsschätzung
• Die Bereichsschätzung wird auch Konfidenzintervallschätzung genannt.
• Das Ergebnis entspricht einem Zahlenbereich bzw. Konfidenzintervall („Vertrauensbereich“) mit der Länge L. Ein Bereichsschätzer ist weniger präzise, aber zuverlässiger als ein Punktschätzer.
• Die Zuverlässigkeit kann im Voraus festgelegt werden und wird als Sicherheitswahrscheinlichkeit oder Konfidenz bezeichnet.
• Der Wert der Zuverlässigkeit wird mit S = 1 − α definiert. Der Fehler α entspricht der Unzuverlässigkeit des Schätzverfahrens („Risiko einer Fehlschätzung“)
• Präzision: Genauigkeit der Schätzung, wird durch die Länge L des Konfidenzintervalls bestimmt
• Zuverlässigkeit: Sicherheit der Schätzung, wird durch die Sicherheitswahrscheinlichkeit S = 1 − α ausgedrückt (auch Überdeckungswahrscheinlichkeit genannt; α steht für den maximal erlaubten „Fehler“)
• Vergrößerung der Stichprobe
➔ höhere Präzision (= kleineres KI) und höhere Zuverlässigkeit
(= höhere Sicherheitswahrscheinlichkeit)
• Vergrößerung der Stichprobe bei konstanter Präzision
➔ höhere Zuverlässigkeit (= höhere Sicherheitswahrscheinlichkeit)
• Vergrößerung des Stichprobenumfangs bei konstanter Zuverlässigkeit
➔ höhere Präzision (= kleineres KI)
• Fester Stichprobenumfang und Erhöhung der Zuverlässigkeit
➔ geringere Präzision (= größeres KI)
# Konfidenzintervall für einen Mittelwert (wahre Varianz bekannt)




Beispiel:


## Wahre Varianz unbekannt




## Standardfehler & Konfidenzintervalle

## Konfidenzintervall für einen Anteil
- Recap: Bernoulli-Verteilung



### Beispiel

# Einheit 11
# Testen von Hypothesen
Hypothesen
• Eine wissenschaftliche Forschungsfrage ist eine Aussage, die man basierend auf einer Theorie für wahrscheinlich hält, aber (noch) nicht bewiesen hat.
• Eine konkrete Forschungsfrage (z.B.: „Gibt es einen Unterschied bezüglich des Mittelwertes zweier Gruppen?“) wird als (statistische) Hypothese bezeichnet und bildet ein statistisches Testproblem.
• Um die Hypothese und deren Gegenteil leichter zu unterscheiden, wird einerseits von der Nullhypothese H0 und andererseits von der Alternativhypothese oder Einshypothese H1 gesprochen („statistisches Hypothesenpaar“).
➔ Was bewiesen werden soll, ist die Einshypothese H1 und trägt die „Beweislast“.

## Parametrischer Signifikanztest
• Ein Signifikanztest kontrolliert die Wahrscheinlichkeit für einen Fehler 1. Art auf einem vorab festgelegtem Signifikanzniveau α.
• Der mit der Nullhypothese „verbundene“ Fehler 2. Art wird innerhalb eines Signifikanztest nicht direkt kontrolliert. Es kann daher hier keine direkte Aussage über den Fehler 2. Art gemacht werden.
• Bei einem parametrischen Test werden konkrete Parameter (Mittelwert, Varianz, ...) einer Verteilung betrachtet. Es werden also Aussagen über die Parameter einer Grundgesamtheit getroffen.
• Bei einem nicht-parametrischen („parameterfreien“) Test wird die „Art der Verteilung“ überprüft. Man prüft beispielsweise, ob sich die Verteilung einer Zufallsstichprobe von der Verteilung einer Grundgesamtheit unterscheidet.
• Übliche Werte für den Fehler 1. Art sind 5% oder 1%. Diese Werte werden auch als Irrtumswahrscheinlichkeit oder Signifikanzniveau bezeichnet und müssen vor der Testdurchführung festgelegt werden. Je kleiner der Fehler 1. Art gewählt wird, desto „vorsichtiger“ („Nullhypothese wird eher nicht abgelehnt“) verhält sich der Test.
• Eine Kontrolle des Fehlers 2. Art ist in einem Signifikanztest nicht direkt möglich. Der Fehler 2. Art kann aber beim Vorliegen einer Nicht-Ablehnung der Nullhypothese nach Testdurchführung bestimmt werden („Power Analyse“).
• Eine Kontrolle des Fehlers 2. Art vor Testdurchführung ist durch eine s.g. Fallzahlschätzung („Sample Size Estimation“) möglich. Es wird hier der Zusammenhang zwischen Stichprobenumfang, Fehler 1. Art und Fehler 2. Art ausgenutzt.
• Generell hängen Fehler 1. Art und Fehler 2. Art indirekt (↓α ↑β bzw. ↑α ↓β) zusammen, ergänzen sich aber nicht auf 1.
### Konstruktion
• Was bewiesen werden soll, wird zur Alternativhypothese.
• Behauptung X soll bewiesen werden:
- H0: Gegenteil von Behauptung X („kein Unterschied vorhanden“) - H1: Behauptung X („Unterschied vorhanden“)
• Wird die Nullhypothese abgelehnt, wird die Behauptung X doppelt verneint (Gegenteil von X trifft nicht zu) ➔ Nachweis für Behauptung X
• Das Risiko eines falschen Nachweises („falsch positiver Nachweis“) entspricht dem α-Fehler, der kontrollierbar ist und auch meist der „interessantere“ Fehler ist, da er mit der Einshypothese, die die Beweislast trägt, verbunden ist.
• Wird die Nullhypothese nicht abgelehnt, gilt die Behauptung X weder als widerlegt noch als nachgewiesen („Null-Aussage“), da der in diesem Fall relevante β-Fehler mit einem Signifikanztest nicht direkt kontrollierbar ist
# Eine Grundgesamtheit
## Gauß-Test („z-Test“) (wahre Varianz bekannt)


## Einstichproben-t-Test (wahre Varianz unbekannt)


## Tausch der Hypothesen
TLDR: NICHT möglich

# Zwei Grundgesamtheiten
## Unverbundener Zweistichproben-t-Test
- Varianzhomogenitat erforderlich



## Konfidenzintervall der Mittelwertdifferenz


## p-Wert

## Statistische Signifikanz vs. Relevanz

## Ablauf eines statistischen Tests

## Test auf Homoskedastizität (F-Test)


Zusatzinfos

## Welch’s t-Test

## Gepaarte („verbundene“) Daten

### Gepaarter t-Test

#### Beispiel


## Problem Multiples Testen


- Durch multiples Testen kommt es zu einer Inflation des Fehlers 1. Art. Sprich, je mehr Hypothesen man testet, desto höher wird die Wahrscheinlichkeit, dass eine davon (fälschlicherweise) abgelehnt wird.
# Einheit 12
# Kategoriale Daten
## Binäre Daten – eine Variable (Dichotome Variable)

### Beispiel

## Exakter Binomialtest (Voraussetzung verletzt)



## Kategoriale Daten: eine Variable

- Observed und Expected Values verlgleichen (abstand)
## Chi-Quadrat-Test für eine Stichprobe

### Beispiel

## Chi-Quadrat-Test für mehr als eine Stichprobe


- Tabelle mit observed values
- Tabelle mit expected values
### Beispiel



## Chi-Quadrat-Test für 2 Variablen
### Chi-Quadrat-Unabhängigkeits-Test

## Asymptotische vs. Exakte Tests

## Exakter Test nach Fisher




• Zur Erinnerung: Der p-Wert ist die Wahrscheinlichkeit, das aktuelle Ergebnis (oder ein noch extremeres Ergebnis) zu erhalten.
• Der exakte Test nach Fisher berechnet genau diese Wahrscheinlichkeit ohne irgendeine Approximation der Verteilung. Man erhält so direkt als Endergebnis des exakten Tests nach Fisher den gesuchten p-Wert.
p-Wert = 0.070 > 0.05 ➔ H0 kann nicht abgelehnt werden
(Unterschied ist nicht statistisch signifikant.)
## Abhängige kategoriale Daten




### Beispiel



## Exakter McNemar-Test


## Assoziation
• Mit der Chi-Quadrat-Testfamilie bzw. dem exakten Test nach Fisher kann getestet werden, ob ein statistisch signifikanter Zusammenhang zwischen zwei kategorialen Variablen besteht.
• Statistische Testergebnisse hängen aber immer auch von der Fallzahl ab.
• Zum Vergleich der Assoziation zwischen verschiedenen m×k Tabellen benötigen wir aber eine Maßzahl, die von der Fallzahl unabhängig ist. Es wird daher eine standardisierte Maßzahl, deren Wert (klein oder groß) Information über die Stärke der Assoziation liefert, benötigt.
• Die Idee einer solchen Maßzahl beruht auf der Chi-Quadrat-Teststatistik und einer anschließenden Standardisierung dieser Maßzahl.
### Phi Koeffizient für 2×2 Tabellen



### Maßzahlen der Assoziation für m×k Tabellen
