Matthias
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights
    • Engagement control
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Versions and GitHub Sync Note Insights Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       owned this note    owned this note      
    Published Linked with GitHub
    Subscribed
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    Subscribe
    # Einheit 1 # Einheit 2 und 3 # Diagramme Kreuztabelle = Kontingenztabelle Richtlinien zur Klasseneinteilung • Wenn möglich gleichmäßige Anzahl von Objekten in den einzelnen Klassen • Gleiche Breite der einzelnen Klassen (aber nicht immer sinnvoll, z.B.: Einkommensklassen, ...) • „Gebräuchliche“ Klassengrenzen verwenden (z.B.: Alter in 10 Jahresschritten, ...) • In der Mitte der Verteilung sollten alle Klassen gut besetzt sein. • Bei großen Klassenbreiten können Besonderheiten der Verteilung verwischt werden. • Klassen bestehen aus Objekten mit gleicher Merkmalsausprägung bzw. bei sehr vielen Merkmalsausprägungen einer Zusammenfassung verschiedener Merkmalsausprägungen, die einander ähnlich sind. Haeufigkeitsdiagramme = Balken/Stabdiagramm: nur bei qualitativen ordinalen oder quantitativ-diskreten merkmalen sinnvoll. Histogramme: bei metrischen daten ![](https://hackmd.io/_uploads/H1zCse2u2.png) Ein Histogramm ist gut geeignet die Form der Verteilung abzubilden. Tabellendarstellung (empirische) Verteilungsfunktion: • Die empirische Verteilungsfunktion F(x) stellt die kumulierte relative Häufigkeit der Elemente der Grundgesamtheit dar, deren Merkmalsausprägungen ≤ x ist. • Die empirische Verteilungsfunktion des Merkmals X ist somit ein Darstellungsmittel für die kumulierten relativen Häufigkeiten basierend auf empirisch erhobenen Daten. • Die grafische Darstellung wird auch als „Summenkurve“ bezeichnet. • Als Abkürzung wird gelegentlich auch CDF („Cumulative Distribution Function“) verwendet; nicht zu verwechseln mit PDF („Probability Density Function“ ... Wahrscheinlichkeitsdichtefunktion). ![](https://hackmd.io/_uploads/Bkk63lhu2.png) ## Boxplot ![](https://hackmd.io/_uploads/BkCEU-hOh.png) ![](https://hackmd.io/_uploads/r1QH8-2O3.png) ![](https://hackmd.io/_uploads/BJASUbnu2.png) ## Bivariate Daten ![](https://hackmd.io/_uploads/ryFhcbhdn.png) ## Zusammenfassung ![](https://hackmd.io/_uploads/rJs_IZ3_2.png) - Zusammenfassung deskriptive Statistik ![](https://hackmd.io/_uploads/By3acW3Oh.png) # Lagemaßzahlen ## (Arithmetischer) Mittelwert ungruppiert ![](https://hackmd.io/_uploads/rJzI6l2O2.png) ## Mittelwert gruppiert, diskret ![](https://hackmd.io/_uploads/rkiW6l3O2.png) arithmetisches Mittel macht lineare Transformationen der Ausgangswerte mit ➔ nicht lageinvariant und nicht skaleninvariant ## Mittelwert gruppiert, stetig - Klassenmitten verwenden ![](https://hackmd.io/_uploads/SkYTTxn_2.png) ## Geometrisches Mittel ![](https://hackmd.io/_uploads/HJb70l2dh.png) ![](https://hackmd.io/_uploads/ryyUCg3_2.png) ![](https://hackmd.io/_uploads/BJ_fgWnun.png) ## Harmonisches Mittel - Auto Geschwindigkeitsbeispiele ![](https://hackmd.io/_uploads/S1CYCghd3.png) ## Gewogenes arithmetisches Mittel ![](https://hackmd.io/_uploads/BJCa0e3d3.png) ### "trimmed" Average - z.B largest und smallest 5% of values not into calculation (hides extremes) ## Median • zweite wichtige Lagemaßzahl neben dem arithmetischen Mittel • definiert als Wert, der wenn die Zahlen der Größe nach geordnet werden, in der Mitte dieser geordneten Zahlenreihe liegt ![](https://hackmd.io/_uploads/r1AE1Wh_h.png) ![](https://hackmd.io/_uploads/S1H8JWh_n.png) ![](https://hackmd.io/_uploads/SyxDy-2On.png) ## Quantile ![](https://hackmd.io/_uploads/S1-A9Widn.png) ### Quantile bei ungruppierten Daten - Verwende Tukey’s Hinges: Unterscheidung ob gerade/ungerade Fallzahl. ![](https://hackmd.io/_uploads/BkPtyWh_h.png) ### Quantile bei gruppierten Daten ![](https://hackmd.io/_uploads/HJTtibi_n.png) $d_i=Klassenbreite, f_i = abs. Häufigkeit, N=gesamt, F_{i} = kum. ABS. Häufigkeit$ ### Modalwert (Modus) • Der Modalwert xmod ist die Merkmalsausprägung, die am häufigsten vorkommt (sprich der Wert mit der größten Wahrscheinlichkeit). • Falls mehrere Ausprägungen gleich häufig vorkommen, spricht man von einer multimodalen Verteilung (Gegenteil: unimodale Verteilung). • Bei einer Klasseneinteilung gilt: Klasse mit der größten Häufigkeit = modale Klasse #### Zusammenfassung • Mittelwert bestimmbar bei metrischen Merkmalen • Median bestimmbar bei ordinalen oder metrischen Merkmalen • Modus bestimmbar bei nominalen, ordinalen oder metrischen Merkmalen • links-schiefe Verteilung : Mittelwert < Median < Modus • symmetrische Verteilung: Mittelwert ≈ Median ≈ Modus • rechts-schiefe Verteilung: Modus < Median < Mittelwert ![](https://hackmd.io/_uploads/rJvIeWhu2.png) # Streuungsmaßzahlen ![](https://hackmd.io/_uploads/BkT9qWj_3.png) ## Ungruppierte Daten ### Spannweite und Interquartilsdistanz ![](https://hackmd.io/_uploads/ByUnvWsuh.png) ### Varianz ![](https://hackmd.io/_uploads/Hy-jwZjd3.png) ### Standardabweichung ![](https://hackmd.io/_uploads/SJl1dZjdh.png) ### Varianz ![](https://hackmd.io/_uploads/H10PbZ2d3.png) Verschiebungssatz von Steiner verwenden für schnellere Berechnung: - $\overline{x}$ berechnen ($f_i * x_i$), um dann einfacher das ($f_i$ * $x_i^2$) berechnen zu können. (tabelle machen mit Spalten) Beispiel: ![](https://hackmd.io/_uploads/HJzSYbjOn.png) ### Stichprobenvarianz ![](https://hackmd.io/_uploads/HkmfZ-3On.png) ![](https://hackmd.io/_uploads/r1hX--n_2.png) ## Gruppierte Daten ### Varianz ![](https://hackmd.io/_uploads/HJEHbWhO3.png) ## Variationskoeffizient ![](https://hackmd.io/_uploads/HJ7qZbhu2.png) ## Empirische Schiefe ![](https://hackmd.io/_uploads/HkIoWW3dn.png) ## Empirische Wölbung (Kurtosis) ![](https://hackmd.io/_uploads/SJasWb3_3.png) # Einheit 4 # Korrelation - Streudiagramme (Scatterplot) ## Kovarianz ![](https://hackmd.io/_uploads/HyBkPb3_n.png) Verschiebungssatz nach Steiner ![](https://hackmd.io/_uploads/B1lixvZ2u3.png) ## Korrelationskoeffizient ![](https://hackmd.io/_uploads/rJ7Vw-hdn.png) ## Bravis-Pearson Korrelationskoeffizient ![](https://hackmd.io/_uploads/SkGBPZ3dh.png) ![](https://hackmd.io/_uploads/HJGDwWhdh.png) ![](https://hackmd.io/_uploads/B1UtDZ3_h.png) ### Interpretation • Auf Grund der Normierung hat der Korrelationskoeffizient immer einen Wertebereich von -1 bis +1. • Es gilt: rxy < 0 ... negativer linearer Zusammenhang rxy > 0 ... positiver linearer Zusammenhang rxy = 0 ... kein linearer Zusammenhang • Um so näher der Betrag des Korrelationskoeffizienten bei 1 liegt, desto stärker ist der Zusammenhang. • Bei einem Korrelationskoeffizienten von 0 liegt kein linearer Zusammenhang („unkorreliert“) vor. Es kann aber ein nicht-linearer (z.B.: quadratischer, ...) Zusammenhang bestehen. ![](https://hackmd.io/_uploads/SJjswbndh.png) ## Rangkorrelationskoeffizient nach Spearman robuste Alternative, welche auch bei ordinalem Datenniveau verwendet werden kann. ![](https://hackmd.io/_uploads/H1WkdW3dh.png) ![](https://hackmd.io/_uploads/rk-e_b3d3.png) ![](https://hackmd.io/_uploads/HkxPYZhd2.png) ### Beispiel ![](https://hackmd.io/_uploads/HJrHO-n_n.png) ![](https://hackmd.io/_uploads/rJ1__W3u2.png) ![](https://hackmd.io/_uploads/rykI_ZhO2.png) ![](https://hackmd.io/_uploads/Sy_UOZnO2.png) ![](https://hackmd.io/_uploads/ryVt_Z2d2.png) ![](https://hackmd.io/_uploads/B1scOZ2_2.png) ![](https://hackmd.io/_uploads/BJ5jOZ3_h.png) ![](https://hackmd.io/_uploads/SythuW3O3.png) ## Korrelation und Kausalität • Korrelation ist eine Maßzahl für den Zusammenhang von Daten. • Kausalität bedeutet eine Beziehung zwischen Ursache und Wirkung und beschreibt die Abfolge von Ereignissen. Korrelation ≠ Kausalität • Besteht eine Korrelation zwischen X und Y können folgende Situationen vorliegen: - X könnte Y verursachen - Y könnte X verursachen - X und Y könnten durch ein drittes Ereignis C („Confounder“) verursacht sein - der Zusammenhang in den Daten könnte ein zufälliges Ergebnis sein • Erst durch zusätzliche Informationen, die nicht mittels statistischen Analysen gewonnen wurden, kann unter Umständen aus einer statistischen Korrelation auf eine Kausalität geschlossen werden. ## Regression ### Regressionsgerade ![](https://hackmd.io/_uploads/ryhAKbnOh.png) ### Regressionsmodell ![](https://hackmd.io/_uploads/B1vx9bnun.png) ![](https://hackmd.io/_uploads/HJGM5-nd3.png) ![](https://hackmd.io/_uploads/HJ4mq-nOh.png) ![](https://hackmd.io/_uploads/BJGNq-2_h.png) ### Gütemaßzahl für ein Regressionsmodell ![](https://hackmd.io/_uploads/ryLBq-3_2.png) ![](https://hackmd.io/_uploads/B1qLqbhOh.png) ### R^2 ![](https://hackmd.io/_uploads/HJGYcZ2uh.png) # Einheit 5 # Wahrscheinlichkeitsrechnung und Kombinatorik - Grundlage der induktiven Statistik ![](https://hackmd.io/_uploads/HkWBj-n_n.png) ![](https://hackmd.io/_uploads/rkxIjb3O2.png) ## Grenzwertsatz ![](https://hackmd.io/_uploads/Sk7Kj-2_3.png) ## Kombinatorik ### Permutation ![](https://hackmd.io/_uploads/H1eRjZ3Oh.png) ### Permutation mit Wiederholung • Definition: Die n-stelligen Sequenzen aus Elementen der Grundgesamtheit A1, ... , Ar in denen das Element Aj genau nj–mal vorkommt, nennt man Permutationen mit Wiederholungen der Längenmitjen1,n2,...,nr gleichenElementen(n1 +n2 +...+nr=n). Dividieren durch die Permutationen der Wiederholungen um diese Faelle du auszugleichen. ![](https://hackmd.io/_uploads/rJT42Z2un.png) ### Kombination • Definition: Die Auswahl von k Elementen (ohne Zurücklegen) aus einer Menge von n Elementen unter Nichtbeachtung der Anordnungen der ausgewählten Elemente wird als Kombination ohne Wiederholung bezeichnet („ungeordnete Ziehung ohne Zurücklegen“). ![](https://hackmd.io/_uploads/BkuK2b3Oh.png) ### Kombination mit Wiederholung • Definition: Die Auswahl von k Elementen (mit Zurücklegen) aus einer Menge von n Elementen unter Nichtbeachtung der Anordnungen der ausgewählten Elemente wird als Kombination mit Wiederholung bezeichnet („ungeordnete Ziehung mit Zurücklegen“). ![](https://hackmd.io/_uploads/BkynnZ2O3.png) ### Binomialkoeffizient ![](https://hackmd.io/_uploads/rJKhhb2_n.png) ### Variation • Definition: Die Auswahl von k Elementen (ohne Zurücklegen) aus einer Menge von n Elementen unter Beachtung der Anordnungen der ausgewählten Elemente wird als Variation ohne Wiederholung bezeichnet („geordnete Ziehung ohne Zurücklegen“). ![](https://hackmd.io/_uploads/SJoXaZndn.png) ### Variation mit Wiederholung • Definition: Die Auswahl von k Elementen (mit Zurücklegen) aus einer Menge von n Elementen unter Beachtung der Anordnungen der ausgewählten Elemente wird als Variation mit Wiederholung bezeichnet („geordnete Ziehung mit Zurücklegen“). ![](https://hackmd.io/_uploads/rksLaZ2uh.png) # Unabhaengige Ereignisse ## Multiplikationsregel ![](https://hackmd.io/_uploads/HkJtRb2_h.png) ## Additionsregel (disjunkte Ereignisse) ![](https://hackmd.io/_uploads/ryi3C-nd2.png) ## Allgemeine Additionsregel ![](https://hackmd.io/_uploads/Sy0W1M3un.png) ## Gegenwahrscheinlichkeit ![](https://hackmd.io/_uploads/rJApR-hO3.png) ## Axiome von Kolmogorov ![](https://hackmd.io/_uploads/Hkw8Jf3O2.png) ![](https://hackmd.io/_uploads/rJbPJzndn.png) ## Unabhängige vs. abhängige Ereignisse ![](https://hackmd.io/_uploads/B1zOyf2_3.png) # Bedinge Wahrscheinlichkeit ![](https://hackmd.io/_uploads/H1ShJM3uh.png) ![](https://hackmd.io/_uploads/S1Uflzn_n.png) ![](https://hackmd.io/_uploads/rJgIlM3_2.png) ![](https://hackmd.io/_uploads/r1NWZfnO3.png) ![](https://hackmd.io/_uploads/SJiG-fnu2.png) ![](https://hackmd.io/_uploads/H1zHbGn_2.png) ## Satz der totalen Wahrscheinlichkeit ![](https://hackmd.io/_uploads/rkWwff3un.png) ## Satz von Bayes ![](https://hackmd.io/_uploads/HkKfQfhOn.png) ![](https://hackmd.io/_uploads/rJlNmf3O3.png) # Zufallsvariablen ## Verteilungsfunktion ![](https://hackmd.io/_uploads/H1QFVf3_h.png) ## Wahrscheinlichkeitsfunktion ![](https://hackmd.io/_uploads/BkH5EM2O2.png) ![](https://hackmd.io/_uploads/Hyg-Hf3O3.png) ## Wahrscheinlichkeitsdichte - Flaeche under der Wahrscheinlichkeitsfunktion ![](https://hackmd.io/_uploads/B1AhHz2On.png) ![](https://hackmd.io/_uploads/HyUarMhdn.png) - Zusammenfassung ![](https://hackmd.io/_uploads/ryv0HMn_3.png) ![](https://hackmd.io/_uploads/H1s1Lfnuh.png) ## Erwartungswert von Zufallsvariablen ![](https://hackmd.io/_uploads/S15KwM3O2.png) ## Momente von Zufallsvariablen ![](https://hackmd.io/_uploads/SJp-uG2d2.png) ## Rechenregeln ![](https://hackmd.io/_uploads/rkazOz3u2.png) ![](https://hackmd.io/_uploads/BkmOdM3O2.png) ## Beispiele ![](https://hackmd.io/_uploads/ByU9lMn_n.png) ![](https://hackmd.io/_uploads/Hy7sxzhdh.png) ![](https://hackmd.io/_uploads/HJAgGG2_h.png) ![](https://hackmd.io/_uploads/ry7-Mzndn.png) ![](https://hackmd.io/_uploads/SyzD7zhdh.png) ![](https://hackmd.io/_uploads/r1PrHM2On.png) ![](https://hackmd.io/_uploads/r1S7Lznd2.png) ![](https://hackmd.io/_uploads/HJmE8zndh.png) ![](https://hackmd.io/_uploads/rkYNLf2un.png) ![](https://hackmd.io/_uploads/HkIS8fh_n.png) ## Verteilung von Zufallsvariablen Spezielle Verteilungen Wir betrachten folgende diskrete Verteilungen: - diskrete Gleichverteilung - Binomialverteilung - Bernoulli-Verteilung - hypergeometrische Verteilung - Poisson-Verteilung Wir betrachten folgende stetige Verteilungen: - Normalverteilung (auch Gauss-Verteilung genannt) - t-Verteilung (auch Student-Verteilung genannt) - Chi-Quadrat-Verteilung - F-Verteilung (auch Fisher-Snedecor-Verteilung genannt) ### Diskrete Gleichverteilung ![](https://hackmd.io/_uploads/BJgAtMnuh.png) ![](https://hackmd.io/_uploads/Symycf3d3.png) ### Binomialverteilung ![](https://hackmd.io/_uploads/HkFGqGhO2.png) ![](https://hackmd.io/_uploads/ryAvczhd3.png) ![](https://hackmd.io/_uploads/BkL_5z2d2.png) ### Bernoulli-Verteilung ![](https://hackmd.io/_uploads/SyrKqzhOh.png) ### Hypergeometrische Verteilung ![](https://hackmd.io/_uploads/rJyc9z3dh.png) ![](https://hackmd.io/_uploads/BJD69zhdn.png) #### Beispiel ![](https://hackmd.io/_uploads/BkN4ozhOh.png) ### Poisson-Verteilung ![](https://hackmd.io/_uploads/r1p0qfnu3.png) #### Beispiel ![](https://hackmd.io/_uploads/BJmSiG2un.png) ### Approximation ![](https://hackmd.io/_uploads/B1TUsfhd3.png) #### Beispiel ![](https://hackmd.io/_uploads/SyK3oz2O2.png) ![](https://hackmd.io/_uploads/S1Nasf3On.png) ![](https://hackmd.io/_uploads/BJgATGn_2.png) --- # Einheit 9 # Stetige Verteilungen ## Normalverteilung Es lässt sich zeigen, dass die Verteilung der Summe von n unabhängig identisch verteilten Zufallsvariablen für großes n gegen die Normalverteilung strebt (zentraler Grenzwertsatz nach Lindeberg & Lévy). ### Dichte der Normalverteilung ![](https://hackmd.io/_uploads/rk2Ghz2d3.png) ## Standardnormalverteilung ![](https://hackmd.io/_uploads/BJbIhM3O2.png) ### Tabellen spalten ![](https://hackmd.io/_uploads/r1RI3Mhdh.png) ![](https://hackmd.io/_uploads/r1nc2M2Oh.png) ## Umkehraufgaben - Giraffe ![](https://hackmd.io/_uploads/HkIzjbsdn.png) ![](https://hackmd.io/_uploads/SkMmjbi_h.png) ![](https://hackmd.io/_uploads/S1SEsboO3.png) ![](https://hackmd.io/_uploads/HklBjZidn.png) ![](https://hackmd.io/_uploads/BysBsboO3.png) ## Prüfverteilungen der Normalverteilung ![](https://hackmd.io/_uploads/HytiRGnun.png) ### Chi-Quadratverteilung • Die Chi-Quadratverteilung wurde erstmals vom Astronomen Friedrich Robert Helmert (1843-1917) im Jahre 1876 beschrieben. Der Name geht auf Karl Pearson zurück (1857-1936). • Die Chi-Quadrat-Verteilung bildet die Basis des Chi-Quadrat-Tests, der u.a. beim statistischen Vergleich nominaler Daten eine wichtige Rolle spielt. • Es wird ein Zufallsexperiment Zi mit standard-normalverteiltem Ausgang betrachtet. • Dieses Zufallsexperiment wird n-mal unter gleichen Bedingungen unabhängig voneinander wiederholt. Damit erhält man die Zufallsvariablen Z1, Z2, ... , Zn. • Die Summe dieser quadrierten Zufallsvariablen folgt einer Chi-Quadratverteilung mit n Freiheitsgraden („Degrees of Freedom“). ### t-Verteilung • Die t-Verteilung wurde von William Sealy Gosset (1876-1937) im Jahr 1908 unter dem Pseudonym „Student“ entwickelt. W.S. Gosset arbeitete in der Guinness Brauerei und wendete statistische Methoden unter anderem zur Qualitätssicherung bei der Bierherstellung an. • Die t-Verteilung ist die Basis des t-Tests, der zur Überprüfung dient, ob sich die Mittelwerte zweier Stichproben statistisch signifikant unterscheiden oder nicht. • Es werden folgende zwei Zufallsexperimente Z und X betrachtet, wobei Z standardnormalverteilt und X Chi-Quadrat-verteilt mit n Freiheitsgraden ist. ### F-Verteilung • Die F-Verteilung basiert auf dem Quotienten zweier Chi-Quadrat-verteilter Zufallsvariablen. Die F-Verteilung besitzt dadurch zwei unabhängige Freiheitsgrade m und n als Parameter. • Die F-Verteilung geht auf Ronald Aylmer Fisher (1890-1962) und George Waddel Snedecor (1881-1974) zurück und bildet die Basis für den F-Test, der zur Überprüfung dient, ob sich die Varianzen zweier Stichproben statistisch signifikant unterscheiden oder nicht. Sie bildet ebenfalls die Basis für die Varianzanalyse („Analysis of Variance“). ## Zentraler Grenzwertsatz • Die Bestimmung der exakten Verteilung solcher Summen von Zufallsvariablen ist teilweise extrem aufwendig. • Lösung: Bestimmung einer approximativen (asymptotischen) Lösung basierend auf dem zentralen Grenzwertsatz. • Der zentrale Grenzwertsatz ist Teil einer Familie von Grenzwertsätzen, die Konvergenzaussagen in der Wahrscheinlichkeitsrechnung beschreiben. ![](https://hackmd.io/_uploads/B1NykX2On.png) ![](https://hackmd.io/_uploads/HJYlJ7hd3.png) ![](https://hackmd.io/_uploads/HJwfJm2_2.png) ### Beispiel ![](https://hackmd.io/_uploads/rJcNkm3uh.png) ![](https://hackmd.io/_uploads/HygBy73uh.png) --- # Einheit 10 • Deskriptive Statistik („Informationen über erhobene Daten“) • Wahrscheinlichkeitsrechnung • Induktive Statistik („Schließen von einer Stichprobe auf eine Grundgesamtheit“) Aufgaben der induktiven Statistik: - Schätzen von Parametern - Testen von Hypothesen ![](https://hackmd.io/_uploads/rynv172On.png) ## Punktschätzung ![](https://hackmd.io/_uploads/B1_5yX3d2.png) ## Gütekriterien für Punktschätzer ![](https://hackmd.io/_uploads/S1eiymnu2.png) ## Bereichsschätzung • Die Bereichsschätzung wird auch Konfidenzintervallschätzung genannt. • Das Ergebnis entspricht einem Zahlenbereich bzw. Konfidenzintervall („Vertrauensbereich“) mit der Länge L. Ein Bereichsschätzer ist weniger präzise, aber zuverlässiger als ein Punktschätzer. • Die Zuverlässigkeit kann im Voraus festgelegt werden und wird als Sicherheitswahrscheinlichkeit oder Konfidenz bezeichnet. • Der Wert der Zuverlässigkeit wird mit S = 1 − α definiert. Der Fehler α entspricht der Unzuverlässigkeit des Schätzverfahrens („Risiko einer Fehlschätzung“) • Präzision: Genauigkeit der Schätzung, wird durch die Länge L des Konfidenzintervalls bestimmt • Zuverlässigkeit: Sicherheit der Schätzung, wird durch die Sicherheitswahrscheinlichkeit S = 1 − α ausgedrückt (auch Überdeckungswahrscheinlichkeit genannt; α steht für den maximal erlaubten „Fehler“) • Vergrößerung der Stichprobe ➔ höhere Präzision (= kleineres KI) und höhere Zuverlässigkeit (= höhere Sicherheitswahrscheinlichkeit) • Vergrößerung der Stichprobe bei konstanter Präzision ➔ höhere Zuverlässigkeit (= höhere Sicherheitswahrscheinlichkeit) • Vergrößerung des Stichprobenumfangs bei konstanter Zuverlässigkeit ➔ höhere Präzision (= kleineres KI) • Fester Stichprobenumfang und Erhöhung der Zuverlässigkeit ➔ geringere Präzision (= größeres KI) # Konfidenzintervall für einen Mittelwert (wahre Varianz bekannt) ![](https://hackmd.io/_uploads/rJNegQhd3.png) ![](https://hackmd.io/_uploads/rJPN_Zid3.png) ![](https://hackmd.io/_uploads/rJjYuWju2.png) ![](https://hackmd.io/_uploads/Hk4GxQnOh.png) Beispiel: ![](https://hackmd.io/_uploads/Sk35_-j_n.png) ![](https://hackmd.io/_uploads/rJ5dgX3uh.png) ## Wahre Varianz unbekannt ![](https://hackmd.io/_uploads/SkR9lmhOh.png) ![](https://hackmd.io/_uploads/SyBheQnd2.png) ![](https://hackmd.io/_uploads/ByXpemnun.png) ![](https://hackmd.io/_uploads/HyjJ-7hd3.png) ## Standardfehler & Konfidenzintervalle ![](https://hackmd.io/_uploads/SJcx-73On.png) ## Konfidenzintervall für einen Anteil - Recap: Bernoulli-Verteilung ![](https://hackmd.io/_uploads/SJBH-Qnd2.png) ![](https://hackmd.io/_uploads/Bk7XW7hu2.png) ![](https://hackmd.io/_uploads/HkOXZXnOn.png) ### Beispiel ![](https://hackmd.io/_uploads/ryAO-Xh_h.png) # Einheit 11 # Testen von Hypothesen Hypothesen • Eine wissenschaftliche Forschungsfrage ist eine Aussage, die man basierend auf einer Theorie für wahrscheinlich hält, aber (noch) nicht bewiesen hat. • Eine konkrete Forschungsfrage (z.B.: „Gibt es einen Unterschied bezüglich des Mittelwertes zweier Gruppen?“) wird als (statistische) Hypothese bezeichnet und bildet ein statistisches Testproblem. • Um die Hypothese und deren Gegenteil leichter zu unterscheiden, wird einerseits von der Nullhypothese H0 und andererseits von der Alternativhypothese oder Einshypothese H1 gesprochen („statistisches Hypothesenpaar“). ➔ Was bewiesen werden soll, ist die Einshypothese H1 und trägt die „Beweislast“. ![](https://hackmd.io/_uploads/SkCAZQhu2.png) ## Parametrischer Signifikanztest • Ein Signifikanztest kontrolliert die Wahrscheinlichkeit für einen Fehler 1. Art auf einem vorab festgelegtem Signifikanzniveau α. • Der mit der Nullhypothese „verbundene“ Fehler 2. Art wird innerhalb eines Signifikanztest nicht direkt kontrolliert. Es kann daher hier keine direkte Aussage über den Fehler 2. Art gemacht werden. • Bei einem parametrischen Test werden konkrete Parameter (Mittelwert, Varianz, ...) einer Verteilung betrachtet. Es werden also Aussagen über die Parameter einer Grundgesamtheit getroffen. • Bei einem nicht-parametrischen („parameterfreien“) Test wird die „Art der Verteilung“ überprüft. Man prüft beispielsweise, ob sich die Verteilung einer Zufallsstichprobe von der Verteilung einer Grundgesamtheit unterscheidet. • Übliche Werte für den Fehler 1. Art sind 5% oder 1%. Diese Werte werden auch als Irrtumswahrscheinlichkeit oder Signifikanzniveau bezeichnet und müssen vor der Testdurchführung festgelegt werden. Je kleiner der Fehler 1. Art gewählt wird, desto „vorsichtiger“ („Nullhypothese wird eher nicht abgelehnt“) verhält sich der Test. • Eine Kontrolle des Fehlers 2. Art ist in einem Signifikanztest nicht direkt möglich. Der Fehler 2. Art kann aber beim Vorliegen einer Nicht-Ablehnung der Nullhypothese nach Testdurchführung bestimmt werden („Power Analyse“). • Eine Kontrolle des Fehlers 2. Art vor Testdurchführung ist durch eine s.g. Fallzahlschätzung („Sample Size Estimation“) möglich. Es wird hier der Zusammenhang zwischen Stichprobenumfang, Fehler 1. Art und Fehler 2. Art ausgenutzt. • Generell hängen Fehler 1. Art und Fehler 2. Art indirekt (↓α ↑β bzw. ↑α ↓β) zusammen, ergänzen sich aber nicht auf 1. ### Konstruktion • Was bewiesen werden soll, wird zur Alternativhypothese. • Behauptung X soll bewiesen werden: - H0: Gegenteil von Behauptung X („kein Unterschied vorhanden“) - H1: Behauptung X („Unterschied vorhanden“) • Wird die Nullhypothese abgelehnt, wird die Behauptung X doppelt verneint (Gegenteil von X trifft nicht zu) ➔ Nachweis für Behauptung X • Das Risiko eines falschen Nachweises („falsch positiver Nachweis“) entspricht dem α-Fehler, der kontrollierbar ist und auch meist der „interessantere“ Fehler ist, da er mit der Einshypothese, die die Beweislast trägt, verbunden ist. • Wird die Nullhypothese nicht abgelehnt, gilt die Behauptung X weder als widerlegt noch als nachgewiesen („Null-Aussage“), da der in diesem Fall relevante β-Fehler mit einem Signifikanztest nicht direkt kontrollierbar ist # Eine Grundgesamtheit ## Gauß-Test („z-Test“) (wahre Varianz bekannt) ![](https://hackmd.io/_uploads/Hybwz73_n.png) ![](https://hackmd.io/_uploads/BJodM7n_h.png) ## Einstichproben-t-Test (wahre Varianz unbekannt) ![](https://hackmd.io/_uploads/HkCcGXnO3.png) ![](https://hackmd.io/_uploads/BkfhMm2_2.png) ## Tausch der Hypothesen TLDR: NICHT möglich ![](https://hackmd.io/_uploads/Byjpz72O2.png) # Zwei Grundgesamtheiten ## Unverbundener Zweistichproben-t-Test - Varianzhomogenitat erforderlich ![](https://hackmd.io/_uploads/Bk9VQ73On.png) ![](https://hackmd.io/_uploads/rkk8Q7n_n.png) ![](https://hackmd.io/_uploads/HJHU7Qhu2.png) ## Konfidenzintervall der Mittelwertdifferenz ![](https://hackmd.io/_uploads/S1nUXX3On.png) ![](https://hackmd.io/_uploads/Hyd_7mhO2.png) ## p-Wert ![](https://hackmd.io/_uploads/SJeUiQm2O2.png) ## Statistische Signifikanz vs. Relevanz ![](https://hackmd.io/_uploads/r1Hn7XnOh.png) ## Ablauf eines statistischen Tests ![](https://hackmd.io/_uploads/SylRXQ3d3.png) ## Test auf Homoskedastizität (F-Test) ![](https://hackmd.io/_uploads/HkfyEQnO3.png) ![](https://hackmd.io/_uploads/ry4gVm3un.png) Zusatzinfos ![](https://hackmd.io/_uploads/B12m473u2.png) ## Welch’s t-Test ![](https://hackmd.io/_uploads/rykr4XhO3.png) ## Gepaarte („verbundene“) Daten ![](https://hackmd.io/_uploads/Hy4LBX3u3.png) ### Gepaarter t-Test ![](https://hackmd.io/_uploads/B1qDH7hu3.png) #### Beispiel ![](https://hackmd.io/_uploads/SJ46BQ3_h.png) ![](https://hackmd.io/_uploads/Bk7ABXhu2.png) ## Problem Multiples Testen ![](https://hackmd.io/_uploads/ByuWIm3Oh.png) ![](https://hackmd.io/_uploads/rk6-IX3On.png) - Durch multiples Testen kommt es zu einer Inflation des Fehlers 1. Art. Sprich, je mehr Hypothesen man testet, desto höher wird die Wahrscheinlichkeit, dass eine davon (fälschlicherweise) abgelehnt wird. # Einheit 12 # Kategoriale Daten ## Binäre Daten – eine Variable (Dichotome Variable) ![](https://hackmd.io/_uploads/HkR8I7n_n.png) ### Beispiel ![](https://hackmd.io/_uploads/BkdvLX2un.png) ## Exakter Binomialtest (Voraussetzung verletzt) ![](https://hackmd.io/_uploads/rkz3873_3.png) ![](https://hackmd.io/_uploads/B133LmhOn.png) ![](https://hackmd.io/_uploads/H1hR8m2_3.png) ## Kategoriale Daten: eine Variable ![](https://hackmd.io/_uploads/BJMNDmndh.png) - Observed und Expected Values verlgleichen (abstand) ## Chi-Quadrat-Test für eine Stichprobe ![](https://hackmd.io/_uploads/S1QoDm2_2.png) ### Beispiel ![](https://hackmd.io/_uploads/HJORDmhuh.png) ## Chi-Quadrat-Test für mehr als eine Stichprobe ![](https://hackmd.io/_uploads/Syf7dQ3_h.png) ![](https://hackmd.io/_uploads/SJ5Q_73u3.png) - Tabelle mit observed values - Tabelle mit expected values ### Beispiel ![](https://hackmd.io/_uploads/HJnoOQn_h.png) ![](https://hackmd.io/_uploads/BJkTOQ2O2.png) ![](https://hackmd.io/_uploads/SyV0umh_h.png) ## Chi-Quadrat-Test für 2 Variablen ### Chi-Quadrat-Unabhängigkeits-Test ![](https://hackmd.io/_uploads/r1IXt72dn.png) ## Asymptotische vs. Exakte Tests ![](https://hackmd.io/_uploads/SkbEtQh_2.png) ## Exakter Test nach Fisher ![](https://hackmd.io/_uploads/rJ9DFQ3dh.png) ![](https://hackmd.io/_uploads/HkHOK72dn.png) ![](https://hackmd.io/_uploads/BJauYX3_n.png) ![](https://hackmd.io/_uploads/HkzFKQ3d3.png) • Zur Erinnerung: Der p-Wert ist die Wahrscheinlichkeit, das aktuelle Ergebnis (oder ein noch extremeres Ergebnis) zu erhalten. • Der exakte Test nach Fisher berechnet genau diese Wahrscheinlichkeit ohne irgendeine Approximation der Verteilung. Man erhält so direkt als Endergebnis des exakten Tests nach Fisher den gesuchten p-Wert. p-Wert = 0.070 > 0.05 ➔ H0 kann nicht abgelehnt werden
 (Unterschied ist nicht statistisch signifikant.) ## Abhängige kategoriale Daten ![](https://hackmd.io/_uploads/HJ9TYXh_n.png) ![](https://hackmd.io/_uploads/BkKCFXhun.png) ![](https://hackmd.io/_uploads/BJRRFmhd2.png) ![](https://hackmd.io/_uploads/r14J973_2.png) ### Beispiel ![](https://hackmd.io/_uploads/Skiec7ndn.png) ![](https://hackmd.io/_uploads/SkeWcX2_2.png) ![](https://hackmd.io/_uploads/B1pW972O3.png) ## Exakter McNemar-Test ![](https://hackmd.io/_uploads/Hkd757hun.png) ![](https://hackmd.io/_uploads/rkAQ5mhO3.png) ## Assoziation • Mit der Chi-Quadrat-Testfamilie bzw. dem exakten Test nach Fisher kann getestet werden, ob ein statistisch signifikanter Zusammenhang zwischen zwei kategorialen Variablen besteht. • Statistische Testergebnisse hängen aber immer auch von der Fallzahl ab. • Zum Vergleich der Assoziation zwischen verschiedenen m×k Tabellen benötigen wir aber eine Maßzahl, die von der Fallzahl unabhängig ist. Es wird daher eine standardisierte Maßzahl, deren Wert (klein oder groß) Information über die Stärke der Assoziation liefert, benötigt. • Die Idee einer solchen Maßzahl beruht auf der Chi-Quadrat-Teststatistik und einer anschließenden Standardisierung dieser Maßzahl. ### Phi Koeffizient für 2×2 Tabellen ![](https://hackmd.io/_uploads/rJddcX2_h.png) ![](https://hackmd.io/_uploads/B1xtqQ2_3.png) ![](https://hackmd.io/_uploads/Bkit9X3_3.png) ### Maßzahlen der Assoziation für m×k Tabellen ![](https://hackmd.io/_uploads/S1Sq9Qhuh.png)

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully