ExEv Formelsammlung

# ExEv Formelsammlung [TOC] ## Glossar Standardlösung = Stlg Eigene Tools vom TR = TTR Eigene Formeln = EF Brändli Zusammenfassung = BZ ## Allgemeine Theorie **Praktische Konzepte zur Ermittlung der Streuung:** mittlere absolute Abstand & mittlere quadratische Abstand (Häufigkeitsverteilungen und ihre Parameter S.13-15 Spick) **Zusammenhang zwischen Dichte-, Verteil- und Wahrscheinlichkeitsfunktion:** Wenn die diskrete Wahrscheinlichkeitsfunktion Summiert wird erhält man die stetige oder diskrete Verteilungsfunktion. Integriert man die stetike Dichtefunktion erhählt man auch die Wahrscheinlichkeitsfunktion. Eine **Standardnormalverteilung** ist eine Normalverteilung mit dem mittelwert 1 und einer Standardabweichung von 1 Eine **Normalverteilung** sind viele kleine unabhängige und identisch verteilte Zufallseffekte welche sich approximativ zu einem normalverteiltern Gesamteffekt summieren. mögliche Anwendungsfälle: Betonbeutelabfüllmenge, **Exponentialverteilung**, mögliche Anwendungsfälle: Zeit zwischen zwei Anrufen, Lebensdauer von Bauteilen ohne Alterung `BZ 7.2.6` **Rechtecksverteilung**, mögliche Anwendungsfälle: Warten auf einen Bus TODO MEHR BSP **Dreiecksverteilung**, mögliche Anwendungsfälle: Eintreten von Ereignissen mit Minimum, Maximum, Modus TODO MEHR BSP generell auf spick? **Normalverteilung**, mögliche Anwendungsfälle: Streeung von Messwerten, Abweichung von Soll-Massen TODO MEHR BSP **Bernoulli Verteilung** beschreibt zwei mögliche Versuchsausgänge (Erfolg, Misserfolg). Mögliche Anwendungsfälle: Qualitätsprüfung (defekt nicht defekt) Münzwurf etc. **Binomial-Verteilung** beschreibt die Anzahl der Erfolge in einer Serie von zufälligen Ereignissen, die jeweils genau zwei mögliche Ergebnisse haben (Erfolg, Misserfolg). Mögliche Anwendungsfälle: Bitfehler in einem Datenblock, defekte Waren in Stichproben. **Poisson Verteilung** beschreibt die Anzahl von Ereignissen die konstanter mittlerer Rate (durchschnitt) unabhängig voneinander in einem festen Zeitintervall eintreten. Mögliche Anwendungsfälle: Anzahl eintreffende Kunden in einem Zeitintervall, Anzahl verschickte emails in einem Zeitintervall etc Die **schliessende Statistik** testet Hypothesen über Verteilungen, indem die Verteilungen mit gemessenen Werten aka Stichproben verglichen werden. Des weiteren versucht man auf Basis statistischer Modelle und Daten aus diesen Stichproben zu allgemeinen Aussagen über eine Grundgesamtheit zu gelangen. Die **Schätzende Varianz** einer Grundgesamtheit ist $χ^2$-verteilt. **Stichproben** bei welchen $n$ kleiner als 30 ist sind Normalverteilt. Grössere sind Student T verteilt Beim **Schätzverfahren** können Parameter der Grundgesamtheit nicht exakt bestimmt werden. In diesem Falle versucht man aufgrund der Stichprobe auf die Grundgesamtheit zu schliessen (natürlich nur Schätzungsweise) **Punktschätzung** ist nur ein Wert angegeben. Die Präzesion ist sehr hoch die Zuverlässigkeit allerdings schlecht. **Intervallschätzung** es wird ein Intervall angegeben. Die Präzesion ist zwar tiefer aber die Konfidenz (Präzesion) wird im Voraus festgelegt. Für np < 10 und n >= 1500p kann die Possion-Verteilung als Näherung zur Binomialverteilung verwendet werden. TODO define np and p **Fehler 1. Art** (Alphafehler) beschreibt das fehlerhafte ==ablehnen== einer Hypothese **Fehler 2. Art** (Betafehler) beschreibt das fehlerhafte ==annehmen== einer Hypothese **Die Erwartungstreue** ist wenn der Erwartungswert der Schätzfunktion mit dem Erwartungswert der Zufallsvariable in der Grundgesamtheit übereinstimmt. **Parametertests** anhand einer Stichprobe eine Hypothese zu einem Parameter (Mittelwert, Varianz etc.) geprüft **Verteilungstest** anhand einer Stichprobe eine Hupothese zur Verteilung einer Zufallsvariable geprüft **Unabhängigkeitstest** anhand einer Stichprobe eine Hypothese zur Unabhängigkeit von zwei Zufallsvariables geprüft. `BZ Kapitel 10.3` **Ein Konfidenzintervall** gibt den Vertrauensbereich an in dem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt. **Wahrscheinlichkeitsverteilung** gibt an, mit welcher Wahrscheinlichkeit die Realisierungen einer Zufallsvariable auftreten. **unabhänigige Stichproben** setzten sich von voneinander unabhängigen Personen, Messungen, Maschinen, Verfahren etc. zusammen **abhängige Stichproben**: Datenpaare oder Datengruppen die zusammengehören und keine statistisch voneinander unabhängige Messung darstellen. (Messwiederholung als bsp) Die **statistische Signifikanz** gibt Auskunft darüber, ob Stichproben so stark von einer Annahme (0 Hypothese) abweichen, dass die Annahme verworfen wird. Eine **Bernoulli-Verteilung** ist ein Spezialfall der Binomialverteilung mit $n = 1$ Um eine **Fehlerrechnung** zu vollziehen, kann man die absoluten und relativen Fehler addieren, die partielle Differentiation verwerden, oder Minimal und Maximalwerte einsetzen. **Das System der Ereignisse** wird aus gemessenen Ereignissen bei einem Zufallsexperiment gebildet A = 3, B = 5 | $A \cup B = A, B$ Der **Korrelationskoeffizient** beschreibt die Enge des linearen Zusammenhangs zweier Merkmale. Wenn $r = 1$ == Perfekt positiven linearen Zusammenhang. $r = - 1$ == perfekt negativer linearer Zusammenhang. $r = 0$ == kein linearer Zusammenhang vorhanden. Ein **Streudiagramm** ist dazu da, um in einem ersten Analyseschritt zu erkennen ob zwischen zwei Merkmalen ein Zusammenhang besteht. Das **arithmetische Mittel** (Durchschnitt) berechtet den Durchschnitt der Werte Das **geometrische Mittel** berechnet die durschnittliche *veränderung* der Werte (Aktienkurs als Bsp) Ein **Ereigniss** ist eine Menge die sich aus einem oder mehreren Elementareregebnissen zusammensetzt. Eine **Zeitreihe** ist ein zeitlich geordnete Folge von Merkmalswerten Wenn bei einer Untersuchung des Zusammenhangs zweier Merkmale geachtet wird, dann interessiert uns ob ein **rechnerischer Zusammenhang** besteht. (Bsp Steigt Wert A, wenn Wert B steigt?) Die **Kovarianz** wird vordergründig zur Überprüfung des Vorliegens eines linearen, monotonen Zusammenhangs zwischen zwei Zufallsvariablen verwendet. *Beispielsweise* kann man die Kovarianz anwenden, um den Zusammenhang zwischen der Anzahl der Mitarbeiter in einem Unternehmen und der produzierten Waren (z.B. Joghurt) zu untersuchen. Die **einfache Häufigkeitsverteilung** zeigt die Häufigkeit (Anzahl) der einzelnen Werte, die in eine Klasse fallen. Bezieht man die Anzahl der Werte auf die Klassenweite, so kommt man zur Dichte. Die **kumulierte Häufigkeitsverteilung** ist die schrittweise Summenbildung der einfachen Häufigkeitsverteilung. Der letzte Wert der Summenbildung ist da mit die Anzahl aller erfassten Werte. **Merkmal, Merkmalswert, Merkmalsträger und Grundgesamtheit** `-> S.9 Brändli Spick` Der **Variationskoeffizient** misst die relative Streuung bezogen auf die Standardabweichung bezogen auf den arithmetischen Mittelwert Die **Dichte- oder Häufigkeitsverteilung** gibt einen Eindruck, wie die Daten über einen bestimmten Bereich verteilt sind. **Steuergrössen** können vom Nutzer eingestellt werden **Störgrössen** können nicht vom Nutzer eingestellt werden. **Zielgrössen** sind das Ergebnis eines Versuches **Eine Hypothese** ist eine Annahme (CPT obvious here) Der **Modus** ist insensitiv gegenüber Ausreissern, der Nachteil ist, dass er nicht immer eindeutig ist. Der **Median** hat den Vorteil, dass er bereits für ordinalskalierte Daten bestimmt werden kann und insensitiv gegenüber Ausreissern ist. Das **Arithmetische mittel** hat den Nachteil, dass es sensitiv gegenüber Aussreissern ist. Eine **Simulation** ist eine experimentelle Methode welche mittels vielen analytischen Schritten zur Erstellung des Modells und zur Datenaufbereitung sowie -auswertung erfordert. Für die **Primärstatistik** werden neue Daten für den Zweck der statistischen Untersuchung erhoben. Vorteil: gesammelte Daten sind an die Untersuchungsfrage ausgerichtet. Nachteil: Aufwändiger und sehr wahrscheinlich kostengünstiger. Für die **Sekundärstatistik** werden bereits vorhandene Daten verwendet. Vorteil: Kostengünstiger Nachteil: Erhebung nicht aus Fragestellung ausgerichtet. Weniger aktuelle Daten. Eine **empirische Verteilung** (Häufigkeitsverteilung) ist das Resultat einer wiederholten Durchführung eines Zufallsexperiment. **Theoretische Verteilungen** entstehen auf der Grundlage theoretischer Überlegungen. Um eine **Bravais Pearson Korrelation** zu berechnen müssen Daten mindestens Intervallskaliert sein. Die **Kombinatorik** bestimmt die zahl der möglichen Anordungen von Elementen mit/ohne Berücksichtigung von Reihenfolge und Wiederholung Bei **diskreten Zufallsvariablen** werden die Ergebnisse eines Zufallsexperimentes kategorisiert oder gezählt. Kann nur endliche oder abzählbar unendliche Mengen als Werte annehmen. Bei **stetigen Zufallsvariablen** können in einem gegebenen Intervall beliebig genau sein. Kann unendlich viele Werte annehmen. Eine **Zufallsvariable** ist eine Funktion, die den Ergebnissen eines Zufallsexperiments (Ereignisse) reelle Zahlen (Realisierung) zuordnet. Der Wert der Zufallsvariable ist daher vom Zufall abhängig Beim **Laplace-Experiment** kann häufig die Kombinatorik zum Zählen der günstigen und möglichen Fälle verwendet werden Die Korrelation gibt *keine* Auskunft über die **Kausalität** **Formale Abhängigkeit** == wenn Korrelation ungleich 0 **Sachliche Abhängigkeit** == Kausale abhängigkeit. Wenn formale abhängigkeit besteht kann das ein Indiz für eine Sachliche Abhängigkeit sein muss allerdings von einem Domänen Experten geprüft werden. **Mengen** enthalten jedes Element nur einmal. Reihenfolge der Elemente ist unwichtig. **Tupel** können dieselben Elemente mehrfach enthalten. Reihenfolge der Elemente ist von Bedeutung. Das **Skalenniveau** gibt Auskunft über die Qualität der Daten eines Merkmals. D.h inwiefern sich das Merkmal in Zahlen darstellen lässt und welche sinnvolle logische und mathematische Operationen angwendet werden können. **Mögliche Operationen mit Skalen** Nominalskala | Ordinalskala | Intervallskala | Verhältnisskala ---|---|---|---| $= \ne$ | $= \ne <>$ | $= \ne <> +-$ | $= \ne <> +-*/$ Bei Summen und Differenzen addieren sich die **absoluten Fehler** Bei Produkten und Quotienten addieren sich die **relativen Fehler**. Steuergrössen, Störgrössen und Zielgrössen sind die wichtigsten grössen im **Prozessmodel** eines Experiments. Ein **Zufall/ Zufallsexperiment** ist ein Vorgang dessen Ausgang aufgrund von Unkenntnis oder Unwissenheit nicht vorhersehbar ist. Die **Fehlerrechnung** wird verwendet um den Bereich abzuschätzen in dem der tatsächliche Wert einer gewissen Wahrscheinlichkeit liegt. Die **$χ^2$ Verteilung** leitet sich aus der Summe von unabhängigen quadrierten standardnormalverteilten Zufallsgrössen her. **Satz von Bayes**: $P(A|B)P(B) =P(B|A)P(A)$ Wenn der Durchschnitt zweier **Ergebnisse** leer ist sind diese **disjunkt**(einander ausschliesend) **Bedingte Wahrscheinlichkeit** besagt, wie wahrscheinlich Ereigniss A unter der Vorraussetztung von B ist. Ein **Laplace Experiment** ist ein Zufallsexperiment, bei dem die Wahrscheinlichkeit aller möglichen Ergebnisse gleich sind. Ein **Konfidenzintervall** gibt einen Vertrauenbereich an, in dem der wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt. --- --- --- ## Fehlerrechnung ### Implizite Fehlerannahme >Ist die Fehlerannahme, wenn kein Fehler angegeben wird. Gegeben: $x^n.x^n$ wird zu Maxfehler: $\pm0.0^n4$ und Minfehler: $\pm0.0^{n+1}5$ **Bsp.:** Wenn ein Gewicht von $15.23kg$ angegeben wird, dann wird der minimale Fehler von $\pm 0.005kg$ und maximal $\pm0.04$ angenommen. ### Absoluter Fehler >Ist der Fehler normal als Zahl in seiner Masseinheit angegeben. >In Summen und Differenzen addieren sich diese absoluten Fehler. **Bsp**: `BZ -> 2.2 Absoluter Fehler` ### Relativer Fehler >Ist der absolute Fehler in Prozent angegeben. >Teile den Fehler durch die Angabe. >In Produkten und Quotienten addieren sich diese realtiven Fehler. `Merke: in wenn es Exponenten gibt muss zuerst abgeleitet werden. Zb. wenn v hoch zwei in der Formel steht, dann muss man den Fehler vor der Addition mal 2 rechnen.` **Lösung:** $$\frac{Fehler}{Angabe} = F_{relativ}(Angabe)$$ **Bsp:** Big JB, der Dealer, der sein Gras auch selber raucht, verpackt sein Gras jeweils kiloweise mit einem Fehler von $\pm 50g$ pro $kg$, rechne den relativen Fehler für $1kg$. $$\frac{50g}{1000g}=0.05=5\%$$ $$\frac{0.5ms}{8ms} = 0.0625$$ Wenn Big JB nun sein Kilo Gras runterfällt wird die Kinetische Energie mit der Messungenauigkeit von der Masse $m=1kg \pm50g$ und der Fallgeschwindigkeit $v=8\frac{m}{s}\pm 0.5\frac{m}{s}$ wie folgt berechnet: $$E=\frac{1}{2}m*v^2$$ Somit errechnet sich der relative Fehler von E wie folgt: $$F(m)_{rel}+2*F(v)_{rel}=0.05+2*0.0625=0.175$$ >Merke: Hier wird das v quadrat abgeleitet darum wird der Fehler von v mal 2 gerechnet. ### Der absolute Fehler wird folgendermassen gerechnet: `Setze Zahlen in die gegebene Formel ein ohne die Fehler zu beachten und rechne dann mal den relativen Fehler.` $$\frac{1}{2}*1*8^2=32$$ $$F(E)_{absolut}=32*0.175=5.6$$ **How to solve Fehlerrechnungen:** Formel hat `+`/ `-`=> Absolut zuerst => ==Fehler== in Formel einzetzen => Minus (-) wird zu Plus (+) => ACHTUNG: auf die Positionen der Vorzeichen achten. || Danach => Relativer Fehler ausrechnen => Werte OHNE FEHLER in die Formel => Vorzeichen bleiben ==gleich== => $\frac{AbsoluterFehler}{ErgebnisVonWerteOhneFehler}$ $$a=3cm \pm 0.2cm$$ $$b=5cm \pm 0.2cm$$ $$c=12cm \pm 2cm$$ $$E=2a-b+2c$$ $$E_{absolut}=2*0.2+0.2+2*2=4.6cm$$ $$E = 2*3-5+2*12=25cm$$ $$E_{rel}=\frac{4.6cm}{25cm}=$$ Formel hat `*` `/` => Relativer zuerst => Jeder Fehler $\frac{Fehler}{Messwert}$ für jede variable => Alle Ergebnisse addieren => Das Ergebnis das gerade ausgerechnet aufschreiben => || Alle ==Messwerte== in Formel einfügen => Das Ergebnis welches aufgeschrieben worden ist MAL (`*`) Ergebnis der Formel einsetzens. --- ## Statistik ## Parameter TTR ist schneller aber einige Dinge wie Perzentile können nur mit Stgl ausgegeben werden. ### Stgl `Stgl -> Menu -> 3 -> 1|2|3|5|6|7` ### TTR Zuerst eine Liste erstellen: `list:={1,2,3,4,...}` ` TTR -> Menu -> 6 -> 1 -> 1` und dort Liste einfügen ## Klassen #### Merkmale und Skalen `BZ -> S.9` #### Häufigkeitstabelle mit Klassenmittel, Aufsummierte Häufigkeit etc. > EXEV FILE (Brändli) -> Switch to 4.1 -> Tabelle komplett "abschreiben" -> 4.2 Ablesen für alle Ergebnisse (**ausser Median, der ist falsch!**) Korrektes Vorgehen: `BZ -> 4.2.2 Beispiel klassifizierte Häufigkeit` #### Mittelwerte / Streuungsmasse `Stlg -> Menu -> 3 -> 1` > Falls im Zusammenhang mit diesem Aufgabentyp folgendes gefragt wird dann muss im Stlg folgendes abgelesen werden: (Retard Tipp: Falls unsicher welches gefragt ist, einfach beides angeben.) **Varianz:** Stlg Populations Varianz **Standartabweichung:** stlg Std Abweichung Population #### Klassifizierte Häufigkeit `Brändli Spick -> S.15 UNTEN` #### Boxplot `Brändli Spick -> S.17 UNTEN` #### Spannweite `Brändli Spick -> S.14` ## Regression **Zuerst Punkte in Koordinatensystem eintragen und dann herausfinden welcher Typ.** Viele müssen von Hand gemacht werden und mit dem TR kann das Ergebniss überprüft werden. ### Lineare Regression Zuerst untenstehende Tabelle, danach `Stgl -> Menu -> 4 -> 2` und Formel rausschreiben. | $x_i$ | $y_i$ | $x_iy_{i}$ | $x_i^{2}$ | | ----- | ----- | ---------- | --------- | | | | | | Danach folgende Tabelle aufstellen und nacher Korrelationskoeffizient rausschreiben. | $x_i$ | $y_i$ | $x_i-x̄$ | $(x_i − x̄)^2$ | $y_i − ȳ$ | $(y_i − ȳ)^2$ | $(x_i-x̄)*(y_i − ȳ)$ | | ----- | ----- | ------- | ------------- | -------------------- | ------------- | ------------------- | | | | | | $ȳ=$Mittelwert von y | | | Es kann auch mehr aus dem Stgl abgelesen werden, die Tabellen sind aber sicher sinnvoll. ### Quadratische Regression `Stgl -> Menu -> 4 -> 8` ### Exponentielle Regression Zuerst untenstehende Tabelle, danach `Stlg -> Menu -> 4 -> C` und $a*b^x$ rausschreiben. | $x_i$ | $y_i$ | $y_{1}^{'}$ | $x_iy_{i}^{'}$ | $x_i^{2}$ | | --------- | --------- | ----------- | -------------- | --------- | | $x-Werte$ | $y-Werte$ | $ln(y)$ | $x*ln(y)$ | $x^2$ | Danach folgende Tabelle aufstellen und nacher Korrelationskoeffizient rausschreiben. | $x_i$ | $y_i$ | $y_{i}^{'}$ | $x_i-x̄$ | $(x_i − x̄)^2$ | $y_{i} − ȳ^{'}$ | $(y_{i} − ȳ^{'})^2$ | $(x_i-x̄)*(y_{i} − ȳ^{'})$ | | ----- | ----- | ----------- | ------- | ------------- | --------------- | ------------------- | ------------------------- | | | | | | | | | | ### Logarithmische Regression Zuerst untenstehende Tabelle, danach `Stgl -> Menu -> 4 -> D` und Formel ($a+b*ln(x)$) rausschreiben. | $x_i$ | $y_i$ | $y_{1}^{'}$ | $x_iy_{i}^{'}$ | $x_i^{2}$ | | --------- | --------- | ----------- | --------------- | --------- | | $x-Werte$ | $y-Werte$ | $ln(y)$ | $x*ln(y)$ | $x^2$ | Danach folgende Tabelle aufstellen und nacher Korrelationskoeffizient rausschreiben. | $x_i$ | $y_i$ | $y_{i}^{'}$ | $x_i-x̄$ | $(x_i − x̄)^2$ | $y_{i}^{'} − ȳ$ | $(y_{i}^{'} − ȳ)^2$ | $(x_i-x̄)*(y_{i}^{'} − ȳ)$ | | ----- | ----- | ----------- | ------- | ------------- | --------------- | ------------------- | ------------------------- | | | | | | | | | | ### Polynomielle Regression `Stgl -> Menu -> 4 -> D` Ergibt Endergebnis allerdings ist der Rechenweg nicht sichtbar. Daher lieber Newton-Algorithmus`BZ -> Seite 23` ## Wahrscheinlichkeit `EF`, da nichts gutes in Stgl oder TRR, für Formeln siehe Spick EF aber besser, da nicht alles vorhanden und Formeln sowieso nicht schwer sind. Das schwere hier ist zu entscheiden, ob es mit oder ohne zurücklegen ist und ob die Reihenfolge berücksichtigt wird. TODO: LaPlace Fälle aufschreiben ## Kombinatorik `Stgl -> Menu -> 1 -> 1-6` EF aber besser, da nicht alles vorhanden und Formeln sowieso nicht schwer sind. Das schwere hier ist zu entscheiden, ob es mit oder ohne zurücklegen ist und ob die Reihenfolge berücksichtigt wird. Binomialkoeffizient: $nCr()$ `im TR: menu -> 5 -> 3` TODO to complete Formel|Fälle | Formeller Name ---|--- | --- $nCr(x,y)$|[Komitee Platzvergebung an Einzelpersonen], [Stichproben aus Lieferung, Produktionsprozess ==ungeordnet== `!Laplace evtl nötig`], [Lotto]| Ungeordnete Probe/ Kombi ohne wied./ Zurücklegen $\frac{(n+k-1)!}{k!*((n+k-1)-k)!}$| [Komitee Platzvergebung an Verbände]|Ungeordnete Probe/Kombination mit Wiederholung/Zurücklegen $\frac{n!}{(n-k)!}$|[Wettrennen] |Geordnete Probe/Variation/Auswahl ohne Wiederholung/Zurücklegen $n^k$| [Anordnungen `Wenn verwendete Elemente grösser-gleich Grundmenge ist`], |Geordnete Probe/Variation/Auswahl mit Wiederholung/Zurücklegen $n!$|fdfsd |Permutation ohne Wiederholung $\frac{n!}{n_1!*n_2!*..*n_k!}$| [Zahlenschloss]|Permutation mit Wiederholung ## Diskrete Verteilungen ***f: Besseren Weg mit TR finden*** EF, da nichts gutes in Stgl oder TRR, für Formeln siehe Spick ### Empirische Verteilung EF (bzw. BZ): Wahrscheinlichkeitsfunktion und Verteilungsfunktion Seite 36, Erwartungswert und Varianz Seite 37 ### Theoretische Verteilung **Wahrscheinlichkeitsfunktion:** Erstelle Wahrscheinlichkeitsbaum. Anzahl Leaves = Anzahl mögliche Ausgänge.\ Zähle Anzahl von jeweils gleichen Ausgängen und teile diese durch die gesamte Anzahl an Ausgängen (1 - 0 - 0 und 0 - 1 - 0 haben gleichen Ausgang, da 2x 0 und 1x 1), so erhält man P(Wahrscheinlichkeit). Aus P(Wahrscheinlichkeit) kann man dann die Wahrscheinlichkeitsfunktion f(x) bilden. **Erwartungswert bzw E(x):** Wird gleich berechnet wie bei der empirischen Verteilung. Wert den man durchschnittlich bekommt. $$E(x) = \sum_{i} x_{i}f(x_i) = 0.5$$ **Varianz:** `Stgl -> Menu -> 3 -> 1 (Population Varianz)` $$\sum_i {x_i}^2 f(x_i) - (E(x))^2$$ **** ### Bernoulli-Verteilung `EF (bzw. BZ)` Berechne die Wahrscheinlichkeiten p der zwei Ausgangsmöglichkeiten. Generell gilt die Formel: $1 = p+(p-1)$ Bsp. für "die eine Möglichkeit ist 4-mal wahrscheinlicher": $p + 4p =5$ also ist $p = 0.2$ **Wahrscheinlichkeitsfunktion:** p(0) = Wahrscheinlichkeit der ersten Möglichkeit p(1) = Wahrscheinlichkeit der zweiten Möglichkeit 0 für sonstige (ungültige) Ereignisse, da Bernoulli nur 2 Ausgangsmöglichkeiten hat. ![](https://i.imgur.com/RCuyihM.png) **Verteilungsfunktion:** ![](https://i.imgur.com/bgOTlQJ.png) **Erwartungswert:** Dieser Entspricht p. Also p = E(x). **Varianz:** Die Beiden Wahrscheinlichkeiten miteinander Multiplizieren. $σ^2 = p(1-p)=p(1)*p(0)$ --- --- --- ## Binomialverteilung ### Aufgabentyp Überlegunsrisiko **Wahscheinlichkeit, dass keiner absagt und eine überbuchung stattfindet:** `Stgl > Menu > 5 > 1 (Binomialverteilung Tabelle)` [n,p,s] **n** = Anzahl Versuche (Anzahl Buchungen [inkl Überbuchung]) **p** = Erfolgswahrscheinlichkeit (wahrscheinlichkeit einer absage) **s** = Erfolge (eingentliche Buchungsplätze [ohne Überbuchung]) Spielt keine Rolle welcher Wert WICHTIG ist das korrekte P abzulesen. Korrektes $P(X= whatever)$ ablesen und den Lösungsweg abschreiben. > FYI: Wenn man nicht umformen will zu Kommazahl: Beim Stgl kann man das % Zeichen einfügen. Unter der ENTER Taste `?!>` drücken --- ### Aufgabentyp Überlegunsrisiko **Wahscheinlichkeit, dass Reise ideal belegt ist:** `Stgl > Menu > 5 > 1 (Binomialverteilung Tabelle)` [n,p,s] gleich wie oben P(x) == die anzahl das exakt x absagen. Zb dass genau `einer` absagt also: P(X=`1`) ablesen. --- ### Aufgabentyp Verlustzone Verlust bei X = 3 dann: $P= 1– (P(X= 0) +P(X= 1) +P(X= 2))$ --- ### Aufgabentyp Durchschnittliche Stornierungen: n = Anzahl Versuche (Anzahl Buchungen [inkl überbuchung]) p = Erfolgswahrscheinlichkeit (wahrscheinlichkeit einer absage) $E(x) = n*p$ --- --- --- ## Poissonverteilung $λ =$ durchschnittliche Anzahl $n =$ gefragte Anzahl (Bsp. wie gross ist die Wahr., dass n = 3 Leute anrufen) ### Genau `n` `Stlg -> Menu 5 -> E` > λ, x einfügen und Wert bei x ablesen > Wahrscheinlichkeit, dass genau n Personen kommen = Abgelesener Wert --- ### Mindestens `n` `Stlg -> Menu -> 5 -> E` > **Schritt 1:** λ, x einfügen und Wert von $P(X=n-1)$ ablesen **Schritt 2:** > Warscheinlichkeit, dass mindestens n Personen kommen = ==$1-$abgelesener Wert== --- ### Höchstens `n` `TTR -> 6 -> 5 -> K` U = unterschranke(0) O = Obere Schranke also höchstens `n` $poissonCdf(λ,U,O)$ **Mit Lösungsweg:** `Stlg -> Menu -> 5 -> E` > Lösungsweg: Werte addieren von $F(n) + F(n-1) + ... + F(1)$ damit man den Wert für höchstens n bekommt --- ### Wahrscheinlichkeit dass von yy:yy Uhr bis yy:yy Uhr ... x passiert `TTR -> Menu -> 5 -> 5 -> J` > Zeigt Lösung ohne Lösungsweg `Stlg -> Menu -> 5 -> E` > Mit Lösungsweg ... WICHTIG ist das p(x) korrekt abgelesen wird. **Es rufen durchschnittlich von 13:00 - 14:00 Uhr 5 (**λ**) Zwerge an. Wie hoch ist die Wahrscheinlichkeit, dass zwischen 13:00 - 14:00 drei **(x-Wert)** Zwerge anrufen?** **Erster Wert** (**λ**)= Durchschnittswert **x-Wert=** Wahrscheinlichkeit dass x Zwerge anrufen. --- ### Überlastung **Überlastet wenn:** Mehr als `x` Zwerge anrufen. **Überlastung**: `TRR -> Menu -> 5 -> 5 -> K -> (Poisson CDF)` Untere Schranke i.d.R 0 Obere Schranke: ab wann überlastet? Danach `1- Ergebnis von PoissionCdf` **oder direkt** ==> `1 - PoissionCdf(λ, Untere Schranke, Obere Schranke)` **Lösungweg nicht vergessen:** $$1 - e^{-λ} \sum_{i = Untere Schranke (0)}^{k = ObereSchranke}\frac{λ^i}{i!}$$ $$1 - e^{-5} \sum_{i = 0}^{9}\frac{5^i}{i!}$$ > FYI: Exev Übungen verwendet μ statt λ --- ### Überlastung mehrerer 1. Selber Schritt mit der zweiten Überlastung wie oben (`1 - PoissionCdf(λ, Untere Schranke, Obere Schranke)`) *Lösungsweg von oben kopieren nicht vergessen* 2. Additionssatz: `Überlastung(A)+Überlastung(B)−Überlastung(A)*Überlastung(B)` --- ### Zusammenlegung Beide **λ** addieren und beide Servicekräfte(Beide Oberen Schranken) addieren dann wieder: `1 - PoissionCdf(λ(addiert), Untere Schranke(vermutlich 0), Obere Schranke(servicekraft addiert))` --- --- --- ## Verteilungen ### Rechtecksverteilung Schreibe Wahrscheinlichkeiten auf und gebe es in Dezimal oder Prozent aus. (Bei Zeiten: von/mit - bis/ohne || Bsp: von 18:00 bis 19:00 --> inkl. 18:00 aber ohne 19:00) **Bsp: Zwischen 20:00 und 21:00 rennt jeweils alle 10 min. ein Onyx Richtung Norden und alle 10 min. ein Feuerigel in den Süden. Die Onyxe beginnen um 20:05 und die Feuerigel um 20:00. Wie hoch ist die Wahrscheinlichkeit, dass Dante Ketchum ein Feuerigel fängt?** **Lösung**: Schreibe alle Zeiten der beiden Pokémon auf und zähle die Male, die sie vorbeirennen. Wenn man nun wissen will, mit welcher Chance ein Feuerigel als nächstes an einem vorbeirennt, wenn man zufällig zu einer gleichverteilten Zeit zwischen 20:00 und 21:00 vorbeikommt, dann setzte seine Anz. über die gesamt Anzahl. Onyxe: 6 mal Feuerigel: 6 mal --> Chance ein Feuerigel zu erwischen liegt bei 6/12 = 0.5. --- ### Exponentialverteilung `Stlg -> Menu -> 5 -> B` Bsp Eingabe: **Pro Stunde rufen durchschnittlich 5 Personen an** -> λ=5 **Wie hoch ist die Wahrscheinlichkeit, dass zwischen zwei Anrufen höchstens 15 Minuten vergehen?** *A=0* *B=0.25* (da 15 Minuten = 1/4 Stunde) **Wie gross ist die Wahrscheinlichkeit, dass zwischen zwei Anrufen 6 bis 15 Minuten vergehen?** ***A=0.1*** (da 6 Minuten = 1/10 Stunde) **B=0.25** (da 15 Minuten = 1/4 Stunde) --- ### Normalverteilung **Ein Betonwerk füllt Beton in Betonbeutel ab. Messungen haben ergeben, dass die Füllmenge der Betonbeutel normalverteilt ist mit einer durchschnittlichen Füllmenge von 753 Liter bei einer Standardabweichung von 2 Liter.** **Wahrscheinlichkeit dass:** **Die Sollfüllmenge von 750 Liter eines Betonbeutels unterschritten wird?** $x =$ Sollmenge (Sollfüllmenge) $μ =$ Momentaner Wert (Füllmenge) $σ =$ Standardabweichung `Stlg -> Menu -> 5 -> 8` `[A, B]` == `[Sollfüllmenge, Sollfüllmenge]` (Einmal reicht auch) **Lösung**: $$z = \frac{x - μ}{σ}$$ P kann direkt vom Stgl abelesen werden. ZWINGEND das korrekte ablesen. $$P = (x ≤ -1.5) = y\%$$ **In einem Betonbeutel mindestens 757 Liter enthalten sind?** `[A, B]` anpassen und gleich wie oben. **In einem Betonbeutel zwischen 752 und 754 Liter enthalten sind?** $z_1$ 752 l wie oben ausrechnen: Ergebnis notieren $z_2$ 754 l wie oben ausrechnen: Ergebnis notieren dann Werte von z-Score einfügen: $$P(x≤0.69)−P(0.31≤x) = 0.6915−0.3085 = 0.38292$$ --- ### Inverse Transformationsmethode **Gegeben seien die folgenden, zwischen [0, 1] gleichverteilten Zufallszahlen:** **$$u_i = (0.51, 0.21, 0.88, 0.38)$$** **Transformieren Sie die Zufallszahlen so, dass sie einer** **1. Gleichverteilung mit a = 2 und b = 7 folgen** **Lösung:** $$F(u)^{-1} = x = u(b − a) + a$$ $$x_i=(4.55, 3.05, 6.4, 3.9)$$ **2. Exponentialverteilung mit λ = 0.5 folgen** **Lösung:** $$F^{−1} (u) = x = -\frac{1}{λ}\ln\left(1-u\right)$$ $$x_i=(1.42, 0.47, 4.24, 0.96)$$ --- --- --- ## Schliessende Statistik ### Student t-Verteilung **Eine Zufallsvariable X sei t-verteilt mit ν = 10 Freiheitsgraden.** ### `x` zwischen **1. Bestimme die Wahrscheinlichkeit, dass x zwischen -1.8 und 1.4 liegt.** **Lösung:** Aus der Tabelle lesen wir: $$F (x < 1.8) ≈ 0.95$$ $$F (x < 1.4) ≈ 0.9$$ Damit ist $$p(−1.8 < x < 1.4) = F (x < 1.4) − F (x < −1.8)$$ $$= F (x < 1.4) − (1 − F (x < 1.8))$$ $$=0.9 − (1 − 0.95) = 0.85$$ --- ### `x` über **2. Bestimmen Sie die Wahrscheinlichkeit, dass x über 2.8 liegt.** **Lösung:** Aus der Tabelle lesen wir $$F (x < 2.8) ≈ 0.99$$ Damit ist $$p(x > 2.2) = 1 − F (x < 2.2) = 1 − 0.99 = 0.01$$ --- ### `x` kleiner **3. Bestimmen Sie die Wahrscheinlichkeit, dass x kleiner als -0.3 ist.** Aus der Tabelle lesen wir $$F (x < 0.3) ≈ 0.6$$ Damit ist $$p(x < −0.3) = 1 − F (x < 0.3) = 1 − 0.6 = 0.4$$ EF bzw Tabelle, da nichts gutes in Stgl oder TRR, für Formeln siehe Spick --- ### χ2-Verteilung EF bzw Tabelle, da nichts gutes in Stgl oder TRR, für Formeln siehe Spick `BZ: Seite 53, Konfidenzintervall für die Varianz` **Definition**: Ist eine Wahrscheinlichkeitsverteilung für reele Zahlen im positiven Bereich. Diese wird für die Schätzung von Verteilungsparametern, wie Varianz oder Hypothesentests angewendet. `χ2 ~ χ2(n)` Wobei `n` die Anzahl Freiheitsgrade steigt mit zunehmender Stichprobengrösse und sinkt mit Anzahl geschätzter Parameter. **Wichtig:** Ab $v=100$ Freiheitsgraden geht die χ2-Verteilung in eine Normalverteilung über mit Varianz $σ²=2v$. **X sei $χ^2$-verteilt mit $v$ Freiheitsgraden** **1. Wie gross ist die Wahrscheinlichkeit, dass x zwischen zwei Werten liegt. Bsp. Zwischen 16 und 21 bei $v=11$ Freiheitsgraden.** *Vorgehen*: Bei Freiheitsgrad n in der Tabelle schauen welcher Wert in der Tabelle am nächsten bei den gegebenen Grenzen liegt und lese dann die Zahl aus der obersten Zeile ab. Ziehe dann den Wert der oberen Grenze von dem Wert der unteren Grenze ab. `Tipp fürs Tabelle lesen: Suche den gegebenen Freiheitsgrad in der ersten Spalte und suche dann in dieser Zeile den naheliegensten Wert bei den gegebenen Grenzen. ` $$F(x<16)≈ 0.9$$ $$F(x<21)≈ 0.975$$ Somit: $$p(16<x<21)=F(x<21)-F(x<16)=0.975-0.9=0.075$$ **2. Wahrscheinlichkeit, dass x über einem bestimmten Wert liegt? Bsp. über 10 bei 11 Freiheitsgraden** Suche erneut den gegebenen Wert in der Tabelle. $$F(x<10)≈0.5$$ Ziehe den dazugehörigen Wert von 1 ab. $$1-F(x<10)=1-0.5=0.5$$ --- ### Stichprobenmittelwerte **Du analysierst eine Saftproduktion. Vom System weisst du, dass diese Maschine im normalverteilten Mittel 10 Saft pro Sekunde produziert und die Standardabweichung von 2 Saft pro Sekunde besitzt. Du führst 40 Experimente durch.** **1. Mit welcher Wahrscheinlichkeit wird der mittlere Ausstoss unter 9.5 Saft pro Sekunde liegen?** Wir suchen die folgende Fläche unter der Kurve mit dem Z-Wert: $$Z=\frac{X-µ}{\frac{σ}{\sqrt{n}}}=\frac{9.5-10}{\frac{2}{\sqrt{40}}}=−1.58$$ Aus der (Standardnormalverteilungs) Tabelle lesen wir eine entsprechende Wahrscheinlichkeit von $P (x <9.5) = F (−1.58) =1−F (1.58)=1-0.9429=0.0057$, d.h. der Mittelwert x̄ wird mit einer Wahrscheinlichkeit von 0.57% im Intervall [-∞, 9.5] liegen. **2. Mit welcher Wahrscheinlichkeit wird der Ausstoss über 10.5 Saft pro Sekunde liegen?** Da die Normalverteilung symmetrisch um 10 Saft pro Sekunde ist, können wir denselben Z-Wert und die Wahrscheinlichkeit verwenden: $P (x > 10.5) = 1 − F (1.58) = F (−1.58) = 0.0057$, d.h. der Mittelwert x̄ wird mit einer Wahrscheinlichkeit von 0.57% im Intervall [10.5, ∞] liegen. **3. Mit welcher Wahrscheinlichkeit wird der mittlere Ausstoss zwischen 9.5 und 10.5 Saft pro Sekunde liegen?** Wir kombinieren die beiden Wahrscheinlichkeiten und erhalten $P (9.5 > x >10.5) = 1 − 2 · F (−1.58) = 0.9886$, d.h. der Mittelwert x̄ wird mit einer Wahrscheinlichkeit von 98.86% im Intervall [9.5, 10.5] liegen. **4. In welchem symmetrischen Intervall liegt der mittlere Ausstoss zu 95%?** **Lösung:** Wir suchen das 95% Konfidenzintervall: $α=1-Konfidenzintervall$ $$Z (1−α/2) = Z (0.975) = 1.96$$ $$\overline{x}=[µ \pm z\frac{σ}{\sqrt{n}}=10 \pm 1.96\frac{2}{\sqrt{40}}]$$ $$=[9.38, 10.61]$$ **5. Wie verändert sich das Ergebnis, wenn Sie stattdessen nur 11 Experimente durchführen?** **Lösung:** Hier wird das gleiche wie bei Aufgabe 1 gefragt einfach mit weniger Experimenten. Da $n < 30$ ist, müssen wir nun auf die Student t-Verteilung mit $ν = n−1 = 10$ zurückgreifen. Wir berechnen den t-Wert: $$Z=\frac{X-µ}{\frac{σ}{\sqrt{n}}}=\frac{9.5-10}{\frac{2}{\sqrt{11}}}=−0.82$$ TODO: Aufgabe 5. ab hier verstehen  **6. Wie viele Experimente müssen Sie durchführen, um zu 80% sicher zu sein, dass der mittlere Ausstoss im Intervall [9.5, 10.5] liegt?** **Lösung:** Wir gehen in einem ersten Schritt von einer beidseitigen Normalverteilung aus: $α=1-Konfidenzintervall$ Z (1−α/2) = Z (0.90) = 0.84 $$\left(\frac{Zσ}{x-µ)}\right)^{2}=\left(\frac{0.84·2}{10.5-10)}\right)^{2}=11.3$$ Es müssen also mindestens 12 Experimente durchgeführt werden. --- --- --- ## Schätzverfahren **Die Firma Saft AG liefert an die Migros werktäglich 40’000 Fla- schen Heidelbeersaft mit einer Soll-Füllmenge von je 1000 dl. Der letzten Lieferung wur- den 25 Flaschen entnommen; in dieser Stichprobe betrug die durchschnittliche Füllmenge 1000.55dl. Aufgrund zahlreicher Kontrollen weiss man, dass die Ist- Füllmenge normalverteilt ist, mit einer Streuung von σ = 1.2dl.** ### Konfidenzintervalle `Stlg -> Menu -> 6 -> 2` `BZ Kapitel 10.4` $\overline{x}$= Mittelwert (durchschnittliche Füllmenge) σ = Standardabweichung n = Anzahl Daten (der Stichprobe, nicht insgesamt) $\alpha$ = Prozentzahl des Konfidenzintervalls > Tipp: Wenn nur nach dem unten begrenzten Konfidenzintervall gefragt wird kann man den Abstand des Konfidenzintervalls zu 100 verdoppeln und bekommt so auch die normale Lösung. **Bsp:** Gesucht ist ein nach unten begrenztes 95%-Konfidenzintervall. Anstatt 95% nimmt man nun 90% (da auf beiden Seiten 5%) und nimmt den unteren Wert. --- ### Konfidenz **Ermitteln Sie die Konfidenz für das mit 500 ml nach unten begrenzte Intervall für µ:** 1 .$$Z = \frac{\overline{x}-µ}{σ_{Mittelwert: \overline{x}}}$$ 2. Wahrscheinlichkeit dann aus Standardnormalverteilungs-Tabelle ablesen 3. Schlusssatz: Der Mittelwert µ wird mit einer Wahrscheinlichkeit von xxx% im Intervall [xyz, ∞] liegen. > Tipp: Wenn der Wert, den man in der Tabelle suchen muss negativ ist muss man den komplementären Teil nehmen: `1 - aus Tabelle abgelesener Wert` **Ermitteln Sie die Konfidenz für das mit 500 ml nach oben begrenzte Intervall für µ.** Hier ist der komplementäre Teil der oberen Aufgabe gesucht: <center>1 - Wert von oben</center> --- ### Stichprobengrösse `Stlg -> Menu -> 6 -> 3` M = Genauigkeit bzw. Margin of Error σ = Standardabweichung $\alpha$ = Prozentzahl des Konfidenzintervalls **Wie viele Flaschen Heidelbeersaft müssen der Lieferung entnommen und geprüft werden, wenn das zentrale 95%-Konfidenzintervall für µ eine Genauigkeit von $e = x̄ − µ = 0.25dl$ aufweisen soll?** `Stlg -> Menu -> 6 -> 3` Dort Lösungsweg abschreiben **Wie viele, wenn Sie mit einer Wahrscheinlichkeit von 99.5% und einer Genauigkeit von $e = \overline{x}− µ = 0.25dl$ sicher sein möchte, dass die Sollfüllmenge in der Grundgesamtheit nicht unterschritten wird?** `Stlg -> Menu -> 6 -> 3` > Tipp: Wenn nur nach dem unten begrenzten Konfidenzintervall gefragt wird kann man den Abstand des Konfidenzintervalls zu 100 verdoppeln und bekommt so auch die normale Lösung. **Bsp:** Gesucht ist ein nach unten begrenztes 99.5%-Konfidenzintervall. Anstatt 99.5% nimmt man nun 99% (da auf beiden Seiten 0.5%). ### Konfidenzintervalle von Varianzen (χ2-Verteilung) **Auf einer Anlage wird Kaffee in Tüten abgefüllt. Das Soll-Füllgewicht beträgt 1000kg. Aufgrund zahlreicher Messreihen ist bekannt, dass die Füllmenge der Tüten normalverteilt ist. Um die Anlage so einstellen zu können, dass höchstens 3% der Tüten das Soll-Füllgewicht unterschreiten, muss die Ungenauigkeit der Anlage in Form der Varianz bekannt sein.** $\alpha=1-Konfidenzintervall$ **Aus der Tagesproduktion von 50.000 Kaffeetüten wurden 25 Tüten zufällig entnommen und gewogen. Die Varianz $s^2$ in dieser Stichprobe betrug $0.6kg^2$** **Ermitteln Sie das zweiseitige 95%-Konfidenzintervall für die Varianz.** $\alpha=1-0.95=0.05$ n = Anzahl Daten (der Stichprobe, nicht insgesamt) $k = n -1=$ Freiheitsgrade `BZ: Seite 53, Konfidenzintervall für die Varianz, beidseitig` **Ermitteln Sie das nach oben begrenzte 95%-Konfidenzintervall für die Varianz.** $\alpha=1-0.95=0.05$ n = Anzahl Daten (der Stichprobe, nicht insgesamt) $k = n -1=$ Freiheitsgrade `BZ: Seite 53, Konfidenzintervall für die Varianz, einseitig` **Ermitteln Sie das nach oben begrenzte 99%-Konfidenzintervall für die Varianz.** $\alpha=1-0.99=0.01$ n = Anzahl Daten (der Stichprobe, nicht insgesamt) $k = n -1=$ Freiheitsgrade `BZ: Seite 53, Konfidenzintervall für die Varianz, einseitig` --- --- --- ## Testverfahren $H_0$ ist das Gegenteil der Behauptung. $σ = \sqrt{\frac{p(1-p)}{n}}$ Ist normalverteilt? $n*p(1*p)$ muss grösser als 9 sein. $\alpha=$ Signifikanzzahl $H_0$ = Nullhypothese $C$ = Intervall (in welchem der Wert durch Stichprobenfehler erklärt werden kann) $Co$ = obere Grenze $Cu$ = untere Grenze --- ### Parametertests **Die mittlere Lebensdauer einer Stichprobe von 100 Kaffeemaschinen, die von einer Firma hergestellt wurden, wurde mit 1570 h und die Standardabweichung mit 120 h berechnet. Man teste die Hypothese, dass die mittlere Lebensdauer µ = 1600h ist bei einer Irrtumswahrscheinlichkeit von 0.05 respektive 0.01.** **Lösung**: $H_0$ : Die mittlere Lebensdauer ist µ $\neq$ 1600h. $H_1$ : Die mittlere Lebensdauer ist µ = 1600h. Es wurden $n = 100 > 30$ Kaffeemaschinen entnommen, dh. wir können eine Normalverteilung der Stichprobenmittelwerte annehmen. Diese Verteilung hat eine Standardabweichung von: $$σ_\overline{x}=\frac{σ}{\sqrt{n}}=\frac{120}{10}=12$$ Aus der Tabelle(Standardnormalverteilung) ermitteln wir jeweils den z-Wert für ein beidseitiges Konfidenzintervall: z(0.975) = 1.96 z(0.995) = 2.58 Nun können die Konfidenzintervalle berechnet werden: $$\overline{x}=µ±z(0.975)σ_\overline{x}=1600±1.96·12= [1576, 1624]$$ $$\overline{x}=µ±z(0.995)σ_\overline{x}=1600 ± 2.58 · 12 = [1569, 1631]$$ Der gemessene Wert (1570h) liegt mit einer Fehlerwahrscheinlichkeit von 5% nicht im Konfidenzintervall, wir lehnen die Hypothese zugunsten der Nullhypothese ab: Der Mittelwert µ beträgt nicht 1600h. Der gemessene Wert liegt mit einer Fehlerwahrscheinlichkeit von 1% jedoch im Konfidenzintervall, wir akzeptieren die Hypothese und verwerfen die Nullhypothese: Der Mittelwert µ beträgt 1600h. --- ### Anteilswerte Ein Döner, der schon lange eingeführt ist, hat eine Gutschmeckwahrscheinlichkeit von 80%. Es wird behauptet, dass ein neuer Döner eine höhere Gutschmeckwahrscheinlichkeit besitzt. Um diese Aussage zu überprüfen, wird ein Experiment mit 200 Dönerfresser durchgeführt. Bei 170 Dönerfresser führt der Schmecktest mit dem neuen Döner zum Erfolg. Schmeckt der neue Döner tatsächlich besser? Du kannst zwischen den Signifikanzzahlen 0,01 und 0,1 wählen. Irrtumswahrscheinlichkeit == Signifikanzzahlen($\alpha$) Je kleiner die Signifikanzzahl je kleiner die Irrtumswahrscheinlichkeit **Nullhypothese aufstellen:** $p_0 =$ alter Döner $p =$ neuer Döner $$H_0: p ≤ p_0$$ **Skizze** ![](https://i.imgur.com/S11noTS.png) **Überprüfe Null Hypothese** $C_O$|$C_U$ ---|--- Obere Grenze | Untere Grenze $C_O = p_0+z* \sqrt{\frac{p_0*(1-p_0)}{n}}$ | $C_U = p_0-z* \sqrt{\frac{p_0*(1-p_0)}{n}}$ $F(1-\alpha) = F(0.99)$ Tabelle ablesen: für $0.99$ daraus folgt $z =2.33$ > 0.99 aus der Tabelle ablesen also als WERT nicht als z-Score $$C_O = 0.8+2.33 \sqrt{\frac{0.8*(1-0.8)}{200}} = 0.866$$ $$p = \frac{Erfolgereiche Tests}{Gesamtanzahl} = \frac{170}{200} = 0.85$$ Mit $0.85 < 0.866$ wird die Hypothese angenommen, d.h. es ist nicht signifikant, dass das neue Medikament besser ist. --- ### Differenztests mit abhängigen Stichproben **Ein Marktforschungsinstitut untersucht, ob sich die die Trinkgewohnheiten infolge der Pest-Pandemie im 14. Jahrhundert verändert hat und hat folgende Resultate ermittelt:** | Proband | Vorher | Nachher | | ------- | ------ | ------- | | 1 | 1.1 | 1.2 | | 2 | 2.3 | 1.9 | | 3 | 4.4 | 4.5 | | 4 | 2.2 | 3.1 | | 5 | 0.9 | 9.8 | | 6 | 1.2 | 1.2 | | 7 | 4.0 | 2.9 | | 8 | 2.3 | 4.4 | | 9 | 7.7 | 2.8 | | 10 | 5.5 | 5.2 | **Lösung**: | $i$ | $x_{vorher}$ | $x_{nachher}$ | $d$ | $(d- \overline{d})^2$ | | ---- | ------------ | ------------- | ---- | --------------------- | | 1 | 1.1 | 1.2 | -0.1 | 0.19 | | 2 | 2.3 | 1.9 | 0.4 | 0.88 | | 3 | 4.4 | 4.5 | -0.1 | 0.19 | | 4 | 2.2 | 3.1 | -0.9 | 0.13 | | 5 | 0.9 | 9.8 | -8.9 | 69.89 | | 6 | 1.2 | 1.2 | 0 | 0.29 | | 7 | 4.0 | 2.9 | 1.1 | 2.69 | | 8 | 2.3 | 4.4 | -2.1 | 2.43 | | 9 | 7.7 | 2.8 | 4.9 | 29.69 | | 10 | 5.5 | 5.2 | 0.3 | 0.71 | | Σ | 31.6 | 37 | -5.4 | 107.0 | Differenz: $$\overline{d}=\frac{1}{n}Σ(d_i)$$ Varianz: $$s^2 = \frac{1}{n-1} Σ (d-\overline{d})^{2}=\frac{107.0}{9} = 11.89$$ Standardabeichung: $$s=\sqrt{s}=2.43$$ >Wenn n < 30 ist, dann Werte ablesen aus Students t-Verteilung (sonst Standardnormalverteilung) anhand folgender Werte: n = Anzahl Proben $$v = n-1 = 9$$ α = Signifikatsniveau aka Irrtumswahrscheinlichkeit $$1-(\frac{α}{2}) = 0.975$$ >Aus Tabelle ablesen: $$t_{(9, 0.975)}=2.23$$ >Intervall c berechnen: $$c= \pm t_{(9, 0.975)}*\frac{s}{\sqrt{n}}=2.23*\frac{2.43}{\sqrt{10}}=\pm2.43$$ >Nun schauen, ob $\overline{d}$ im Intervall c liegt und sich dadurch nicht signifikant unterscheidet, falls ausserhalb ist es signifikant besser / schlechter. In diesem Beispiel ist das Verhalten nicht signifikant besser / schlecher. --- ### Differenztests mit unabhängigen Stichproben **Ein Marktforschungsinstitut untersucht, ob sich die Engländer und Deutsche in ihren Trinkgewohnheiten unterscheiden und hat folgende Resultate ermittelt:** - **800 Engländer trinken durchschnittlich über einen Zeitraum von 2h Alkohol pro Woche mit einer Standardabweichung von 1h.** - **600 Deutsche trinken durchschnittlich über einen Zeitraum von 1.5h Alkohol pro Woche mit einer Standardabweichung von 0.5h.** **Gibt es bei den Trinkgewohnheiten signifikante Unterschiede bei einem Signifikanzniveau von 5%?** **Lösung**: Wir machen einen zweiseitigen Test für unabhängige Stichproben und berechnen das maximale Intervall. Da n > 30 ist, können wir auf die Normalverteilung zurückgreifen. $$Z(1-(\frac{Signifikanzniveau}{2})=Z(0.975) = 1.96$$ $$C=±Z(0.975)\sqrt{\frac{σ^{2}_E}{n_E}+\frac{σ^{2}_D}{n_D}}$$ $$C=±1.96\sqrt{\frac{2^{2}}{800}+\frac{0.5^{2}}{600}}=±0.07$$ Da die Mittelwertsdifferenz $\overline{d} = \overline{x}_E − \overline{x}_D = 2 − 1.5 = 0.5$ ausserhalb des Intervalls(±0.07) liegt können die Unterschiede nicht durch Stichprobenfehler erklärt werden. Die Trinkgewohnheiten unterscheiden sich damit signifikant. --- ### Verteilungstest (χ2-Test) / Chi-Quadrat `Stgl -> Menu -> 8 -> 1|2|3` Für Unabhängigkeit [1,2,3;2,4,5] = | Kat1 | Kat2 | Kat3 | | ---- | ----------- | ----------- | | 1 | 2 | 3 | | 2 | 4 | 5 | **Sie haben Verkaufszahlen von vier Bieren in zwei verschiedenen Bierstuben:** | Bier | Bierstube 1 | Bierstube 2 | | ---- | ----------- | ----------- | | A | 560 | 70 | | B | 680 | 120 | | C | 640 | 110 | | D | 700 | 100 | **Folgen die Verkaufszahlen der zweiten Bierstube der Verteilung des ersten Bierstube (bei einer Irrtumswahrscheinlichkeit von 0.05)?** **Lösung**: Wir machen einen $χ^2$-Test, um die empirische und die theoretische Häufigkeit zu vergleichen und stellen dazu die Hypothesen auf: $H_0$ : Die empirische Häufigkeit entspricht der theoretischen Häufigkeit. $H_1$ : Die empirische Häufigkeit entspricht nicht der theoretischen Häufigkeit. Um die beiden Häufigkeiten vergleichen zu können, müssen beide Häufigkeiten in der Summe gleich sein. Wir skalieren deshalb die erste Häufigkeit und erhalten damit die theoretische Häufigkeit: $∀h_1$ = Alle Verkaufszahlen von Bieren aus Bierstube 1 addiert $∀h_2$ = Alle Verkaufszahlen von Bieren aus Bierstube 2 addiert $h_{i1} =$ jeweiliger Wert von Bierstube 1 | Produkt | $h$ | $h_t = h_{i1}·∀h_2/∀h_1$ | | ------- | ---- | -------------------- | | A | 560 | 560 · 400/2580 = 87 | | B | 680 | 680 · 400/2580 = 105 | | C | 640 | 640 · 400/2580 = 99 | | D | 700 | 700 · 400/2580 = 109 | | | 2580 | 400 | Aus der Anzahl der Produkte folgt ν = 4 − 1 = 3 Freiheitsgrade. Aus der Tabelle ermitteln wir $χ^2_{(0.95,3)}$ = 7.81 (theoretische Häufigkeit) Der Testwert (empirische Häufigkeit) berechnet sich mit: $$ χ^2 = \sum \frac{(h_{b,i}-h_{t,i})^2}{h_{t,i}}$$ $$ χ^2= \frac{\left(70-87\right)^{2}}{87} + \frac{\left(120-105\right)^{2}}{105} + \frac{\left(110-99\right)^{2}}{99}+\frac{\left(100-109\right)^{2}}{109}=7.43$$ Da nun $χ^2 < χ^2_{(0.95,5)}$ , müssen wir die Hypothese zugunsten der Nullhypothese($H_0$) verwerfen. D.h. die Verteilungen unterscheiden sich nicht signifikant. --- ### Hypothesentest(Signifikanztest) mit ZWEI outcomes Man stelle eine Entscheidungsregel zum Testen der Hypothese auf, dass ein D2-Würfel (Würfel mit Seiten 1 und 2) echt ist (gleich oft 1 wie 2 gewürfelt wird). Die Irrtumswahrscheinlichkeit sei 0,05. **Stellen Sie die Hypothese auf:** $H_0$: Würfel echt $H_1$: Würfel falsch **Skizziere die möglichen Ereignisse als Fläche unter der Verteilungskurve und trage $z_1$ und $-z_1$ ein.** **Ermittle z$_1$ und $-z_1$ mit Hilfe der Irrtumswahrscheinlichkeit und einer Tabelle:** `Merke: Bei beidseitigen Fehlern muss die Hälfte der Irrtumswahrsscheinlichkeit abgelesen werden. Sprich bei einer Irrtumswahrscheinlichkeit von 0.05 muss der Wert von `$F_{(0.975)}$ `abgelesen werden, was 1.96 ergeben würde.` Die Fläche zwischen 0 und $z_1$ ist gleich $\frac{0.5}{2} = 0.475$, somit ist gesamte Fläche bis $𝑧_1 0.475 + 0.5 = 0.975$ Laut Tabelle ist somit $𝑧_1=1.96$ **Bestimme $z_1$ und $-z_1$ wenn man eine Stichprobe von 86 Würfen des Würfels nimmt und davon 34 Seite1 und 52 Seite2 waren.** $𝜇=𝑁𝑝=86∗0.5=43$ $𝜎=\sqrt{Npq}=\sqrt{86*0.5*0.5}=4.637$ $-z_1=\frac{\overline{𝑥}-𝜇}{𝜎}= \frac{34-43}{4.637}=-1.94$ $z_1=\frac{\overline{𝑥}-𝜇}{𝜎}= \frac{52-43}{4.637}=1.94$ **Formuliere Sie eine Entscheidungsregel und triff eine Entscheidung.** Folglich ist eine mögliche Entscheidungsregel:Man nehme die Hypothese, dass der Würfel echt ist, an, wenn $z_1$ zwischen -1,96 und 1,96 Andernfalls ist die Hypothese zu verwerfen.

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.