# Struktur
**How to add something?** Beispiel aus der Übung oder VL zu einem Thema suchen, dass noch nicht hier drinnen steht. Dann einfach die **Angabe**, **Lösung** und verwendete **Formeln** dazuschreiben. Wenn nötig auch begründung warum bestimmte methodik verwendet wurde.
## TODO
- [ ] Useful stuff
- [ ] Verschiebungssatz nach Steiner
- [ ] Remove 'Einheit N', nach Themen gliedern
---
# Useful stuff / Hints
- Histogramm: Keinen Abstand zwischen den Balken zeichnen.
- Normalverteilung: $\mu = \text{Erwartungswert} = \text{Median} = \text{Modus}$
- Taschenrechner:
- Factorial: $prb$, select 3
- $nCr$: n choose k (combinations) $n! / (k! * (n-k)!)$
- $nPr$: Permutations of combinations = $k! * nCr$ = $n!/(n-k)!$
# Informatik - Previous exams
## 2021
https://cdn.discordapp.com/attachments/422444298693509121/859346209767555092/unknown.png
### Frage 1

Spearman:
- Bei +1 bzw. -1 liegt eine „perfekte“ Gleichläufigkeit bzw. Gegenläufigkeit vor.
- Bei 0 bzw. Werten nahe 0 besteht ein Zusammenhang der nicht ausschließlich gleichläufig bzw. gegenläufig ist.
a) Die zwei Variablen besitzen keine klare Gleich/gegenläufigkeit (Spearman-Rangkorrelationskoeffizient ist nahe 0)
Lange Erklärung der Fehlerarten:
Fehler 1. Art (α-Fehler)
- Für eine Entscheidung basierend auf Stichproben-Ergebnissen müssen wir die Möglichkeit einer falschen Antwort akzeptieren.
- Konkret: Die Schlussfolgerung, dass unterschiedlicher Proteingehalt im Futter zu unterschiedlicher Gewichtszunahme führt, kann auch ein Fehlschluss sein.
- Anders formuliert: Bei der Stichprobe erhält man eine „positive“ Antwort, aber in der Grundgesamtheit ist dies die falsche Antwort.
-> falsch positive Antwort
Fehler 2. Art (β-Fehler)
- Angenommen Dr. X hat trotz der Fütterung mit unterschiedlichem Futter keinen Unterschied bei der Gewichtszunahme beobachtet.
- Schlussfolgerung von Dr. X: „Viel Protein im Futter bringt bei Ratten keine andere Gewichtszunahme als wenig Protein im Futter.“ Diese Schlussfolgerung kann aber ebenfalls ein Fehlschluss sein.
- Anders formuliert: Bei der Stichprobe erhält man eine „negative“ Antwort, aber in der Grundgesamtheit ist dies die falsche Antwort.
-> falsch negative Antwort
b) Fehler 1. Art (alpha-Fehler) bezeichnet den Fehler durch ein positivies Ergebnis in der Stichprobe, obwohl dies in der Grundgesamtheit falsch ist. z.B Stichprobe: unterschied besteht, aber Grundgesamtheit: kein unterschied. (false-positive)
Fehler 2. Art (beta-Fehler) bezeichnet den Fehler durch ein negatives Ergebnis in der Stichprobe, obwohl dies in der Grundgesamtheit falsch ist. z.B Stichprobe kein Unterschied, aber Grundgesamtheit unterschied (false-negative)
c) Es führt zu einer höheren Zuverlässigkeit/Sicherheitswahrscheinlichkeit bei gleichem Konfidenzintervall (gleiche Präzision)
Bereichsschätzung und Stichprobenumfang
- Vergrößerung der Stichprobe
-> höhere Präzision (= kleineres KI) und höhere Zuverlässigkeit
(= höhere Sicherheitswahrscheinlichkeit)
- Vergrößerung der Stichprobe bei konstanter Präzision
-> höhere Zuverlässigkeit (= höhere Sicherheitswahrscheinlichkeit)
- Vergrößerung des Stichprobenumfangs bei konstanter Zuverlässigkeit
-> höhere Präzision (= kleineres KI)
- Fester Stichprobenumfang und Erhöhung der Zuverlässigkeit
-> geringere Präzision (= größeres KI)
d) Boxplot: Dieser verwendet die Lagemaßzahl Median und Quartile. Zusätzlich wäre ein Histogram zur darstellung der Form der Verteilung sinnvoll. Diese kombination sollte Lage und Streungsmaßzahlen der Daten visualisieren.
### Frage 2

Eine Pharmareferentin möchte an einem Tag 7 verschiedene Kunden, die in unterschiedlichen Bezirken in Oberösterreich wohnen, besuchen. Wie viele unterschiedliche Routenpläne (= Reihenfolge der Kundenbesuche) kann sie erstellen. [10 Punkte]
**Kombinatorik**
Dies entspricht den **Permutationen** der Reihenfolge der Kundenbesuchen.
Die Anzahl der Permutationen ohne Wiederholung von n Elementen beträgt:
$P_n = n!$
Permutationen mit ohne zurücklegen mit 7 Elementen.
$P_7 = 7! = 5040$
### Frage 3
Ein Züchter besitzt 100 Meerschweinchen. Nachdem er alle Meerschweinchen abgewogen hat, erstellt er folgende Tabelle des Gewichts in Gramm dieser Grundgesamtheit von Meerschweinchen.

Wichtig: Gruppierte Daten, korrekte Formeln verwenden!
| i | ($[e_{i-1}; e_i)$) | $x_{i}$ | $f_{i}$ | $p_{i}$ | $F_{i}$ | $f_{i}*x_{i}$ | $f_{i}*x_{i}^2$ |
| --- | ------------------ | ------- | ------- | ------- | ------- | ------------- | --------------- |
| 0 | 400; 600 | 500 | 34 | 0.34 | 34 | 17000 | 8500000 |
| 1 | 600; 800 | 700 | 17 | 0.17 | 51 | 11900 | 8330000 |
| 2 | 800; 1000 | 900 | 29 | 0.29 | 80 | 26100 | 23490000 |
| 3 | 1000; 1200 | 1100 | 20 | 0.2 | 100 | 22000 | 24200000 |
| | Summe: | | 100 | 1 | | 77000 | 64520000 |
| | | | | | | | |
- Tabelle mit $i,x_{i}$ usw aufschreiben
a) Median
$d_{i}=200, p=0.5, N=100$
$i= 1$
$e_{i-1}=600$
$Median=x_{0.5}=600 + \frac{200}{17} \cdot (100 \cdot 0.5 - 34)=788.2352\dots$
b) Varianz
$\overline{x}=\frac{77000}{100}=770$
$Var(x)= \frac{64520000}{100}-770^2=52300$
$SD(x)=\sqrt{ Var(x) }=228.69$
c) Quantil
$1-0.6=0.4$ Quantil
$i=1$
$x_{0.4}=600+\frac{200}{17} \cdot(100 \cdot 0.4-34)=670.59\dots$
### Frage 4

$P(A) = 0.85$
$P(\overline{A}) = 0.15$
$P(E) = 0.82$
$P(\overline{E}) = 0.18$
$P(A \lor E) = 0.9$
$P(\overline{A} \land \overline{E}) = 0.1$ (De Morgan)
NA = $\overline{A}$ = **A**nton ist **N**icht pünklich
NE = same
| | A | NA | |
| --- | --- | --- | --- |
| E | 77 | 5 | 82 |
| NE | 8 | 10 | 18 |
| | 85 | 15 | 100 |
a)
$P(A \cap E) = 0.77$
b)
$P(A \cap \overline{E}) = 0.08$
### Frage 5

a)
$\mu = 100$
$P(X \le 120) = 0.8$
Umformen um Sigma zu finden:
$\Phi(\frac{120 - \mu}{\sigma}) = 0.8$
$\frac{120 - \mu}{\sigma} = \Phi^{-1}(0.8)$
$\frac{120 - \mu}{\Phi^{-1}(0.8)} = \sigma$
Nachschaun in der Tabelle: $z(\Phi)$
$\Phi^{-1}(0.8) = 0.842$
Standardabweichung:
$\sigma = \frac{120 - 100}{0.842} = 23.7530$
Varianz:
$sigma^2 = 23.7530^2 = 564.205$
b)
$P(X > 110) = 1 - P(X \le 110) = 1 - \Phi(\frac{110 - 100}{23.7530}) = 1 - \Phi(0.42)$
In der Tabelle nachschauen:

$P(X > 110) = 1 - \Phi(0.42) = 1 - 0.6628 = 0.3372$
c)
-> Formel: Umkehraufgaben - Giraffe
Allgemeine Form:
$P ( \mu - d \le X \le \mu + d) = \Phi(\mu + d) - \Phi(\mu - d) = 0.9$
Berechnen von d:
$d = u_{ \frac{0.9 + 1}{2}} \cdot \sigma = u_{0.95} \cdot \sigma = 1.645 \cdot 23.7530 = 39.0737$
Einsetzen von d:
$P ( \mu - d \le X \le \mu + d) = P(60.9263 \le X \le 139.0737) = 0.9$
### Frage 6


a)
Stichprobenschätzer, daher: n-1!
$n = 10$
$\overline{x} = 27/10 = 2.7$
$s^2 = \frac{1}{n-1} \cdot 252 = \frac{1}{9} \cdot 252 = 28$
$s = 5.2915$
b)
Formel => Einstichproben t-Test

$\mu_0 = 3$
$H_0: \mu = 3$
$H_1: \mu \ne 3$
---
$t_{n - 1, 1 - \alpha/2} = t_{9, 0.975} = 2.26$ (kritischer Wert)
$T(x) = \frac{\overline{x} - \mu_0}{s} \cdot \sqrt{n} = \frac{2.7 - 3}{5.2915} \cdot \sqrt{10} = -0.1793$ (Teststatistik)
$|-0.1793| < 2.26$ -> H_0 kann nicht abgelehnt werden
-> Siehe Beispiel 146
---
### 2020
### 
### 
### 
# AI - Previous exams
Lecture Exam 2023
What I remember:
1) 20TF questions,e.g "Mean and median can be different in standard normal distribution"
2) Fire engine works 98% of all time and ambulance operates 95% of all time. These events are independent. Calculate the probability that if someone was injured in a fire, both fire engine and ambulance would work.
3) There are 3 hotels, a random guest is placed in one of them with the following probabilities: Statistical Inn (20%), Bayes Inn (50%) and Gauss Lodge (30%). It's known that some equipment is broken in 3% of rooms in Statistical Inn, 4% in Bayes Inn and 8% in Gauss Lodge. Calculate the probability that the guest finds himself in Gauss Lodge if the equipment in his room is broken.
4) (a) The battery working hours of a smartphone is normally distributed with a mean of 100 hours and standard deviation of 10 hours. Calculate the probability that a smartphone will work at most 120 hours before it needs to be charged.
(b) Calculate the probability that it will work exactly 90 hours before charging.
5) 100 students take statistics class, 54 of them study math, 65 study physics and 35 study both math and physics.
(a) Calculate the probability that a randomly selected student studies a different subject (not math and not physics)
(b) Calculate the probability that a randomly selected student studies only math.
6) A study of mice population (n=10) with some disease was performed. The goal of the study was to determine whether a certain treatment works. For this the population was divided into two groups each with size 5, only one group received treatment and the following parameters were measured for the time of life:
Group A (treatment)
mean: 3.62
standard deviation: 1.38
Group B (no treatment)
mean: 2.16
standard deviation: 1.24
(a) State the appropriate hypotheses if we want to verify that the true mean of Group A differs from the true mean of Group B
(b) Apply the appropriate test to determine if the null hypothesis can be rejected (α=5%)
---
2nd Exercise Exam 2022
1) Given a random sample X with a confidence interval of 95 % from [3.39%, 14.61%] and a point estimator = 9%. Calculate the sample size X of this random sample.
2) It is known that 2% of all credit card transactions per day is fraudulent. In total there are 50 transactions per day.
a) Calculate the exact probability for 0 fraudulent transactions per day
b) Calculate the exact probability for at least one fraudulent transaction per day
3) There are 4 math books, 3 chemistry books and 2 physics books. How many different ways are there to arrange then, if all math books, all chemistry books and all physics books should be next to each other?
4) An insurance company insures 2000 car drivers, 3000 motorbike drivers and 5000 truck drivers. The probability for an accident is 0.01, 0.03 and 0.015 for each group of drivers.
a) What is the probability of an accident among the whole population?
b) A random person is selected. What is the probability that this person is a car driver?
c) A random person is selected. What is the probability that this person is a motorbike driver or a truck driver?
5) Study among 30 students. Students get evaluated on a 15 question test. Given this table:
mean standard dev
time spent on tv[hours] 6.95 3.16
amount of errors 4.63 2.93
given covariance: 5.01
a) Calculate an appropriate summary statistic to quantify the linear relationship between "time spent on tv" and "amount of errors"
b) How many errors can be expected by a student who spent 6h watching tv using linear regression?
---
For next year the questions of todays exercise exam:
1) Grouped Data with BMI (like Example 35 this year)
a) mean
b) median
c) variance & SD
d) above which value lays 75% of the distribution mass
2) Some normalised Example with Bowling Points 2 people with different mean + SD given (anna: 180 mean, 25 SD, kevin 170 mean & 15 SD)
a) calculate probabilty anna higher than 190 points
B) calculate probality kevin lower than xxx points
c) probabilty anna scores higher than kevin
3) Confidenceinterval with given mean + sd
4) 3 Companies with split & error rates (A: 30% and 7% Error, B: 45% und 3% Error, C:25% and 6% Error)
a) Calculate if sample or so is from A or B
b) Probablity for an Error
c) probability if Error is from B or so
5) Confidenceinterval with 500 (N) samples, 20% have Nile Fever or so. 95% Confidenceinterval but without mean and sd
---

---
# Einheit 1
## Primäre bzw. sekundäre Datenerhebung: Vor und Nachteile

Datenerhebung:
- Primärstatistik (selbstständige Erhebung)
- Pro: wir haben kontrolle, aktuelle Daten, bestimmung der Merkmale, Art und Weise der Datenerhebung, Auswahl der Grundgesamtheit
- Cons: bei Fehler ist man selbst verantwortlich, Aufwand, Zeit und Kosten
- Sekundärstatistik (Übernehmen bestehender fremder Daten)
- Pros: Schnelle Verfügbarkeit da bereits vorhanden, meist günstiger, zumindest Teilweise Auslagerung der Verantwortung
- Cons: kein Einfluss auf Merkmale, Art und Weise der Datenerhebung, kein Einfluss auf Grundgesamtheit
## Unterschied zwischen ordinalen und metrischen Merkmalen, Skalenniveau
ordinale zwar eine natürliche Ordnung, haben kein Maßsystem um damit zu Rechnen.
Beispiel Abstand: Abstand zwischen Noten nicht eindeutig, hängt von vielen dingen ab ( will ich nur durchkommen, oder brauch ich eine 1 für ein Stipendium etc..). Metrische hingegen haben eine Ordnung und ein Maßsystem (rechnen). Ordinale sind außerdem klarerweise diskret, metrische können auch stetig sein.
## Unterschied zwischen einem metrisch-diskreten und metrisch-stetigen Merkmal
Möglichkeits-Aussage: Sobald man etwas immer genauer messen oder zählen KÖNNTE (auch wenn man das nicht tut) dann handelt es sich um ein metrisch stetiges Mermal. z.B immer bessere Hardware.. überabzählbar, stetig
## Welche Merkmalsausprägungen besitzen die erhobenen Daten, Skalenniveau

- Beförderungsmittel mit dem der Firmenstandort überwiegend erreicht wird
(Fahrrad o.Ä, zu Fuß, Bus, Zug, Straßenbahn, Auto, Motorrad) -> Nominal
- Entfernung zwischen Wohnung und Firmenstandort.
Kilometer kürzester Google Maps weg -> metrisch stetig,
1.5km, 10.3km, 55km
- generelle Bereitschaft bezüglich der Nutzung öffentlicher Verkehrsmittel
sehr hoch, hoch, mittel, niedrig, sehr niedrig -> ordinal
## Merkmal, eine Merkmalsausprägung oder eine Grundgesamtheit bestimmen, Skalenniveau
Grundgesamtheit:
- Patient:innen die im Jahr 2022 im Med Campus III operiert wurden
Merkmal:
- Dauer des Krankenhausaufenthalts (metrisch stetig)
- Blutgruppe (nominal)
- Grund des Krankenhausaufenthalts (Operation, Untersuchung, Bestrahlung, ...)
Merkmalsausprägung:
- Operation, Untersuchung, Bestrahlung,
## Wahre Aussagen
- Eine empirische Grundgesamtheit muss räumlich, zeitlich und sachlich abgegrenzt werden.
- Die tabellarische Darstellung von Daten ist Aufgabe der deskriptiven Statistik.
- Die Berechnung eines Schätzers für den Wahlanteil der XPÖ ist Aufgabe der induktiven Statistik: WAHR Schätzen = vorhersagen => induktiv
TODO MEHR BSP
## Falsche Aussagen
TODO
## Theorie
- Datenerhebung soll objektiv (unabhängig von der durchführenden Person), valide (gemessen wird, was benötigt wird) und reliabel (unter konstanten Bedingungen wiederholbar) sein.
- Primärstatistik (Field Research"): selbstständige Erhebung von neuen Daten (Beobachtung, Experiment, Befragung)
- Sekundärstatistik (Desk Research"): Übernahme von „fremden" bereits bestehenden Daten (z.B.: Daten von Krankenkassen, Statistik Austria, ...)
- Empirische Grundgesamtheit: eine endliche Menge von N Objekten, die klar (räumlich,
zeitlich, sachlich) abgegrenzt sind (Objekte = Elemente der Grundgesamtheit). Eine
statistische Grundgesamtheit kann theoretisch auch unendlich groß sein.
- Urliste: ursprüngliche unkomprimierte Aufzeichnung aller
Merkmalsausprägungen der Elemente einer Grundgesamtheit
- Deskriptive Statistik
auch beschreibende Statistik oder empirische Statistik genannt
dient zur Beschreibung und Zusammenfassung vorliegender Daten
Verdichtung quantitativer Daten zu Tabellen, grafischen Darstellungen und Kennzahlen
- Induktive Statistik
auch mathematische Statistik, schließende Statistik oder Inferenzstatistik genannt
Ableitung von Eigenschaften einer Grundgesamtheit basierend auf den Daten einer Stichprobe (z.B.: Schätzung von Verteilungsparameter der Grundgesamtheit auf Basis der Stichprobe, Testen von Hypothesen, ...)
Grundlage ist die Wahrscheinlichkeitstheorie (Wahrscheinlichkeitsrechnung")

- nominale (klassifikatorische oder auch qualitative) Merkmale: keine Beziehung zwischen Elementen der Grundgesamtheit außer die Klasseneinteilung (z.B.: Lieblingsfarben, ..)
- Rangmerkmale (komparative Merkmale, ordinale Merkmale): zwischen den
Merkmalsausprägungen besteht eine „natürliche objektive" Ordnungsbeziehung (z.B.: Schulnoten, ...)
- quantitative (metrische) Merkmale: Merkmalsausprägungen sind
Ergebnisse eines Zähl- oder Messprozesses (Zahlen mit einer Maßeinheit")
- quantitativ-diskrete Merkmale: isolierte (diskrete) Zahlenwerte
(Zählvorgang, z.B.: Anzahl der Äpfel in einem Korb, abzählbar unendlich)
- quantitativ-stetige Merkmale: alle reellen Zahlen eines Intervalls möglich (Messvorgang, z.B.: Körpergröße, überabzählbar unendlich)
# Einheit 2
## Arithmetisches Mittel und Median


## Klassenbreiten bestimmen

| Klasse | $[e_{i-1};e_{i})$ | Mitte | Breite |
| ------ | ----------------- | ----- | ------ |
| 1 | 125-135 | 130 | 10 |
| 2 | 135-145 | 140 | 10 |
| 3 | 145-155 | 150 | 10 |
| 4 | 155-165 | 160 | 10 |
| 5 | 165-175 | 170 | 10 |
| 6 | 175-185 | 180 | 10 |
| 7 | 185-195 | 190 | 10 |
## Verteilung mit Histogramms darstellen

Abstand zwischen den Werten ist ungefähr 20, darum wird dieser Wert zur Klasseneinteilung verwendet (Klassenbreite). Mit kleiner 10 und größer 30 hat man 5-20 Klassen, dadurch ist 20 der sweet spot.
Klasen: (40-60, 60-80, 80-100, ...)

## Kreuztabelle ausfüllen


## Absolute und relative Häufigkeiten angeben

**Absolute Häufigkeit**: Tabelle aufstellen
| 0 | 1 | 2 | 3 | 4 | 5 | 6 |
| --- | --- | --- | --- | --- | --- | --- |
| 16 | 12 | 9 | 2 | 0 | 0 | 1 |
**Relative Häufigkeit:** Jeder Wert in der Tabelle durch die Gesamtanzahl dividieren
| 0 | 1 | 2 | 3 | 4 | 5 | 6 |
| --- | --- | ----- | ---- | --- | --- | ----- |
| 0.4 | 0.3 | 0.225 | 0.05 | 0 | 0 | 0.025 |
## Arithmetisches Mittel (stetiges und diskretes Merkmal)

# Einheit 3
## Durchschnittliche relative Wachstumsrate berechnen

## Modus
TODO: Beispiel
## 1., 2. und 3. Quartil berechnen
TODO: Beispiel
## Geeignete Streuungskennziffern berechnen
## Steiner'sche Verschiebungssatz (**empirische Varianz**)

Bei c)
## Über welchen Wert befinden sich 40% aller Fälle der Verteilung

Achtung: 60% Quartil verwenden!
# Einheit 4
## Boxplot Darstellung


## Kennziffern zum Vergleich der Streuung berechnen

## Standardabweichung, Median, 60% Quartil

## Spearman Korrelationskoeffizient

TODO: beschreiben wie man es mit der Hand rechnet
## Bravais-Pearson Korrelationskoeffizient

## Lineares Regressionsmodell

```r
# b = Cov(x,y) / Var(x)
b <- 820 / 927
# a = mean(y) - b * mean(x)
a <- 1234 - b * 1029
```
```r
> a + b * 1400
[1] 1562.177
```
Das Gehalt beträgt nach 6 Jahren laut dem Regressionsmodell 1562.18 Euro.
TODO: Formel
# Einheit 5
## Spearman

## Permutation ohne Wiederholung

$11! = 39 916 800$
## Permutation mit Wiederholung

n = 2 - Erste Klasse
n = 3 - Zweite Klasse
n = 1 - Gepäck
n_gesamt = 2 + 3 + 1 = 6
$p_{6}^{2, 3, 1} = \frac{6!}{2! \cdot 3! \cdot 1!} = \frac{720}{12} = 60$
## Kombination ohne Wiederholung

## Kombination mit Wiederholung

## Variation ohne Wiederholung
## Variation mit Wiederholung

## Kombination mit/ohne Wiederholung + Variation mit/ohne Wiederholung

# Einheit 6
# Einheit 7
# Einheit 8
# Einheit 9
# Einheit 10
# Einheit 11
## Erwartungstreuen und konsistenten Schätzer für Mittelwert, Hypothesen, Teststatistik

# Einheit 12