# Hausaufgaben 10. Woche
###### tags: `Vl Datenanalyse 21/22`
## Aufgabe: Vergleich von Zähldaten
In einer klinischen Studie zur Erprobung eines neuen Impfstoffes werden 5.000 Probanden mit dem Impfstoff geimpft, nochmal exakt genauso viele Probanden erhalten ein Placebo. Die Studie ist *doppelblind randomisiert*: Dazu wählt eine Person aus 10.000 numerierten Spritzen 5.000 zufällig aus und befüllt sie mit Impfstoff, und die anderen 5.000 Spritzen mit Placebo. Die Person notiert die Zuordnung von Inhalt zu Spritzen-Nummer, hält diese Information aber bis zur sog. "Entblindung" am Ende der Studie geheim. Weder die Probanden noch die die Impfung durchführenden Ärzte wissen also, wer Impfstoff und welche Placebo erhält. Für jeden Probanden wird aber die Nummer der verwendeten Spritze notiert.
Die Probanden werden dann beobachtet und jede Woche auf Vorliegen einer Infektion getestet. Alle Probanden, die sich innerhalb eines definierten Zeitraums, nämlich beginnend 2 Wochen nach der Impfung und endend 4 Monate nach der Impfung, mit der Krankheit infiziert haben, werden gezählt. Dann wird die Studie entblindet: es stellt sich heraus, dass von den insgesamt 28 Infizierten 17 das Placebo und 11 den Impstoff erhalten hatten.
Wir folgern also: Die Wahrscheinlichkeit, sich in einem 4-Monats-Zeitraum anzustecken, beträgt 17/5000 = 0,34% ohne Impfung aber nur 11/5000 = 0,22% mit Impfung. Die Impfung reduziert das Ansteckungsrisiko also um einen Faktor 1,55 (relative risk = 1:1.55).
(a) Ist das eine robuste Folgerung? Bestimmen Sie dazu den Standardfehler der beiden Ansteckungs-Wahrscheinlichkeiten (ohne und mit Impfung).
Erinnern sich dazu an die Vorlesung: Die Standardabweichung einer Poisson-Verteilung mit Erwartungswert $\mu$ ist $\sqrt{\mu}$ (wobei $\mu$ hier die erwartete Anzahl der Infizierten ist). Können Sie ein grob geschätztes 95%-Konfidenzintervall für die beiden Ansteckungs-Wahrscheinlichkeiten geben?
Anleitung: Wenn $\mu$ nicht zu klein ist (und $\mu\ge 10$ ist einigermaßen groß genug), dann ist die Poisson- oder Binomial-Verteilung einer Normalverteilung recht ähnlich. Wir können unser Konfidenzintervall also einfach von als $[-2\sigma,2\sigma]$ wählen, wie wir das auch beim Standardfehler des Mittelwerts gemacht haben.
Probieren Sie die Funktion `binom.confint` aus dem Paket `binom` aus, die verschiedene anbietet, um ein genaueres Konfidenzintervall zu berechnen.
Denken Sie, dass man mit großer Konfidenz sagen kann, dass dieser Impfstoff wirkt?
(b) In diesem Beispiel habe ich in stark vereinfachter Weise ein Vorgehen beschrieben, wie es auch bei der Erprobung der neuen mRNA-Impfstoffe gegen Covid-19 zum Einsatz kam. Während aber die Zahlen in meinem Beispiel einen Impfstoff mit eher schwacher (vielleicht gar keiner) Wirksamkeit beschreiben, haben die beiden mRNA-basierten Covid-Impstoffe hingegen bemerkenswert hohe Wirksamkeit. In diesem Paper finden Sie die Ergebnisse der Studie zum BioNTech-Impfstoff:
Polack et al., *Safety and Efficacy of the BNT162b2 mRNA Covid-19 Vaccine*. New England Journal of Medicine, 2020. [doi:10.1056/NEJMoa2034577](https://doi.org/10.1056/NEJMoa2034577)
Vergleichen Sie die Zahlen aus dem Paper mit denen aus dem Beispiel.
(c\) Unser Beispiel-Wirkstoff ist recht fragwürdig. Wir stellen die Nullhypothese auf: "Der Wirkung des Impfstoffes unterscheidet sich nicht von Placebo." Wenn es keinen Unterschied gäbe zwischen Impfstoff und Placebo, dann können wir das Studienergebnis durch folgendes Null-Modell beschrieben: Für jeden der 35 Infizierten ist die Wahrscheinlichkeit 50%, dass die Spritze Impfstoff enthielt (und ebenso 50%, das es Placebo war).
Simulieren Sie die durch das Null-Modell beschriebene Situation, indem Sie mit `rbinom` (mit $n=35$ und $p=0.5$) wiederholt auswürfeln lassen, wie viele der 35 Infizierten das Placebo erhalten haben. Wie oft sehen Sie einen Wert von 25 oder mehr? Dieser Anteil ist der zu unserer Nullhypothese gehörige p-Wert.
Sie können den p-Wert durch viele Simulationen mit `rbinom` ermitteln, oder mit `pbinom` errechnen. Gelingt Ihnen das?
Zur Erinnerung: Gegeben ein Urne (ein großer Sack) mit beliebig vielen Kugeln, von denen ein Anteil $p$ rot ist:
- Dann simuliert `rbinom( m, n, p)` $m$-mal das Experiment, $n$ Kugeln aus der Urne zu ziehen und zu zählen, wie viele davon rot sind,
- `dbinom( k, n, p )` liefert die Wahrscheinlichkeit, dass *genau* k der n Kugeln rot sind, und
- `pbinom( k, n, p)` die Wahrscheinlichkeit, dass *höchstens* k der n Kugeln rot sind.
(d) Der Hersteller des Impfstoffs führt die Studie mit mehr Probanden und einer längeren Beobachtungszeit nochmals durch. Diesmal gibt es 95 Infizierte, von denen 75 das Placebo und 20 den Wirkstoff erhalten haben.
Berechnen Sie wieder Konfidenz-Intervalle für die Ansteckungswahrscheinlichkeit und daraus auch einen ungefähres Konfidenzintervall für das relative Risiko.
<strike>
(e) Der Hersteller würde gerne behaupten, dass die Wirksamkeit des Impfstoffes mindestens 70% beträgt.
Wir rechnen: Auf $k$ Infizierte ohne Impfung sollten also höchstens $(1-0.7)k$ mit Impfung kommen. Wenn bei der Studie insgesamt $n = k + (1-0.7)k = 95$ Infizierte beobachtet werden, so ergibt sich $k=n/1.3=73.1$. Berechnen Sie eine p-Wert zur Nullhypothese "Die Wirksamkeit ist höchstens 70%", indem Sie mit `pbinom` die Wahrscheinlichkeit berechnen, dass eine Stichprobe von 95 Kugeln 75 oder mehr rote Kugeln enthält, wenn die Urne 73.1% rote Kugeln enthält. (Denken Sie gut durch, warum dieses Urnenmodell unsere Nullhypothese beschreibt.)</strike>