Exemple

$H_{0} : m = m_{0}$ contre
$H_{1} : m = m_{1}$ ou
$X$ suit une loi
$N (m, 1)$ et
$m_{0} \leq m_{1}$
A. N.:
$m_{0} = 1$ et
$m_{1} = 2$
Calculer
$α$
Calculer
$β$

Solution

Determiner la statistique de NP

\begin{aligned} \frac{L (X_{1}, \dots, X_{n}, 2)}{L (X_{1}, \dots, X_{n}, 1)} & = \frac{Π_{i = 1}^{n} \frac{1}{\sqrt{2 π}} e^{- \frac{(X_{i} - 2)^{2}}{2}}}{Π_{i = 1}^{n} \frac{1}{\sqrt{2 π}} e^{- \frac{(X_{i} - 1)^{2}}{2}}} \\ = e^{\frac{1}{2} [- \sum X_{i}^{2} - 4 X_{i} + 4 + \sum X_{i}^{2} - 2 X_{i} + 1]} \\ = e^{\frac{1}{2} \sum_{i = 1}^{n} (1 X_{i} - 3)} \\ = e^{\sum_{i = 1}^{n} X_{i}} \times \underset{c}{\underset{⏟}{e^{- \frac{3 n}{2}}}} \end{aligned}

Passons au log

\log (T) = \sum_{i = 1}^{n} X_{i} + \log (c)

L'hypothese

H_{0}

est rejetee lorsque

\begin{aligned} T & > S_{α} \\ \log (T) & > \log (S_{α}) \\ \sum X_{i} + \log (c) & > \log (S_{α}) \end{aligned} \sum X_{i} > \log (S_{α}) - \log (c) \sum X_{i} > C_{α}

On veut calculer

α

\begin{aligned} α & = P (rejeter H_{0} | H_{0} vraie) \\ = P (\sum X_{i} > C_{α} | m = 1) \end{aligned}

On veut se ramener a la loi centree-reduite:

\begin{aligned} α & = P (\underset{{\bar{X}}_{n}}{\underset{⏟}{\frac{\sum X_{i}}{n}}} > \frac{C_{α}}{n} | m = 1) \\ = P ({\bar{X}}_{n} > \frac{C_{α}}{n} | m = 1) \\ = P (\sqrt{n} ({\bar{X}}_{n} - 1) > \frac{\sqrt{n} (C_{α} - 1)}{n}) \end{aligned}

Sous l'hypothese

H_{0}

Z_{n} = \sqrt{n} ({\bar{X}}_{n} - 1) \sim N (0, 1)

Par definition, qu'est-ce que ce nombre ? On rejette combien a droite ?

C'est un quantile au niveau
$1 - α$

\sqrt{n} (\frac{C_{α}}{n} - 1) = Z_{1 - α}

Z_{1 - α}

designe le quantile de

N (0, 1)

au niveau

1 - α

Maintenant on veut exprimer

β

De quoi on a besoin pour determiner

$β$ ?

\begin{aligned} β & = P (Accepter H_{0} | H_{1} vraie) \\ = P (\sum X_{i} \leq C_{α} | m = 2) \end{aligned}

On veut exprimer

C_{α}

en fonction de

Z_{1 - α}

\begin{aligned} \sqrt{n} (\frac{C_{α}}{n} - 1) & = Z_{1 - α} \\ \frac{C_{a l p h a}}{n} - 1 & = \frac{Z_{1 - α}}{\sqrt{n}} \\ \frac{C_{α}}{n} = \frac{Z_{1 - α}}{\sqrt{n}} + 1 \end{aligned} C_{α} = n (\frac{Z_{1 - α}}{\sqrt{n}} + 1) = \sqrt{n} Z_{1 - α} + n

Avant de continuer, essayons de trouver

C_{α}

dans le cas ou

α = 1 %

et dans le cas ou

α = 5 %

Avant de calculer

β

, on trouve les

C_{α}

\begin{matrix} α = 5 % & C_{α} = 1, 64 \sqrt{n} + n \\ α = 1 % & C_{α} = 2, 33 \sqrt{n} + n \end{matrix}

n = 100

α = 1 %

, alors

C_{α} = 123, 3

et pour

α = 5 %

C_{α} = 116, 4

Maintenant on peut calculer

β

\begin{aligned} β & = P (Ne pas rejeter H_{0} | H_{0} | fausse) \\ = P (\sum X_{i} < C_{α} | m = 2) \\ = P ({\bar{X}}_{n} < \frac{C_{α}}{n} | m = 2) \\ = P (\sqrt{n} ({\bar{X}}_{n} - 2) < \sqrt{n} (\frac{C_{α}}{n} - 2) | m = 2) \end{aligned}

Sous l'hypothese

(H_{1})

Z_{n} = \sqrt{n} ({\bar{X}}_{n} - 2) \sim N (0, 1) β = P (Z_{n} < \sqrt{n} (\frac{C_{α}}{n} - 2))

Pour

α = 5 %

n = 100

\begin{aligned} \sqrt{n} (\frac{C_{α}}{n} - 2) & = 10 (1, 164 - 2) \\ = - 8, 36 \end{aligned} β = P (Z_{n} < - 8, 36) = 3 \times 10^{- 17}

scipy.stats.norm.cdf(-8.36)

norm: loi normale
cdf: cumulative distribution function

Pourquoi

$β$ est aussi petit ?

Parce que
$α$ est tres grand par rapport a
$n$

Faisons la meme chose pour

n = 25

α = 1 %

Test du rapport de vraisemblance generalise (GLR)

$H_{0} : θ \in A$ contre
$H_{1} : θ \in B$
$T = \frac{L (X_{1}, \dots, X_{n} {\hat{θ}}_{1}^{M V})}{L (X_{1}, \dots, X_{n} {\hat{θ}}_{0}^{M V})}$
$T = \frac{sup_{θ \in B} L (X_{1}, \dots, X_{n} θ)}{sup_{θ \in A} L (X_{1}, \dots, X_{n} θ)}$
Rejet de
$(H_{0})$ ssi
$T > S_{α}$ ou
$S_{α}$ est un seuil qui depend du niveau de confiance de
$α$

Comment on le traduit ?

$H_{0} : m \in {0}$

$H_{1} : m \in R ∖ {0}$

Test de comparaison de 2 moyennes

Deux populations
Deux echantillons independants suffisamment grand
$(X_{1}, \dots, X_{n_{1}})$ et
$(Y_{1}, \dots, Y_{n_{1}})$
Statistique

Z = \frac{{\bar{X}}_{n_{1}} - {\bar{Y}}_{n_{2}}}{\sqrt{(\frac{S_{n + 1}^{2}}{n_{1}} + \frac{S_{n_{2}}^{2}}{n_{2}})}}

$H_{0} : m_{1} = m_{2}$ contre
$H_{1} : m_{1} \neq m_{2}$
$H_{0} : m_{1} = m_{2}$ contre
$H_{1} : m_{1} > m_{2}$
$H_{0} : m_{1} = m_{2}$ contre
$H_{1} : m_{1} < m_{2}$

Principe de Neyman Pearson

Determination d'un model statistique
Determination d'hypotheses
Determination d'une statistique de test
Determination de la forme de la region critique
Determination des valeurs critiques
Conclusion: rejet ou non de l'hypothese
Calcul de la puissance du test

Hypotheses simples

$H_{0} : θ = θ_{0}$
$H_{1} : θ = θ_{1}$

Exemple

Premier exemple

La variable aleatoire

X

suit une loi

N (m, 1)

. Nous voulons tester

H_{0} : m = 0

contre

H_{1} : m \neq 0

Solution

Qu'est-ce que le maximum de vraisemblance ?

C'est ce qui maximise la fonction de vraisemblance en fonction de
$θ$

Maximum de vraisemblance pour une loi normale ?

L (x_{1}, \dots, x_{n}, m) = Π_{i = 1}^{n} \frac{1}{\sqrt{2 π}} e^{- \frac{(x_{i} - m)^{2}}{2}}

Il n'y a pas de

σ

car

σ = 1

L (x_{1}, \dots, x_{n}, m) = Π_{i = 1}^{n} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(x_{i} - m)^{2}}{2 σ^{2}}}

On a une fonction

f \Rightarrow \log (f^{'})

Prenons un exemple:

\begin{aligned} f (x) & = x^{2} - 2 x \\ f^{'} (x) & = 2 x - 2 \\ \log (f^{'} (x)) & = \log (2 x - 2) \\ \log (f^{'} (x)) = 0 & \Leftrightarrow 2 x - 2 = 1 \\ \Leftrightarrow x = \frac{3}{2} \end{aligned} \begin{aligned} f (x) & = x^{2} - 2 x \\ \log (f (x)) & = \log (x^{2} - 2 x) \\ (\log (f (x)))^{'} & = \frac{2 x - 2}{x^{2} - 1} \\ (\log (f (x)))^{'} = 0 & \Leftrightarrow x = 1 \end{aligned}

Ce n'est pas le meme resultat

La formule du maximum de vraisemblance est:

T = \frac{L (X_{1}, \dots, X_{n}, \hat{θ})}{L (X_{1}, \dots, X_{n}, θ_{0})}

Avec

\hat{θ}

l'estimateur du maximum de vraisemblance de

θ

On cherche

\bar{X}

\begin{aligned} T & = \frac{L (X_{1}, \dots, X_{n}, \bar{X})}{L (X_{1}, \dots, X_{n}, 0)} car m = 0 \\ = e^{- \frac{1}{2} [\sum_{i = 1}^{n} (X_{i} - \bar{X})^{2} - \sum_{i = 1}^{n} X_{i}^{2}]} \\ = e^{- \frac{1}{2} [e \sum_{i = 1}^{n} X_{i} + n {\bar{X}}^{2}]} \\ = e^{- \sum_{i = 1}^{n} X_{i} - \frac{n}{2} {\bar{X}}^{2}} \end{aligned} \log (T) = - \sum X_{i} - \frac{n}{2} {\bar{X}}^{2}

(H_{0})

rejetee

s i

T > S_{α}

\begin{aligned} \log (T) & > \log (S_{α}) \\ - \sum X_{i} - \frac{n {\bar{X}}^{2}}{2} & > \log (S_{α}) \\ \sum_{i = 1}^{n} X_{i} + \frac{n {\bar{X}}^{2}}{2} & < \log (S_{α}) \end{aligned}

Proposition
Sous des hypotheses techniques, en notant

{\hat{θ}}_{n}

l'estimateur du maximum de vraisemblance.

\sqrt{n I (θ_{0} ({\hat{θ}}_{n} θ_{0}))}

converge en loi vers

N (0, 1)

Nous dirons que l'estimateur du maximum de vraisemblance est normal asymptotiquement efficace ou NAE.

Nous supposerons que les hypotheses techniques evoquees sont verifiees.

Theoreme de Wilks
Sous l'hypothese

H_{0}

R_{n} := 2 \log (T_{n})

converge en loi vers une loi

χ^{2} (1)

En revenant a nos calculs:

2 (\sum_{i = 1}^{n} X_{i} + n {\bar{X}}^{2}) \sim χ^{2} (1)

:::

Second exemple

La variable aleatoire
$X$ suit une loi
$ε (λ)$
$H_{0} : λ = 1$ contre
$H_{1} : λ > 1$