Feuille 3 Exercice 4

La variable aleatoire

X

suit une loi de Pareto de parametre

α

.A l’aide du theoreme de Wilks, ecrire la zone de rejet du test

H_{0} : α = 2

contre

H_{1} : α > 2

Solution

Nous n'avons pas de valeur pour

H_{1}

, mais

α > 2

. Nous allons donc le remplacer par l'EMV.

Pour la loi de Pareto de parametre

α > 0

dont la densite est donnee par

f (x, α) = α x^{- α - 1}

pour

x > 1

Determinons l'EMV.

On a:

L (x, α) = α^{n} \prod_{i = 1}^{n} x_{i}^{- α - 1}

d'ou

\log L (x, α) = n \log α + \sum_{i = 1}^{n} (- α - 1) \log (x_{i})

\frac{\partial \log L}{\partial α} (x, α) = \frac{n}{α} - \sum_{i = 1}^{n} \log (x_{i})

Ainsi

\frac{\partial \log L}{\partial α} (x, α) = 0

equivaut a

\frac{n}{α} - \sum_{i = 1}^{n} \log (x_{i}) = 0

Nous obtenons la solution

\hat{α} = \frac{n}{\sum_{i = 1}^{n} \log (x_{i})}

Reste a verifier la condition du second ordre:

\frac{\partial^{2} \log L}{\partial α^{2}} = - \frac{n}{α^{2}} < 0

Par consequent,

\hat{α} = \frac{n}{\sum_{i = 1}^{n} \log (x_{i})}

est bien l'EMV

\begin{aligned} T & = \frac{L (X_{1}, \dots, X_{n}, \hat{α})}{L (X_{1}, \dots, X_{n}, 2)} \\ = \frac{\prod_{i = 1}^{n} (\frac{n}{\sum_{j = 1}^{n} \ln (X_{j})}) X_{i}^{- (\frac{n}{Σ \ln (X_{i}) + 1})}}{\prod_{i = 1}^{n} 2 X_{i}^{- 3}} \\ = (\frac{n}{2 Σ \ln (X_{j})})^{n} \prod_{i = 1}^{n} X_{i}^{- \frac{n}{Σ \ln (X_{i}) + 2}} \end{aligned}

\begin{aligned} R_{n} & = 2 \ln (T) \\ = 2 n \ln (\frac{n}{2 S}) + \sum_{i = 1}^{n} (2 - \frac{n}{S}) \ln (X_{i}) \end{aligned} \color r e d S := \sum_{j = 1}^{n} \ln (X_{j}) \begin{aligned} R n & = 2 n \ln (\frac{n}{2 S}) + (2 - \frac{n}{S}) S \\ = 2 n \ln (\frac{n}{2 S}) + 2 S - n \end{aligned}

Asymptotiquement,

R_{n}

suit asymptotiquement une loi de

χ^{2}

n

degre de liberte.

La zone de rejet est:

{R_{n} > χ_{\color r e d 1 - α}^{2}}

χ_{1 - α}^{2}

designe le quantile de niveau

1 - α

:::

Feuille 3 Exercice 6

Considerons

n

variables aleatoires independantes de densite:

f (x, θ) = θ^{2} x e^{- θ x} 𝟙_{R_{+}} (x)

ou le parametre

θ

est strictement positif.

Nous disponsons de

n

observations et voulons tester l'hypothese

H_{0} : θ = θ_{0}

contre l'hypothese

H_{1} : θ = θ_{1}

avec

θ_{0} < θ_{1}

Justifier que
$f (x, θ)$ definit bien une densite pour tout
$θ > 0$
Calculer
$E (X)$
Determiner la statistique de Neyman-Pearson que nous noterons
$T_{n}$
En admettant que
$θ T_{n}$ suit une loi
$Γ (2 n, 1)$ , determiner une expression de
$α$ et
$β$ en fonction du seuil du test
Determiner les courbes COR associes a ce test.

Solution

On saute les 2 premieres questions car fait et refait

3.

$$
\begin{aligned}
T &= \frac{L(X_n,\dots,X_n,\theta_1)}{L(X_n,\dots,X_n,\theta_0)}\\
&= \frac{\prod_{i=1}^n\theta_1^2X_ie^{-\theta_1X_i}}{\prod_{i=1}^n\theta_0^2X_ie^{-\theta_0X_i}}\\
&= \biggr(\frac{\theta_1}{\theta_0}\biggr)^{2n}\times e^{\sum_{i=1}^n(\theta_0-\theta_1)}
\end{aligned}
$$

On passe au logarithme:

$$
\begin{aligned}
\ln T&= \underbrace{2n\log(\frac{\theta_1}{\theta_0})}_{\color{green}{a}}+\underbrace{(\theta_0-\theta_1)}_{\color{green}{b}}\sum_{i=1}^nX_i
\end{aligned}
$$

L'hypothese $H_0$ est rejetee lorsque:

$$
\begin{aligned}
T&\gt C_{\alpha}\\
\ln T&\gt\ln C_{\alpha}\\
a+b\sum_{i=1}^nX_i&\gt\ln (C_{\alpha})\\
\underbrace{\sum_{i=1}^n X_i}_{\color{red}{T_n}}&\lt \underbrace{\frac{\ln(C_{\alpha})-a}{b}}_{\color{red}{S_{\alpha}}}
\end{aligned}\\
\color{green}{\text{car } b = \theta_0-\theta_1\lt 0}
$$

Donc: 

$$
T_n\lt S_{\alpha}
$$

\begin{aligned} α & = P (Rejeter H_{0} | H_{0} vraie) \\ = P (T_{n} < S_{α} | θ = θ_{0}) \end{aligned}

Sous

H_{0}

θ_{0} T_{n}

suit une loi

Γ (2 n, 1)

\begin{aligned} α & = P (θ_{0} T_{n} < θ_{0} S_{α}) \\ = F_{n} (θ_{0} S_{α}) \end{aligned}

F_{n}

designe la fonction de repartition de la loi

Γ (2 n, 1)

Exprimons

S_{α}

en fonction de

α

S_{α} = \frac{F_{n}^{- 1} (α)}{θ_{0}}

\begin{aligned} β & = P (Rejeter H | H vraie) \\ = P (T_{n} \geq S_{α} | θ = θ_{1}) \\ = P (θ_{1} T_{n} \geq θ_{1} S_{α} | θ = θ_{1}) \end{aligned}

Or sous

H_{1}

θ T_{n} \sim Γ (2 n, 1)

Donc:

\begin{aligned} β & = 1 - F_{n} (θ, S_{α}) \\ = 1 - F_{n} (\frac{θ}{θ_{0}} F_{n}^{- 1} (α)) \end{aligned}

En python:

scipy.stats.gamma.cdf(2 * scipy.stats.gamma.ppf(0.05, 20, scale=1), 20, scale = 1)

0.9184...

scipy.stats.gamma.cdf(2 * scipy.stats.gamma.ppf(0.05, 50, scale=1), 50, scale = 1)

0.999702...

scipy.stats.gamma.cdf(2 * scipy.stats.gamma.ppf(0.01, 10, scale=1), 10, scale = 1)

0.316165...

scipy.stats.gamma.cdf(2 * scipy.stats.gamma.ppf(0.001, 100, scale=1), 100, scale = 1)

0.9999523...

On nome

Π

la probabilite de detection:

Π = 1 - β Π = F_{n} (\frac{θ_{1}}{θ_{0}} F_{n}^{- 1} (α))

:::

Feuille 4 Exercice 4

Considerons

n

variables aleatoires independantes

X_{i}

suivant la loi de densite:

f (x, θ) = \frac{3}{θ} x^{2} e^{- \frac{x^{3}}{θ}} 𝟙_{R_{+} (x)}

avec

θ > 0

𝟙_{R_{+}}

designe la fonction indicatrice de

R_{+}

Nous souhaitons tester l'hypothese

H_{0} : θ = θ_{0}

contre

H_{1} : θ = θ_{1}

avec

θ_{0} < θ_{1}

a l'aide d'observations

x_{i}

issues de l'echantillon precedent

- (a) Justifier que, pour tout
  $θ > 0$ ,
  $f (\cdot, θ)$ definit bien une densite sur
  $R$
- (b) Determiner l'EMV
  $\hat{θ}$
Determiner la statistique du test de Neyman-Pearson et indiquer la region critique associe a ce test.
Verifier que la variable aleatoire
$Y_{i} = \frac{2}{θ} X_{i}^{3}$ suit une loin
$χ^{2}$ a deux degres de liberte
En deduire le seuil du test de Neyman-Pearson en fonction du risque de premiere espece
$α$
Determiner la puissance du test en fonction du test et de
$θ_{1}$
Determiner les courbes COR associees a ce test
- (a) Application numerique
  $1$ :
  $α = 5 %, θ_{0} = 1, θ_{1} = 2$ et
  $n = 15$
- (b) Application numerique
  $1$ :
  $α = 5 %, θ_{0} = 1, θ_{1} = 5$ et
  $n = 30$
- © Application numerique
  $1$ :
  $α = 5 %, θ_{0} = 1, θ_{1} = 2$ et
  $n = 10$
- (d) Application numerique
  $1$ :
  $α = 5 %, θ_{0} = 1, θ_{1} = 5$ et
  $n = 30$

Solution

On pose

ϕ (y) = \frac{2}{θ} y^{3}

Ainsi:

ϕ^{- 1} (y) = \sqrt[3]{\frac{θ y}{2}}

Elle est derivable car elle est polynomiale et est bijective car elle est strictement croissante.

\begin{aligned} f_{Y} (y) & = \frac{1}{(\frac{6}{θ} (\sqrt[3]{\frac{θ y}{2}})^{2})} \times f (\sqrt[3]{\frac{θ y}{2}}) \\ = \frac{1}{\frac{6}{θ} (\sqrt[3]{\frac{θ y}{2}})^{2}} \times \frac{3}{θ} (\sqrt[3]{\frac{θ y}{2}})^{2} \times e^{- (\frac{(\sqrt[3]{\frac{θ y}{2}})^{3}}{θ})} \\ = \frac{1}{2} \times e^{- \frac{y}{2}} \end{aligned}

On peut en deduire que

Y

suit une loi

χ^{2} (2)

\color g r e e n T = \sum_{i = 1}^{n} X_{i}^{3}

\color g r e e n Y_{i} = \frac{2}{θ} X_{i}^{3} \sim X^{2} (2)

\Rightarrow \frac{2}{θ} T \sim χ^{2} (2 n)

\begin{aligned} α & = P (Rejeter H_{0} | H_{0} vraie) \\ = P (T > S_{α} | θ = θ_{0}) \\ = P (\frac{2}{θ_{0}} T > \frac{2}{θ_{0}} S_{α} | θ = θ_{0}) \end{aligned}

Sous

(H_{0})

\color r e d \frac{2}{θ_{0}} T \sim χ^{2} (2 n)

\color g r e e n F_{n} est la fonction de repartition χ^{2} (2 n)

α = P (W > \frac{2}{θ_{0}} S_{α})

α = 1 - F_{n} (\frac{2}{θ_{0}} S_{α})

\color r e d D o n c

1 - α = F_{n} (\frac{2}{θ_{0}} S_{α})

S_{α} = \frac{θ_{0}}{2} F_{n}^{- 1} (1 - α)

\begin{aligned} \color r e d β & = P (Rejeter H_{1} | H_{1} vraie) \\ = P (T \leq S_{α} | θ = θ_{1}) \\ = P (\frac{2}{θ_{1}} T \leq \frac{2}{θ_{1}} S_{α} | θ = θ_{1}) \end{aligned}

w_{1} = \frac{2}{θ_{1}} T \sim χ^{2} (2 n)

β = F_{n} (\frac{2}{θ_{1}} S_{α})

\color g r e e n β = F_{n} (\frac{θ_{0}}{θ_{1}} F_{n}^{- 1} (1 - α))

Passons aux applications numeriques:

scipy.stats.chi2.cdf(0.5 * scipy.stats.ppf(0.95, 30), 30)

0.14185880202947254

scipy.stats.chi2.cdf(0.2 * scipy.stats.ppf(0.95, 60), 60)

1.6239064341119149e-09

scipy.stats.chi2.cdf(0.5 * scipy.stats.ppf(0.99, 20), 20)

0.46403880816957155

scipy.stats.chi2.cdf(0.2 * scipy.stats.ppf(0.99, 20), 20)

1.87204631776198e-08

scipy.stats.chi2.cdf(1.0001 * scipy.stats.ppf(0.99, 20), 20)

0.9900104784496678

:::