Try   HackMD

ASE2 - Convergence et estimation

Introduction

Le problème central de l’estimation en statistique est le suivant : disposant d’observations sur un échantillon de taille

n on souhaite en déduire les propriétés de la population dont il est issu.

On cherchera à estimer, par exemple, la moyenne d’une population à partir de la moyenne d’un échantillon. Le mode de tirage le plus important est l’échantillonnage aléatoire simple correspondant à des tirages équiprobables et indépendants les uns des autres.

L’une des premières qualités d’un estimateur est d’être convergent en probabilité vers le paramètre à estimer. Un échantillon de

X est une suite de variables aléatoires
(X1,X2,...,Xn)
indépendantes et de même loi que
X
. Un estimateur d’un paramètre
θ
inconnu est une fonction qui dépend de l’échantillon et donc doit converger en probabilité vers le paramètre
θ
. La précision d’un estimateur sera mesuré par sa variance.

Rappels de la loi Gamma et la loi Normale

On dit qu’une variable aléatoire positive

X suit une loi gamma de paramètre
r
, notée
γr
si sa densité est donnée par :

f(x)=1Γ(r)exxr1

Avec

Γ(x)=0+ettx1dt (fonction Gamma) definie pour
x>0

Propriétés de la fonction Gamma

  1. Γ(x+1)=xΓ(x)
    (intégration par partie)
  2. Γ(1)=1
  3. Γ(n+1)=n!
  4. Γ(k+12)=1.3.5.....(2k1)2kΓ(12)
  5. Γ(12)=π

Espérance de la loi

γr : Soit
X
une variable aléatoire suivant la loi gamma de paramètre
r
.
E(X)=1Γ(r)0+tettr1dt=1Γ(r)0+tretdt=Γ(r+1)Γ(r)=r

Variance de la loi

γr :
V(X)=E(X2)E2(X)

E(X2)=1Γ(r)0+t2ettr1=1Γ(r)0+tr+1etdt=Γ(r+2)Γ(r)=r(r+1)

Donc

V(X)=r(r+1)r2=r.

Loi Normale de paramètres
(m,σ)

On dit qu’une variable aléatoire

X suit la loi normale notée
N(m,σ)
si sa densité est

f(x)=1σ2πe12(xmσ)2

où:

  • m=E(X)
  • σ=V(X)
    (écart type)

Avec le changement de variable

U=Xmσ (variable normale centrée réduite), la densité de
U
est:

f(u)=12πe12u2

Demonstration

Montrons que

V(U)=1.

On a:

V(U)=E(U2)=+12πu2e12u2du=22π0+u2e12u2du

Posons

t=u22,
dt=udu

V(U)=22π0+2tetdt2t=2πΓ(32)=2π12Γ(12)
Donc
V(U)=1ππ=1

Moments de la loi normale centrée réduite

Soit

U une variable normale centrée réduite, on appelle moment d’ordre
k
de
U
:
uk=E(Uk)

  • Si
    k=2p+1
    alors
    u2p+1=0
    (car fonction impaire)
  • Si
    k=2p
    alors
    u2p=12π+u2pe12u2du=22π0+u2pe12u2du

Posons

t=u22,
dt=udu

u2p=22π0+(2t)petdt2t=2pπ0+tp12etdt=2pπΓ(p+12)Or Γ(p+12)=1.3.5...(2p1)2pΓ(12) et Γ(12)=πDonc u2p=1.3.5....(2p1)=(2p)!2pp!

Fonctions caractéristiques

Definition: la fonction caractéristique d’une variable aléatoire réelle

X est la transformée de Fourier de sa loi de probabilité. Elle est notée
ϕX(t)
et on a:
ϕX(t)=E(eitX) (i complexe)

Si

X est une variable à densité (
X
est une v.a continue de densité
f
) alors :
ϕX(t)=Reitxf(x)dx

Si

X est une variable discrète alors sa fonction caractéristique est :
ϕX(t)=keitkP(X=k)

Propriétés

  1. ϕλx=ϕX(λt)
    ,
    λ
    un scalaire
  2. ϕX+a(t)=eitaϕX(t)
    ,
    a
    un scalaire
  3. Si
    X
    est une variable aléatoire d’espérance
    m
    et d’écart type
    σ
    et
    U=Xmσ

ϕXmσ=ϕU(t)=eitmσϕX(tσ)

Remarque

La fonction caractéristique se prête bien aux additions de variables aléatoires indépendantes.

Si

X et
Y
sont deux variables aléatoires indépendantes alors
ϕX+Y(t)=ϕX(t)ϕY(t)En effet ϕX+Y(t)=E(eit(X+Y))=E(eitXeitY)Or X et Y sont indépendantes E(eitXeitY)=E(eitX)E(eitY)Donc ϕX+Y(t)=ϕX(t)+ϕY(t)

Proposition

Soit

X une variable aléatoire de fonction de répartition
ϕX(t)
.

On a

ϕx(0)=1 et
dkϕXdtk(0)=ϕX(k)(0)=tkE(Xk)

Démo

Supposons que

X est une variable continue de densité
f

On a:

ϕX(t)=Reitxf(x)dxϕX(0)=Rf(x)dx=1 (car f est une densité)En dérivant ϕX(t) par rapport à t: ϕX(t)=iRxeitxf(x)dxSi t=0:ϕX(t)iRxf(x)dx=iE(x)Si on dérive 2 fois, ϕX(2)(t)=R(itx)2eitxf(x)dxEn dérivant k fois par rapport à t: ϕX(t)k(t)=R(ix)keitxf(x)dxDonc ϕx(k)(0)=(ik)Rxkf(x)dx=ikE(Xk),kN

Formule de Mac-Laurin

Si

ϕX(t) est indéfiniment dérivable on a:

ϕX(t)=k=0+tkk!ϕX(k)(0)=k=0+tkk!ikE(Xk)

Exemple 1

Soit X une variable aléatoire continue de densité:

f(x)={exsi x>00sinon

Déterminer la fonction caractéristique de

X

Solution

ϕX(t)=Reitxf(x)dx=+eitxexdx=0+e(1it)xdx=0+e(1it)xdx=[e(1it)x1it]0+=11it

Car

e(1it)x=exeitx0 lorsque
x+
.

Puisque

eitx est bornée de module 1 et
ex0
quand
x+

Exemple 2

Déterminer la fonction caractéristique de la loi de Bernoulli de paramètre

p

Solution

Soit

X une variable de Bernoulli

{X=1avec la probabilité pX=0avec la probabilité 1p

X étant discrète, donc sa fonction caractéristique est:

ϕX(t)=keitkP(X=k)=k=01eitkP(X=k)=P(X=0)+eitP(X=1)=1p+peit=q+peit avec q=1p

Convergences des suites de variables aléatoires

Une suite

(Xn) de variables aléatoires étant une suite de fonctions il existe diverses façons de définir la convergence de
(Xn)
dont certaines jouent un grand rôle en statistiques.

Convergence en probabilité

Definition
La suite

(Xn) converge en probabilité vers une variable aléatoire
X
si
ε>0,η>0
(arbitrairement petits) il existe un entier
n0
tel que
n>n0P(|XnX|>ε)n+0
, c’est-à-dire
P(|XnX|>ε)n+0
.

On notera

(Xn)PX.

Inégalité de Bienaymé-Tchebychev

P(|XnE(X)|>ε)<V(X)ε2,ε>0

Remarque

Lorsque

E(Xn)n+a, il suffit de montrer que
V(Xn)n+0
pour établir la convergence en probabilité de la suite
(Xn)
vers
a
.

En effet d’après Tchebychev:

P(|XnE(Xn)|>ε)<V(X)ε20\
Donc en passant à la limite
limn+P(|Xna|>ε)=0,ε>0

Convergence en moyenne quadratique

On suppose que

E(|XnX|2) existe

Definition
On dit qu’une suite de variables aléatoires

(Xn) converge en moyenne quadratique vers une variable
X
si
E(|XnX|2)n+0

On notera

(Xn)m.qX

Convergence en loi

Definition
La suite

(Xn) converge en loi vers la variable
X
de fonction de répartition
F
si en tout point de continuité de
F
la suite
(Xn)
des fonctions de répartition des
(Xn)
converge vers
F
.

C’est-à-dire

limn+Fn(x)=F(x) pour tout
x
point de continuité de
F
.

On notera

(Xn)LX

Remarque

Pour les variables discrètes, la convergence en loi est équivalente à

limn+P(Xn=k)=P(X=k)

Théorème

Si la suite des fonctions caractéristiques

ϕXn(t) converge vers
ϕX(t)
alors
(Xn)LX

Applications: Convergence en loi de la binomiale vers la loi Normale

Théorème (Moivre-laplace)

Soit

(Xn) une suite de variables binomiales
B(n,p)
alors

XnnpnpqLN(0,1) lorsque n+

Démonstration

La fonction caractéristique de la loi

B(n,p) est:

ϕXn(t)=(peit+1p)n donc celle de Yn=Xnnpnpq est:ϕYn(t)=(peitnpq+1p)neitnpnpqln(ϕYn(t))=nLn(p(eitnpq1)+1)itnpnpq

On rappelle le développement limité de l’exponentielle à l’ordre 2

ex1+x+x22(au voisinage de 0)ln(ϕYn(t))nln(p(itnpqt22npq)+1)itnpnpq

On rappelle

ln(1+x)xx22 (au voisinage de 0)

Donc:

ln(ϕYn(t))n[pitnpqpt22npq+p2t22npq]itnpnpqt22q+pt22q=t22q(p1)=t22

En composant par l’exponentielle:

ϕYn(t)et22

fonction caractéristique de la loi normale

N(0,1)

Conclusion

XnnpnpqLN(0,1)

Remarque

lorsque n est assez grand on peut donc approximer la loi Binomiale par la loi normale. On donne généralement comme condition

np et
nq>5
.

Il convient cependant d’effectuer la correction de continuité : on obtient donc une valeur approchée de

P(X=x) par la surface sous la courbe de densité de la loi normale
N(np,npq)
comprise entre les droites d’abscisse
x12
et
x+12

P(X=x)P(x12<X<x+12)=P(x12npnpq<Xnpnpq<x+12npnpq)Et P(X<x)P(Xnpnpq<x+12npnpq)

Exemple

Soit X une variable binomiale

B(n=40;p=0,3).

La valeur exacte pour

P(X=11) est
0,1319
.
La formule d’approximation :
P(X=11)P(1112128,4<X128,4<11+12128,4)=P(0,52<U0,17)=0,131

Avec

np=12 et
npq=8,4

Donc l’erreur est de moins de

1%

Convergence en loi de la loi de Poisson vers la loi normale

Theoreme
Soit

(Xλ) une suite de variables de Poisson de paramètre
λ
.

Si

λ+,
XλλλLN(0,1)

Démonstration

on rappelle la fonction caractéristique de la loi de Poisson:

ϕXi(t)=eλeitλ

On rappelle aussi la formule

ϕXmσ=eitλλ+λ+λitλt22λ=et22

On retrouve la fonction caractéristique de la loi normale centrée et réduite.

Conclusion

XλλλLN(0,1)

Théorème (Central-limite)

Soit

(Xn) une suite de variables aléatoires, indépendantes et de même loi d’espérance
m
et d’écart-type
σ
alors :

X1+X2+....+XnnmσnN(0,1)

Démonstration

X1+X2+....+XnnmσnN(0,1)=i=1nXimσn

Posons

Yn=i=1nXimσn

E(Ximσn)=E(Xi)mσn=0etV(Ximσn)=1σ2nV(Xi)=σ2nσ2=1n

La fonction caractéristique de

Yn=i=1nXimσn est:

ϕYn(t)=Πi=1nϕXimσn(t)=ϕXimσn(t)n=(1t22n+o(1n2))n

On rappelle que

(1+xn)nex
Car
(1+xn)n=enln(1+xn)enxn=ex

Donc
ϕYn(t)=(1t22n+o(1n2))net22
lorsque
n+

Estimateurs

Définition
Soit

(X1,X2,...,Xn) un échantillon de
X
, c’est-à-dire une suite de variables aléatoires indépendantes et de même loi que
X
. La statistique
X¯
ou moyenne empirique de l’échantillon est:

X¯=1ni=1nXi

E(X¯)=1ni=1nE(Xi)=nmn=m où m=E(X)V(X¯)=1n2i=1nV(Xi)=nσ2n2=σ2n0 lorsque n+

Donc d’après Tchebychev

X¯=1ni=1nXiPm=E(X) quand
n+

C’est la loi des grands nombres.