Probabilité et statistique Flashcards
Convergence en loi définition
Soient (Fn) la suite de fonction de répartition associées aux variables aléatoires réelles X&,X2, … et F la fonction de répartition associé à la variable aléatoire X. Autrement dit, Fn est définie par Fn(x)=P(Xn<=x) et F par F(x)=P(X<=x).
La suite Xn converge vers X en loi, ou en distribution si :
lim(n->+8) Fn(a)=F(a) pour tout réel a ou F est continue.
Puisque F(a) = P(X ≤ a), cela signifie que la probabilité que X appartienne à un certain intervalle est très proche de la probabilité que Xn soit dans cet intervalle pour n suffisamment grand. La convergence en loi est souvent notée
Convergence en loi par rapport aux autres
La convergence en loi est la forme la plus faible au sens où, en général, elle n’implique pas les autres formes de convergence définies ci-dessous, alors que ces autres formes de convergence impliquent la convergence en loi. C’est ce type de convergence qui est utilisé dans le théorème central limite.
De manière équivalente, la suite (Xn) converge en loi vers X si et seulement si pour toute fonction continue bornée
lim(n->+8) E[f(Xn)] = E[f(X)]
Théorème de continuité de Levi
Soit Soit φn(t) la fonction caractéristique de Xn et φ(t) celle de X. Alors
{Pour tout t de R, φn(t) -> φ(t)} <=> {Xn ->L X}
Autrement dit, (Xn) converge en loi vers X si et seulement si la fonction caractéristique de la variable aléatoire réelle Xn converge simplement vers la fonction caractéristique de la variable aléatoire réelle X.
Loi dégénérée
La suite N(0,1/n) converge en loi vers une variable aléatoire X0 dite dégénérée, qui prend une seule valeur (0) avec probabilité 1 (on parle parfois de masse de Dirac en 0, notée δ0) :
Convergence en probabilité
Soit (Xn) une suite de variables aléatoires réelles définies sur un meme espace probabilisé (Oméga, A, P). on dit que Xn converge vers X en probabilité si
Pour tout epsilon > 0, lim(n->+8) P(|Xn-X|>=epsilon) =0
On note parffois Xn->p X
Propriété convergence en loi et en probabilité
Si Xn converge en probabilité vers X alors Xn converge en loi vers X.
Convergence presque sur
On dit que Xn converge presque surement vers X si
P(lim(n->+8) Xn=X) = 1
ou de manière équivalente, s’il existe un sous-ensemble P-négligeable NCOmega tel que
Pour tout w dans OMEGA\N, Xn(w)->(n->+8) X(w)
On parle de convergence presque partout ou avec probabilité 1 ou forte, et on ecrit Xn->ps X
Lien entre la convergence en loi et presque sur
Si Xn converge vers X presque surement alors Xn converge vers X en probabilité (et donc en loi aussi).
Inégalité de Markov
Soit X une variable aléatoire réelle avec un moment d’ordre 1 fini. On a :
Pour tout t > 0, P(|X|>=t) <= E(X)/t
Soit X, Y deux v.a. indépendantes et de densité f et g alors X + Y est à densité, de densité :
(f ∗ g)(x) = Intégrale(-∞+∞) f(y)g(x − y)dy
Pour un vecteur gaussien X = (X1,…,Xd) de R^D. Qu’elle est la variance du vecteur gaussien ?
C’est la matrice ΓX = [Cov(Xi,Xj)] 1<=i,j<=d
Estimateur du maximum de vraisemblance principe
En statistique, l’estimateur du maximum de vraisemblance est un estimateur statistique utilisé pour inférer les paramètres de la loi de probabilité d’un échantillon donné en recherchant les valeurs des paramètres maximisant la fonction de vraisemblance.
Définition maximum de vraisemblance
Soit X une variable aléatoire réelle, de loi discrète ou continue, dont on veut estimer un paramètre theta. On note Dtheta cette famille de lois paramétriques. Alors on définit une fonction f telle que :
f(x;theta) : ftheta(x) si X est une VA continue et f(x;theta) = Ptheta(X=x) si X est une VA discrète.
ftheta(x) représente la densité de X (ou theta apparaît) et Ptheta(X=x) est la probabilité discrète (ou theta apparait).
On appelle vraisemblance au vu des observations (x1, …, xn) d’un n-échantillon iid selon une loi f(.;theta) de la famille Dtheta le nombre :
L(x1,…,xn;theta) = f(x1;theta)x…xf(xn;theta)
On cherche à trouver le maximum de cette vraisemblance pour que les probabilités des réalisations observées soient aussi maximum. Ceci est un problème d’optimisation. On utilise généralement le fait que si L est dérivable (ce qui n’est pas toujours le cas) et si L admet un maximum global en une valeur theta = ^theta, alors la dérivée première s’annule en theta = ^theta et la dérivée seconde est négative. Réciproquement, si la dérivée première s’annule en theta = ^theta et que la dérivée seconde est strictement négative en theta = ^theta, alors theta = ^theta est un maximum local de L(x1,…,xn;theta). Il est alors nécessaire de vérifier qu’il s’agit bien d’un maximum global. La vraisemblance étant positive et le logarithme népérien une fonction croissante, il est équivalent et souvent plus simple de maximiser le logarithme népérien de la vraisemblance (le produit se transforme en somme, ce qui est plus simple à dériver). On peut facilement construire la statistiqueYn=THETA qui est l’estimateur voulu.