Méthodes D'estimation Flashcards
Que permet un sondage?
La plupart du tps, les paramètres de la population (μ,σ,π) sont généralement inconnus
Pour cela, on va réaliser un sondage pour générer un échantillon.
Le sondage permet d’extraire un échantillon de la population.
=> Comme échantillon est fini, on peut faire des estimations en calculant m,s et p
Lien entre la moyenne m et la moyenne μ
La moyenne m (échantillon), est une estimation ponctuelle de la moyenne µ (population). Donc si l’échantillon est tiré au hasard et de taille suffisante, m est proche de la valeur exacte de u dans la population. Mais il est presque impossible que les indicateurs de l’échantillon soit égal aux indicateurs de la population. Si c’est le cas on est face à un sondage aléatoire simple (SAS).
Il faut donc que notre échantillon soit le plus représentatif de la population.
On définit d’abord une population caractérisée par deux paramètres
- la moyenne μ
- l’écart type σ
A partir d’une population, on peut faire des estimations sur des échantillons issus de cette population = … ( 2 synonymes)
Raisonnement déductif ou afférence
Les paramètres de l’échantillon sont représentés par
M la moyenne
S l’écart type
P pour la proportion
Def raisonnement inductif
On ne dispose pas d’info sur la population. On se base alors sur des échantillons pour déterminer des infos sur la population.
=> C’est le raisonnement inductif
Il existe deux méthodes d’induction
Les estimations
- ponctuelles
- par intervalles de confiance
Les tests statistiques
Le raisonnement déductif se base sur
Des afférences statistiques
Le raisonnement inductif se base sur
Des inferences statistiques
1er type d’inférence statistique
L’estimation
Estimation ponctuelle ( on cherche à déterminer… à partir d’un outil appelé… qui va nous permettre…)
On cherche à déterminer la valeur la plus raisonnable possible pour un paramètre inconnu (μ.σ.π). Pour cela, on utilise un outil = l’estimateur qui va nous permettre de calculer la valeur à partir de l’échantillon l’estimation
Estimateur
Formule generale
Estimation
Résultat
Un bon estimateur doit être
Convergent: lorsque n (le nombre de personne) tend vers l’infini, l’estimation se rapproche de la véritable valeur. Disons que les valeurs se « regroupent » autour de la véritable valeur.
Sans biais/ Non-biaisé: l’espérance mathématique de l’estimation correspond à la véritable valeur.
Efficace: l’estimateur est de variance minimum, c’est-à-dire que l’estimateur donne des valeurs avec un faible écart.
Préférence estimateur/variance
On préférera un estimateur biaisé avec une petite variance à un estimateur sans biais avec une grande variance. Il est aisé d’appliquer un facteur correctif au premier afin de supprimer le biais.
Estimateur de la moyenne sur l’échantillon
m = (Sigma(x))/n
Estimateur de la probabilité pi sur l’échantillon
p = k/n
Estimateur de la variance sur l’échantillon
Variance estimée s²
= Sigma * (xi - m)² / (n - 1)
( n - 1) = Degré de liberté
Pour VA qualitative binaire ( Bernoulli)
Paramètre inconnu en population : Probabilité π
Estimateur sur l’échantillon
p = n1 / n1 + n0
Estimation par intervalle de confiance ( IC)
L’estimation par intervalle de confiance commence par une estimation ponctuelle. A partir d’une seule estimation du paramètre inconnu issue d’un échantillon, on détermine un intervalle entre la borne inférieur (BI) et la borne supérieure (BS). On accorde à cet intervalle un degré de confiance qui indique l’appartenance de la véritable valeur à l’intervalle.
Le degré de confiance correspond à
Le degré de confiance correspondant au nombre d’intervalles contenant la véritable valeur et non la probabilité pour un intervalle de détenir la valeur. Par exemple, pour un IC à 95%, si l’on faisait 100 intervalles, 95 contiendraient la vraie valeur
IC général et le plus fréquent
Pour le cas général, on parle d’IC à (1-0) ce qui correspond à la probabilité d’être à l’intérieur de l’intervalle.
IC le plus fréquent est à 95%, a, la probabilité de ne pas appartenir à cet intervalle est de 0,05, ainsi la statistique associée est 1,96. Si dans l’énoncé rien aucune valeur est donnée, on part du principe qu’on est dans le cas d’un IC à 95%. La statistique est retrouvée avec le tableau de la loi Normale centrée réduite (page 6).
La formule de calcul de l’intervalle varie en fonction de la situation.
m est une variable aléatoire et u une valeur fixe est inconnue.
Si j’extrais plusieurs échantillons de ma population, j’obtiens plusieurs m, qui peuvent varier. Mais si je prends un effectif d’échantillon assez grand (n≥ . . . ) , comme ma moyenne est une . . . , alors m suit une loi . . . A
Si j’extrais plusieurs échantillons de ma population, j’obtiens plusieurs m, qui peuvent varier. Mais si je prends un effectif d’échantillon assez grand (n≥30), comme ma moyenne est une somme, alors m suit une loi Normale.