STATISTIQUES Flashcards
MESURES DE DISPERSION
L’étendue est définie comme la plus grande donnée moins la plus petite. C’est une mesure de dispersion très simple, mais peu informative
L’étendue interquartile (EIQ) est une mesure de dispersion qui est égale à l’écart entre le premier et le troisième quartile (on discutera ce point un peu plus tard dans le cours).
L’écart-type de la population est noté σ et l’écart-type de l’échantillon est noté s.
La variance est une mesure de dispersion qui nous renseigne sur la distance entre les observations et leur moyenne. Plus la variance est faible, plus les données sont concentrées autour de la moyenne.
MOYENNE
La moyenne est :
Mesure de centralité la plus utilisée.
Seulement utilisable pour des variables quantitatives.
Influencée par les valeurs extrêmes : une seule donnée très grande (ou très petite) peut occasionner un grand changement dans sa valeur.
Lorsque les valeurs prennent la valeur 0 ou 1, la moyenne se nomme alors proportion.
La moyenne de la population est notée μ et la moyenne de l’échantillon est noté par xbarre.
MEDIANE
La médiane est définie comme le point milieu des données ordonnées.
Elle est le seuil tel qu’au moins 50 % des données lui sont inférieures ou égales et au moins 50 % lui sont supérieures ou égales.
Elle est moins utilisée et moins connue que la moyenne.
Elle peut être utilisée pour des variables qualitatives ordinales.
Elle est plus robuste que la moyenne (peu ou pas influencée par les valeurs extrêmes).
Elle est facile à interpréter.
QUANTILES
Le quantile de niveau α% d’un jeu de données est tel qu’au moins α% des observations sont inférieurs ou égales à cette valeur, et au plus (1- α%) des observations lui sont supérieurs.
Q1=25%
Q2=50%=MEDIANE
Q3=75%
EIQ: Q3-Q1
FORMULE: =PERCENTILE.INC(first line:last line,75%)
Exemple:
Au plus 25% des employés ont un salaire inférieur à 30200$ et au plus 75% des employés ont un salaire supérieur à 30200$
Au plus 75% des employés ont un salaire inférieur à 36775$ et au plus 25% des employés ont un salaire supérieur à 36775$
Environ 50% des employés ont un salaire compris entre 30200$ et 36775$.
BOXPLOT
Il nous faut:
Taille d’échantillon
- Ecart-type
- Etendu
- Moyenne
- Mediane
- Min
- Max
L =plus petite valeur dans les données n’étant pas plus petite que Q1-1.5*EIQ
U =plus grande valeur dans les données n’étant pas plus grande que Q3+1.5*EIQ
Toutes les valeurs hors de L à U sont considérées comme extrèmes.
SYMBOLS
Population Échantillon
Moyenne uxbarre
Proportion ppchapeau
Écart type σ s
xbarre = (x1+x2+x3+…+Xn)/n
pchapeau = (x1+x2+x3+…+Xn)/n
ECART TYPE : Racine carré de la variance
Determination de la taille d’un echantillon
Utiliser la calculatrice excel
Rentrer degré de confiance
Marge d’erreur
Ecart type
Dans le cas d’un proportion l’ecart type est egal à 0.5
INTERVALLE DE CONFIANCE
pour une moyenne
Utiler la calculatrice excel dans TEST_ET_INTERVALLES_MOYENNES
Niveau de confiance = 1-a
par ex: si niveau de confiance = 95%, alors a = 5%
( xbarre - marge d’erreur ; xbarre + marge d’erreur )
formule de la LOI.STUDENT.INVERSE sur Excel:
=T.INV.2T(a, n-1)
INTERVALLE DE CONFIANCE
pour une proportion
Utiler la calculatrice excel dans TEST_ET_INTERVALLES_MOYENNES
rentrer les données dans la catégorie Cas particulier d’une proportion puis retranscrire dans la catégorie Pour l’étude d’une moyenne
Niveau de confiance = 1-a
par ex: si niveau de confiance = 95%, alors a = 5%
( xbarre - marge d’erreur ; xbarre + marge d’erreur )
formule de la LOI.STUDENT.INVERSE sur Excel:
=T.INV.2T(a, n-1)
LOI NORMALE
UTILISER LA CALCULATRICE EXCEL CALCUL_PROBABILITÉ+QUANTILE_NORMALE ET STUDENT
Necessite
Moyenne
Ecart-type
et ou x est la donnée recherchée
L’ecart type de l’echantillon se calcule par Ecart-type/racine(n)
LORSQU’ON CHERCHE UN RESULTAT QUI EST AU MOINS,
on fait 1 - LOI NORMALE
LORSQU’ON CHERCHE UN RESULTAT QUI EST AU PLUS, ALORS CE N’EST PAS NECESSAIRE
THEOREME CENTRAL LIMITE
pour moyennes
PERMET DE CHERCHER D’AUTRES MOYENNES ET LEURS PROPORTIONS
ex: n = 36
Moyenne de la population = 3.1
ecart type = 0.4
EX: On cherche la probabilité que la moyenne de l’echantillon xbarre soit d’au moins 3 min.
Puisque que la probabilité est AU MOINS, on doit soustraire de 1
La formule est donc 1- loi normale(xbarre,moyenne u,ecart-type de l’echantillon.1)
ou
=1 - NORM.DIST(3,3.1,0.06667,1) = 0.933183085
il y a donc 93,32% de chances que la moyenne xbarre soit d’au moins 3min.
POUR CALCULER LES CHANCES QUE xbarre SOIT ENTRE 2 DONNÉES:
ex: entre 3 et 3.1
On calcule la probabilité de 3 et 3.1
NORM.DIST(3.1,3.1,0.06667,1) - NORM.DIST(3,3.1,0.06667,1)
- 5 - 0.066816915
- 4332
Il y a donc 43.32% de chances que xbarre se trouve entre 3 et 3.1
INTERVALLE DE CONFIANCE LORS D’UNE COMPARAISON D’ECHANTILLON
LORSQU’ON CHERCHE À COMPARER 2 RESULTATS D’ECHANTILLONS, ON PRÈFÈRE COMPARER LEURS INTERVALLES PLUTÔT QUE LEUR MOYENNE POUR PLUS DE PRECISION.
ex: echantillon A et b sont:
(6. 25;7.27) à 95% et (7.40 et 7.89) à 95%
Si les intervalles ne se rencontrent pas. les chances que la moyennes soit partagée est nulle
Si les intervalles se rencontrent, la chance que la moyenne soit partagée est non-nulle, mais on ne peut pas infirmer ou affimer qu’elle est partagée.
MAIS
L’INTERVALLE GLOBAL SERA TOUJOURS INFERIEUR À 95%
Pour lire la situation avec un intervalle de confiance de 95%, il nous faut 1 seul intervable possible. On soustrait donc les deux intervalles avec l’un et l’autre.
(-1.15;-0.62)
Si zero n’est pas compris, alors la difference de la moyenne de chaque intervalle ne peut pas être egale à zero et ne peut donc pas être la même valeur. Si zero se trouve dans l’intervalle. alors il est possible que ls moyennes soient de même valeur.
LORSQUE LES MOYENNES NE PEUVENT PAS SE RENCONTRER ALORS ON DIT QUE LA DIFFERENCE EST SIGNIFICATIVE