Stat descriptive Flashcards
caractéristiques de position
ONLY pour variables quantitatives moyenne médiane mode quantiles
def médiane
50% des valeurs lui sont sup ou égales
ou 50 % des valeurs lui sont inf ou égales
médiane dans tableau de valeurs
1ère valeur dont l’effectif cumulé atteint ou dépasse la moitié de l’échantillion
mode
valeur la + fréquente
peut y avoir 1, 2 ou +ieurs modes
centiles
ième centile est la valeur telle que i% des valeurs lui sont inf et (100-i)% lui sont sup
déciles
9 valeurs qui partagent distrib en 10 sous ensemble
quartiles
3 valeurs qui partagent en 4 parties égales
intervalle IQ
= Q3-Q1
correspond à 50% des obs autour de la médiane
caractéristiques de dispersion
traduisent l'écart à la moyenne ONLY pour variables quantitatives variance écart-type coeff de variation étendue
variance s²
- moyenne des carrés des écarts à la moyenne x(i) - m
OU - moyenne des carrés - le carré de la moyenne
unité: (unité moyenne)²
toujours positive ou nulle
écart type √s² = s
racine carré de la variance
unité de la moyenne
toujours positif ou nul
coeff de variation cv
cv = écart type/ moyenne = s/m
ø unité
comparer variabilité de 2 variables
étendue ou amplitude
= valeur max - valeur min
distrib normale ou gaussienne
courbe en cloche
toujours symétrique et unimodale
moyenne, mode, médiane confondus = valeur centrale
sensibles aux valeurs extrêmes
moyenne
variance ou écart type (encore + que m)
peu sensibles aux valeurs extrêmes
médiane
quantiles
mode
intervalle IQ
représentations variables quantitatives continues
histogramme
pyramide des âges
box plot (moustache)
histogramme: intervalle de classe
- intervalle de classe constant: effection en ordonnée
- intervalle non constant: valeurs en ordonnées non # à l’effectif DONC ø effectif en ordonnée
histo: polygone des fréquences
ligne qui relie le milieu des sommets de chacun des rectangles → obtention allure
pyramide des âges
- répartition par sexe et par âge de la population
- constitué de 2 histogrammes (un pour chaque sexe)
boîte à moustaches
représentation bi-variée (2 variables)
représentation de +ieurs distrait sur un même schéma afin de les comparer
MAIS diff signification établie only w/ test statistique
diagramme en bâtons
quantitatives discrètes
pas de notion de surface
variables quantitative mise en classe
= perte d’info
calculs statistiques possibles MAIS approximations
centre de la classe
ci = borne inf + (borne sup - borne inf)/ 2
classe médiane
1ère classe dont la fréquence cumulée Fm+1 égale ou dépasse 50%
représentations variables qualitatives
graphiques univariés:
- diagramme sectoriel
- diagramme en barres
diagramme sectoriel
w/ histo traduisent effectifs par surface
diagramme en barres
largeur n’a aucune signification
test de conformité
pour savoir si distribution observée est conforme à une distrait théorique
distrib variables quantitatives: lois de probabilité
discrètes ou continues
uniforme, binomiale, poisson, student…
étude dépendance entre 2 variables
- tableau de contingence → ex: les test diagnostiques
- nuage de points
- courbe de survie
sensibilité
probabilité d’avoir test + si malade
VP / VP + FN
spécificité
proba d’avoir test - si non malade
VN / VN + FP
VPP
proba d’ê malade si test +
VP/ VP + FP
VPN
proba d’ê sain si test -
VN/ VN + FN
nuage de points
dépendance entre 2 variables quantitatives appariées cad mesurées simultanément
n individus → n points
2 approches: corrélation vs régression
corrélation
X et Y sont interchangeables: mê rôles
coeff de corrélation linéaire r
régression
X et Y ø interchangeables: rôles ≠
paramètre du modèle f(X), X peut ê controlé
covariance
caractéristique de dispersion très utilisé dans étude simultanée de 2 variables
covariance(x,y) = (∑ x(i) x y(i)/ n) - (∑ x(i) x ∑ y(i))/ n²
positive, négative ou nulle
courbe de survie
étude de la survenue d’un événement
étude dur T
sujet suivi pendant t(i) avec t(i) ≤ T