Statistique UNI/BIV Flashcards
Univariée/multivariée
Une seule variable/plusieurs variables
Individu statistique
Objet qu’on observe à condition qu’il y en ai plusieurs, élément d’une population
Population statistique
Ensemble des individus statistiques, la population doit être homogène.
Distribution
Ensemble des populations
Caractère ou variable
Ce qui caractérise les individus. Exemple : population, superficie, PIB etc..
La variable peut être qualitative ou être quantitative.
Modalité
Valeur d’une variable pour 1 individu
Les types de données qualitatives
- Nominales = contiennent une notion de différence, aucun ordre
- Ordinales : contiennent une notion d’ordre non mesurable
- Discrètes : il y a moins de modalités que d’individus : hopital/région…
- Exhaustives : il y a autant de modalités que d’individus : Nom des pays/ Identifiant.
Les types de données quantitatives
- de stock : données brut : suprficie
- de taux : rapport/indice (chomâge, pop. active)
- discrètes : il y a moin de valeurs que d’individus : taille
de chaussures, taux de chômage discrédité - continues : nombre illimité de valeurs dans un intervalle : altitude, surface, superficie
- repérables : le zéro est conventionnel : température
- mesurables : le zéro signifie l’absence
Les types de tableaux
- élémentaire : il décrit un nombre d’individu par un nombre de variable. On note i la modalité que prend l’individu pour la variable x ce tableau est aussi appelé tableau de donnée géographique.
- de contingence : tableau élémentaire que l’on transforme.
- Tableaux à double entrée
- Tableaux disjonctif complet
Valeur centrale
résumer par une seule valeur l’ensemble d’une distribution : moyenne, médiane, mode
Limite : le résumé d’une distribution par 1 valeur ne renseigne pas sur la disposition des valeurs autour de cette valeur centrale. La dispersion statistique correspond à la tendance qu’ont les valeurs à ce répartir autour de valeurs centrales.
Médiane
valeur qui partage l’ensemble des valeurs en 2 effectifs égaux
Mode/classe modale
valeur la plus fréquente
paramètres de dispersion absolue
- étendue : valeur max - min L’étendue est un indicateur de la dispersion des valeurs de cette série statistique
- quartile : borne des classes en effectifs égaux
- écart absolue moyen : correspond à la distance moyenne à la moyenne
- écart-type : le plus utilisé, on le calcule en faisant la racine carré de la variance. Il permet une infos sur la répartition de la valeur des individus par rapport à l’écart type et le paramètre de disposition qui complète la moyenne à la médiane.
Variance
Correspond aux carrés des écarts à la moyenne. Mesure globale de la dispersion autour de la moyenne. Ce n’est pas un paramètre de dispersion absolue.
v(x)= 1/nSOMME
Paramètres de dispersion relative
- Le coefficient interquartile (CI)
CI= (Q3-Q1)/2
Coefficient de variation CV= Ecart-type/moyenne
Loi de Gauss
Probabilités de trouver des valeurs à la distance de la moyenne :
- 68% entre -1 et +1 de l’écartype
- 95% entre -2 et +2 écartype
- 5% entre -3 et +3
La contrainte des valeur absolue
c’est un mode de mesure par unité.
5 distribution
- unimodale (comme la courbe de Gauss)
- multimodale : travailler en sous groupe pour une bonne analyse
- symètre : répartition homogène
- dissymétrique à gauche : + dans les valeurs faible
- dissymétrique à droite : + dans les valeurs fortes
Vocab important
- variables qualitatives, variables quantitatives, partition en classe (méthode de discrétisation/dispersion), valeurs centrales, forme de la distribution, les dispersions.
Calcul paramètre de dispersion relatif
PDA
__________________________
VC
Relation statistique bivariée
La modification d’une variable va en modifié une autre
exemple : croissance altitude = baisse des températures
Limite : relation statistique ne suppose pas simplement une situation de causes à effets.
Résidu statistique
Quelque chose qui sépare un élément de la tendance générale.
Et dont les facteurs restent à déterminer.
Covariance
mesure qui permet d’évaluer si deux variables sont indépendantes ou pas et donner leurs relations
L’indépendance statistique signifie que la covariance est nul.
Formule = (xi - moy de x) * (yi - moy de y)
________________________
N (somme des individus)
- covariance positive/négative
- corrélation = intensité de la relation
Limite Covariance
nous dis rien sur. de l’intensité statistique. Impossible à interpréter car il n’est pas borné par une valeur. D’où passage à la corrélation qui permet de connaître/estimé l’intensité de la relation.
r = cov(x,y)
______
o * oy
coefficient de relation r = indice entre 0 et 1 plus on s’éloigne du 0 plus la relation est forte, plus on s’éloigne du 1 moins la relation est forte.
Significativité de la relation
On peut se demander si il y a des données suspect donc il faut prouver que les résultats ne viennent pas pas du hasard donc pour vérifier on procède à un test statistique -> le test de Bravais-Peason on part de l’hypothèse nulle H(0) ; choisir la marge d’incertitude ( environ égale 0,05) et je confronte le résultat.
Le test du Chi2
Consiste à mesurer l’écart entre une situation observée et une situation théorique et d’en déduire l’existence et l’intensité d’une liaison mathématique. En sciences sociales on utilise le test du Chi2 dans la même logique que celle appliquée au calcul du coefficient de corrélation linéaire pour des variables quantitatives : existe-t-il une liaison entre deux variables, si oui quelle est son intensité ? On confronte une situation observée et une situation théorique d’indépendance mathématique.
Standardisation des données
Centrage des données et réduction lorsqu’une distribution est très hétérogène. Elle permet de rassembler et comparer des choses aux caractéristiques différentes (on les mets sur un pied d’égalité) voir exemple des piesomètre.
Ecart à la moyenne/Ecart-type
Coefficient de Bravais Pearson
Permet de détecter la présence ou l’absence d’une relation linéaire entre 2 variables quantitatives continues
r (x,y) = COV(x,y) / q x qy) il varie de 1 à -1
3 cas de figure :
- si r = 0 pas de corrélation entre x et y
- si r = 1 corrélation forte entre les deux variable
- si r = -1 il y a une forte relation négative
Droite de régression
y = ax+b
a = cov(x;y) / (écartype x)²
b= moy Y - a moy X
Coefficient de détermination
R = r² Permet de donner une estimation théorique et d’en dégager les éventuelle résidus.