8. Relations entre variables numériques: corrélation Flashcards
2 type d’hypothèses étudiées en statistique inférentielle
- Pour savoir si DIFFÉRENCE entre groupes de données
Ajustement χ^2 : proportions d’échantillons
t-test : moyennes 2 écanchtillons
Shapiro-Wilk : distribution échanitllon vs distribution normale
Rangs signés Wilcoxon : moyennes si violation conditions t-test
ANOVA : moyennes >2 échanitllons - Pour savoir si RELATION entre 2 variable ou +
Test indépendance χ^2
Test Pearson
Test Spearman
Série statistiques doubles
Déf : analyse simultané 2 variable mesuré sur même unité échantillonnage
Au moins une variable aléatoire;
- 1 aléatoire/1 contrôlée
Ex : production chrlorophyle/éclairement
- 2 aléatoires
Ex : récolte maïs/nombre jour ensoleillé
Variance
Représente moyenne des carrés des écarts par rapport moyenne groupe
Formule : S^2 = ∑ ((yi − Y¯)^2) / (n − 1)
Retir 1 degré de liberté pour corriger biais dû estimation (Y¯)
Covariance
Permet quantifier force/direction (+ ou -) de association entre 2 variables numériques
Formule : ℂov (X,Y) = (1 / n−1) * ∑ (xi − X¯)*(yi − Y¯)
Vs variance : pas carré écart pour une variable
Peut être négative ou positive
- Élevé/positive -> déviation X et Y varie ensemble
- Élevé/négative -> déviation X et Y varie façon opposé
- Nulle -> X et Y varie façon indépendante
Remarques
- Cov commutative : ℂov(X,Y) = ℂov(Y,X)
- X¯ et Y¯ ont même n
Corrélation Pearson
Unité covariance pas intuitive
Permettent pas bien visualier relation
-> Utilise coefficient corrélation Pearson (rxy)
Coefficient corrélation Pearson : standardisation covarience avec écarts-types échantillon
Formule : rxy = ℂov(X,Y) / (Sx * Sy) = ∑(xi − X¯)(yi − Y¯) / √(∑(xi − X¯)^2) √(∑(yi − Y¯)^2
Si X = Y -> ℂov (X,Y) = Sx * Sy
Obtien rxy = 1
Varie entre −1 ≤ rxy ≤ 1
- rxy = -1 -> varie proportions exactement opposées (corréalation parfaite négative)
- rxy = 0 -> aucune corrélation (indépendante)
- rxy = 1 -> varie exactement mêmes proportions (corréalation parfaite positive)
Remarques : corrélation Pearson
Utilise parfois ρ (rho) pour resprésenter
Coefficient corrélation = mesure dépendance linéaire
rxy/ρ mesure si X et Y varie ensemble, pas combien X et Y varie
Régression linéaire permet calculer combien
Procédure calcul coefficient corrélation Pearson (rxy/ρ)
- Analyse primaire données
Permet visualiser relation entre 2 variables -> donne idée linéarité relation
Avec : plot () -> fait scatter plot - Calcul coefficient corrélation
Manuellement ou avec cor ()/cor.test () - Test d’hypothèse
H0 : pas lien/relation (ρ=0)
H1 : lien/relation (bilatéral, ρ≠0) ou varient ensemble/opposé (unilatéral, ρ>0/ρ<0)
Fixe α
Statistique de test t -> formule : t = rxy/SEr où SEr = √ (( 1 − rxy^2) / ( n − 2 ))
Trouve t crit selon dl = n-2 et α - Conlusion
Avec t crit/t cal ou p-value
Conclusion test corrélation Pearson
Avec t crit/t cal : rejet H0 si ou | tcal | > tcrit
Avec p-value : rejet H0 si p-value < α
Intervalle de confiance doit pas inclure 0 pour conlure corrélation
Donne idées conclusion (permet présumer)
Conditions applications Pearson
- Échantillonnage indépendant/aléatoire
- Mesures X et Y suivent distribution Normale bivariée
Donc, X/Y individuellement distribuée normalement et relation linéaire entre
Très sensible présence valeurs extrêmes/aberrantes (outliers)
Doit tester normalité avec Shapiro-Wilk
Violations conditions applications
- Ignore violations
Peut parfois rejeter valeurs extrêmes si issues erreurs ou non importantes
Peut conserver si désire aussi - Transforme données (log, racine carré, arcsin)
Peut appliquer juste une des 2 distributions -> ex : si juste une par Normale - Utilise statistique/test non-paramétrique : coefficient corrélation Spearman
Sensibilité valeurs extrêmes : Pearson
Mesures corrélation faites avec coefficient Pearson très sensibles valeurs extrêmes
2 valeurs extrêmes suffisantes réduire grandement coefficient
Rapidement impossible rejeter H0 : corrélation pas différente de 0 (ρ = 0)
Soit p-value > α, intervalle confiance inclu 0 et rxy bas
Doit utiliser coefficent corrélation Spearman
Coefficient corrélation Spearman
Travail sur rangs
Beaucoup moins sensible valeurs extrèmes
Valeurs rxyS demeurent stables malgré outliers
Même formule que Pearson mais sur rangs
Formule : rs = ∑(Ri − R¯)(Si − S¯) / √(∑(Ri − R¯)^2) √(∑(Si − S¯)^2
Même interprétation que Pearson : −1≤ ρs ≤ 1
Procédures : test hypothès r de Spearman
- Pose H0/H1
H0 : pas relation/corrélation (ρs = 0)
H1 : lien/relation (bilatéral, ρs ≠ 0) ou varie ensemble/opposé (unilatéral, ρs > 0/ρs < 0) - Fixe α
- Statistiques des test -> 2 possibles
Nombre total obersation n < 100 : compare rscal à rscrit (table de Spearman)
Nombre total obersation n > 100 : calcul t avec rs - Conclusion
Compare rscal/rscrit ou tcal/tcrit
Conditions appilcations Spearman
- Échantilonnage indépendant/aléatoire
2. Mesures X/Y ont relation linéaire
Matrice de corrélation
Recense valeurs coefficient corrélation entre multiples variables mesurées lors même échantillonnage
Pour n variable (n*(n -1 ))/2 coefficients
Diagonale matrice toujours 1 -> corrélation vairable avec elle-même
Symétrique -> rempli juste partie supérieure ou inférieure
Utile analyse régression multiples lors colinéarité entre diverses variables explicatives est problématique