Cours 4 Flashcards
Lorsque l’on teste pour la présence de données extrêmes multivariées, quels sont les conditions d’utilisation de la distance de Mahalanobis et de Cook?
1. Distance de Mahalanobis (levier)
Valeur critique selon une distribution du chi-carré avec ddl = m (nombre de prédicteurs) et alpha = .001 Donc, valeur critique = 16.27 (i.e., distance supérieure à cette valeur indique un outlier)
2. Distance de Cook (influence)
Valeur critique supérieure à 1
Lorsqu’on vérifie le postulat de multicollinéarité, nous utilisons un indice de tolérance, le VIF et la variance de chaque prédicteur. Quels sont les critères d’utilisation?
1. Indice de tolérance (0 à 1, 0 = problème!)
1 – variance entre les prédicteurs
1 – SMC (squared multiple correlation)
2. VIF =variance inflation factor (< 10)
VIF = 1 / (1 – R2) dans la prédiction de chaque VI en fonction des autres VI
- Si j’ai en bas de 10, tout va bien. Si j’ai au dessus de 10, j’ai un problème de collinéarité. Si j’ai 10, la tolérance doit être à .1 donc très basse! Forte corrélation entre les variables*
- *3. Variance de chaque prédicteur** (> 0.50 pour 2+ prédicteurs)
Que peut-on interpréter de ce tableau?
On voit les corrélations entre les VI, mais aussi entre les VI et la VD. Les prédicteurs entre eux sont quand même assez corrélés.
Que peut-on interpréter de ce tableau?
R: Racine carré de R2. C’est la corrélation entre les valeurs prédites et observées de la VD. Un R ne peut pas être négatif/positif. On ne peut donc pas donner de sens à la corrélation. C’est pour ça qu’on utilise R et pas r (car r = corrélation de Pearson et il peut être positif/négatif).
- *R2:** C’est une statistique qui nous aide à qualifier le % de la VD expliqué par les VIs. Donc ici 70% de la valeur VD est expliqué par les 3 VI.
- *R2 ajusté:** Puisqu’on travaille avec seulement 6 observations, le R2 est très fortement ajusté. Après ajustement pour la taille d’échantillon, les 3VI expliquent 26% de la variation de VD.
- *St error of the estimate:** Un genre d’écart type de nos VD estimé par le modèle. Peut servir pour certains calculs de puissance
.
DONC avec ce grapique, on sait qu’on explique 70% de la variance de VD avec mes VI, mais on ne sait pas si c’est significatif
Que peut-on interpréter de ce tableau?
B: Coefficient brut de régression. La moyenne de la VD va monter de B quand la VI monte de 1.
Constante B: Ordonnée à l’origine (y quand tous les x = 0).
Coeff standardisé: Coefficient brut/échelle mesure. Poids comparatifs des VI. La moyenne de la VD va monter de B quand la VI monte d’un score z. On peut dire que Grade à la plus grande influence et arrive en premier dans l’ordre de contribution. Pour chaque augmentation d’un score z de la Motiv, on va
augmenter de .32 la VD.
B/Std. Error = t
t et sig: Attribuable aux coefficients non standardisés et standardisés (transformation linéaire). Ici on voit qu’il n’y a aucune signification.
Zero-order: Corrélation brute. C’est le maximum de corrélation que je peux avoir, s’il n’y a aucun autre compétiteur de prédicteur (VI). Ici, je peux avoir jusqu’à 58% de corrélation entre VD et motiv.
Partial: Corrélation partielle.
Part: Corrélation semi-partielle (toujours plus petite que contribution partielle).
Ce sont des corrélations, pas des % ! Donc, si on veut avoir les SR2 (% de variance expliqué), il faut les mettre aux carré. Ici, Motiv (.291 au carré = .09), Qual (.178 au carré = .03), Grade (.248 au carré = .06) doivent être additionnés et leur contribution unique sera de 18%.
SI je regarde chacun des prédicteurs, j’obtient seulement 18% de variance de la VD expliqué par les VI. P par contre, le R2 général est de 72%. Où est le 50% qui manque? C’est la variance qui n’est pas assigné à un prédicteur en particulier (donc partagé entre 1-2-3 prédicteurs).
Que peut-on interpréter de ce tableau?
Sum square: Somme de carré
df: Degré de liberté (Régression = Nombre de prédicteurs ; Résiduel = Nombre d’observations (n-1))
Somme de carré / df = Carré moyen
Mean square: Carré moyen
Carré moyen régression/carré moyen résiduel = score F
Mon rapport F est de 1.573. Pour avoir sig, faudrait aller dans la table F avec les degrés de liberté régression et résiduel. Ici, on voit que la relation n’est pas significatif.
Donc bien que 70% de la variance de VD semble être expliqué par les VI, la relation est non signifcative (acceptation H0). Ce 70% n’est pas différent de 0.
Pourquoi est-il possible d’avoir un R2 élevé, mais une relation non significative quand même?
Bien que le R2 est élevé, l’échantillon est tellement petit qu’on peut pas dire que la relation est significative. Si il y avait plus de participants, il y aurait bonne chance que la relation soit significative. Si on n’avait pas d’association général, on arrêterait là.
Qu’est-ce qu’on peut interpréter de ce tableau?
Ce graphique est un bilan des résidus. Normalement, ces colonnes ont été ajoutés à la base de données une fois SPSS lancé.
Ici notre modèle prédit 17.57 pour compr (18) si motiv est 14, grade est 19 et qual est 19 (voir base de donnée SPSS)
Qu’est-ce qu’on peut interpréter de ce tableau (qui est précisément lié à la régression “par bloc”)?
- *R square change:** Variation de R2. Ce bloc explique .344 de la variation de plus que le bloc précédent (modèle vide) ou .359 que le bloc précédent (Motiv). Donc ici on passe de .344 à .7 environ avec les deux bloc joints.
- *Sig F change:** Permet de savoir si le bloc ajoute une variation significative comparé au bloc précédent.
Qu’est-ce qu’on peut interpréter de ce tableau (qui est précisément lié à la régression “par bloc”)?
Est-ce que le % de variance expliqué par le premier bloc (0.344) est différent de 0 , est-ce que le % de variance expliqué par l’ajout du second bloc (variation de R2; 0.702) est différent de 0 (Bloc 1 et 2).
Pourquoi le bêta standardisé de ce tableau diminue avec l’ajout du second bloc de VI?
Qu’est-ce qu’on peut interpréter de ce tableau (qui est précisément lié à la régression “par bloc”)?
Quand le prédicteur est seul dans le modèle, le bêta sera notre coefficient de corrélation. Lorsque d’autres variables sont dans notre modèle (bloc 2), le Bêta va diminuer car les variables seront en compétition.
À quoi sert ce tableau?
Vérifier le postulat de normalité.
On voit que l’asymétrie est positive mais très forte ainsi qu’une forte kurtose positive. On voit que la distribution de la VI n’est pas continue donc on pourrait utiliser une distribution de Poisson.
À quoi sert ce tableau?
À vérifier le postulat de normalité.
Histogramme: On voit que c’est une distribution de Poisson et non une distribution normale
Normal Q-Q plot: On voit que les données réelles sont loins de ce qui est prédit
Detrended Normal Q-Q Plot: Même graphique que le “normal Q-Q plot”, mais en fonction de la différence entre les valeurs prédites et réelles. On voit qu’il y a beaucoup d’erreurs.
Observed value: On voit qu’il y a beaucoup de données à l’extérieur de ce qui est “moyen”
À quoi sert ce tableau?
À vérifier le postulat de multicollinéarité.
- *Tolérance:** Inverse de ce que je qualifie de corrélation entre les prédicteurs. Plus la corrélation va être élevée, plus la tolérance va être petite. Plus la tolérance se rapproche de 0, plus on a un problème (plus de corrélation entre VI donc overlap).
- *VIF:** Variance inflation factor. Favoriser cette mesure au dessus de la tolérance. Si égal/au dessus de 10, problématique (redondance entre les prédicteurs)
À quoi sert ce tableau?
À vérifier le postulat de normalité de distribution.
Histogramme des résidus standardisés de la variables dépendantes (Indice: Histogramme centré à 0, un résidu est centré à 0).
Ici, on observe que les résidus sont très normalement distribués.