Cours 9 - La régression multiple II Flashcards
3 approches à la régression multiple
1 - Algèbre scalaire
2 - Algèbre matricielle
3 - Étude basée sur les sorties d’ordinateur
Régression multiple - Définition
Équation de régression pour prédire une variable Y avec p prédicteurs x1,x2,x3… xp
Équation d’une régression multiple
Ychapeau = b0 + b1x1 + b2x2 + ….. bpxp
Régression simple vs multiple
La régression simple est utilisée pour modéliser la relation entre une variable dépendante et une seule variable indépendante, tandis que la régression multiple est utilisée pour modéliser la relation entre une variable dépendante et plusieurs variables indépendantes. La régression multiple permet de mieux modéliser la relation, mais elle peut être plus complexe à utiliser et à interpréter que la régression simple.
Coefficients de régression standardisés
Permettent la standardisation des coefficients de régression pour tenir compte de l’écart type des variables
Coefficients bêta ; utilité
permettent de comparer l’importance (la contribution) de chacune des variables indépendantes à la prédiction de la VD
Erreur standard - définition en lien avec les coefficients
Un indice de précision des coefficients de régression donnés pour chaque prédicteur. C’est un estimé de l’erreur type de la distribution d’échantillonnage (permet de faire des tests-t sur la valeur des coefficients de régression)
Coefficient de régression multiple R - Défintion
Permet de mesurer la force et la direction de la relation linéaire entre une variable dépendante Y et plusieurs variables indépendantes X1, X2, …, Xn dans un modèle de régression linéaire multiple.
R2 - Définition
Estimateur biaisé, il faut prendre le R2 ajusté qui prend en compte le nombre de prédicteurs et le N
Quel principe doit on respecter le plus possible avec la construction d’équation de régression?
LA PARCIMONIE ; il faut choisir les meilleurs VI pour la prédiction de la VD pour en avoir le moins possible. On teste donc différents modèles de régression
2 approches de construction les plus populaires?
Directe (enter) et pas à pas (stepwise)
Approches de construction des équations de régression
Direct ; toutes les variables sont entrées en une étape
Par entrée successive ; 1er modèle a 1 variable, 2e en a deux, etc etc
Par élimination des variables ; 1er modèle à toutes les variables, on en enlève une à une par la suite
Pas à pas ; On enlève ou on insère une variable selon un critère statistique à chaque modèle jusqu’à ce qu’il n’y ait plus de différence significative
Que permettent les critères d’ajustement?
Comparer différent modèles en tenant compte du nombre de paramètre et de l’ajustement du modèle (R2) pour trouver le meilleur modèle
AIC : Akaike information criterion - Définition
L’Akaike Information Criterion (AIC) est une mesure de qualité d’ajustement d’un modèle statistique, qui permet de comparer différents modèles de régression en termes de leur capacité à expliquer les données observées, tout en pénalisant les modèles qui ont une complexité excessive.
l’AIC peut être utilisé pour sélectionner le meilleur modèle parmi un ensemble de modèles candidats qui diffèrent par leur nombre de variables explicatives, leur forme fonctionnelle, ou leur structure. Le modèle avec le score AIC le plus faible est considéré comme le meilleur modèle, car il minimise la somme des carrés des résidus, tout en évitant la surajustement.
Conditions d’utilisations de la régression multiple
- Linéarité de la relation
- Homoscédasticité des résidus
- Indépendance des résidus
- Normalité des erreurs : résidus
- Absence de valeurs extrêmes
- Absence de multicolinéarité (et de singularité)