11. Extension des méthodes à plusieurs variables explicatives Flashcards
Principe modèles linéaires
Ensemble méthodes utilisées pour mesure réponse système à plusieurs variables
- 3 type de méthodes : 2-way ANOVA, régression mutiple, ANCOVA
3 types designs expérimentaux
- Blocking : améliore détection en répartissant aléatoirement source variabilité entre bloc
- Design factoriel : étudie impact 2/+ traitements et interaction
- Design ajuste variables confondantes : ajuste impact variable confondantes (covariables),
compare sur 2/+ groupes (match/adjust)
Pourquoi mesure plusieurs variables explicatives?
- Variable dépendante étudiée dépend souvent plusieurs variables explicatives
- Variable dépendante étudiée peut dépendre interactions variables explicatives
Donc plus utile/efficace mesurer plusieurs paramètre en même temps
Point commun ANOVA/régression
Implique variable réponse Y
Représenté avec modèle linéaire + terme erreur/résidu
Seule différence
- ANOVA : variables explicatives catégorielles/factorielles
- Régression : variables explicatives numériques continues
Peut utiliser lm() pour ANOVA et régression
- Visualise ANOVA avec summary.aov()/anova()
Modèle linéaire général (GLM)
Déf: Réponse = Constante + Variable
Formule : Yi = β0+ ∑(βj * xij) + ϵi
Où, β0 : contante, βj : paramètres variables explicatives, ϵi : erreur
Important
- Variable réponse toujours numérique
- Constante varie selon modèle (o.o pour régression, moyenne générale pour ANOVA)
- Variable explicative numérique ou catégorielle/factoriel(ANOVA) ou 2(ANOVA) -> effet
correspond pente
Tester significativité modèle linéaire
Compare performance à modèle nul/sans aucune variable explicative
Formule : Yi = β’i + ϵ’i
Amélioration fit modèle signifie plus variance Y expliqué quand tient compte relation entre variables explicatives X -> ϵ < ϵ′
Comparaison source erreur/résidu = comparaison variances -> utilise statistique F (F-ratio)
Ex : ANOVA/test global -> F mesure proportion variance Y expliquée par modèle linéaire global quand ajout termes variables explicatives vs modèle nul juste constante
Différentes forme de modèles
GLM peuvent représenter interactions variables explicatives -> produit effets variables
Formule : Réponse = Constante + Var1 + Var2 + Var1 * Var2
Syntaxe -> Y : réponse, μ : constante, Xj : variable explicative numérique, A/B : facteurs fixes, a/b : facteurs aléatoires
- Fixe : niveaux contrôlés
- Aléatoire : blocking/effet non contrôlé
Types de modèles linéaires
Y = μ +X -> régression linéaire
- Dose-réponse
Y = μ + X1 + X2 + X1 * X2 -> régression linéaire multiple
- Dose-réponse avec intéractions
Y = μ + A -> ANOVA 1 facteur (effet fixe, type 1)
- Randomisé
Y = μ + A + b -> ANOVA 2 facteurs (pas réplication)
- Blocks randomisés
Y = μ + A + B + A * B -> ANOVA 2 facteurs (effets fixes, type 2)
- Design factoriel
Y = μ + X + A -> ANCOVA
- Étude observationnelle
Conditions appilcation GLM
Pour chaque combinaison X;
- Échantillonnage Y aléatoire/indépendant
- Distribution Y normalement distribuée (normalité/linéarité)
- Variance Y indépendante X (homoscédasticité)
Utilise même méthode vérification -> ex : méthodes graphique avec résidus
Devrait obtenir;
- Nuage points ~symétrique autour ligne zéro -> normalité/homoscédasticité
- Absence tendance notable entre valeurs prédites -> relation linéaire/homoscédasticité
2-way ANOVA (ANOVA à 2 facteurs)
2 méthodes possibles:
- Expérience avec blocking
- Expérience avec design factoriel
Expérience avec blocking (2-w ANOVA)
Formule LM : Réponse = Constante + Block + Traitement
Donc, essaie expliquer variance Y par - Effet constante - Effet traitement - Effet répartition aléatoire unités échantillonnages dans blocs -> 1 chaque traitement/bloc Pas de réplicas
Dû 1 point/combinaison traitement-bloc -> pas possible estimer interaction entre termes
- Pas calcul variance entre points possible quand 1 point
Procédures : expérience avec blocking
- Définit résultat attendu
- Formule H0/H1
- H0 : Y moyen même pour tous traitements X
- H1 : Y moyen affecté par X - Formule modèles
- Modèle nul (H0) : Y = Constante + Blocs
- Modèle complet (H1) : Y = Constante + Blocs + X - Tableau ANOVA
- Doit intégrer blocking même si pas significatif -> partie intégrante design - Vérification conditions applications (plot () et 1,2,5)
- Conclusion (p-value < α -> rejet H0)
- Test post-hoc (quelles moryennes différentes)
Effet fixe vs effet aléatoire
Fixe : niveaux choisis par expériementateur
Aléatoire : niveaux pas définis/choisis par expérimentateur
Calcul variance ANOVA change selon fixe ou alétoire
R à utiliser change selon fixe/aléatoire
Expérience avec design factoriel
Formule LM : Réponse = Constante + TA + TB + TA × TB
Donc, essaie expliquer variance Y par;
- Effet constante
- Effet 2 traitements (TA + TB)
- Effet intéraction TA avec TB
Niveau traitement présent plusieurs fois pour chaque combinaison triatement -> réplicas
Procédure : expérience avec design factoriel
- Définit résultat attendu
- Formule hypothèse -> 3 jeux H0/H1 pour 2-w ANOVA
- Effet facteur A + Effet facteur B + Effet intéraction A-B sur Y - Formule modèles
- Modèle nul (H0) : Y = Constante + A + B
- Modèle complet (H1) : Y = Constante + A + B + A * B -> visualise avec figure synthétique - Tableau ANOVA
- Vérification conditions applications (plot () et 1,2,5)
- Conclusion (H0 seules et H0 intéraction)
- Test post-hoc -> possible mais interprétation compliquée/mal utile
Régression linéaire multiple
Extension régression linéaire simple
Modèle général : yi = β0 + ∑ (βj * xij) + ϵi
Où, βj : coefficients régression partielle variable explicative -> correspond pente régression Y sur X quand autres variables constantes
Régression reste linéaire même si transforme 1 variable -> explicative ou réponseà
Interactions variablex explicatives représentés par terme supplémentaire
Ex : y = β0 + β1 * x1 + β2 * x2 + β3(x1 * x2) + ϵ
Multicolinéarité
Possible coefficients seuls pas significatifs (test t) mais modèle oui (F-ratio)
- Variables Xij indépendantes de Y mais corrélées entre elles
Pas condition application mais doit vérifier
- Plus Xj corrélent ensemble, plus difficile calculer variance Y dû variance indépendnte
Donc quand multicolinéarité forte -> erreur standard β̂j grande
- Fort risque que intervalles β̂j permettent pas exclure par 0
Si colinéarité parfaite entre Xj -> paramètres Bj pas estimables
Utilise matrices corrélation pour vérifier -> test posteriori (refait régression si problème)
Choix meilleur modèle
Possbile certains βj pas significatifs, mais autres/régression globalement oui
Peut supprimer variable ou utiliser outils déterminer modèle respecte principe parcimonie
- Soit modèle moins complexe pour plus grand R^2 (pouvoir explicatif)
Ex : critère d’Information d’Akaike (AIC)
- Plus valeur faible -> plus modèle meilleur
Procédure : régression linéaire multiple
- Définit résultats attendus
- Formuler H0/H1
- Nombre dépend nombre variables -> 3 variables = 3x H0/H1
- Considère par intéractions par simplicité - Calculer β̂j (paramètres régression) et tester (p-value < 0.05)
- Vérifier colinéarité Xj -> recommencer 3 si besoin
- Utilise : Facteur Inflation Variance (VIF) - Séléctionner meilleur modèle -> recommencer 3 si besoin
- Avec stepAIC() de MASS - Vérifier conditions application avec résidus (plot (), 1,2,5)
- Évaluer pouvoir explicatif Xj sur Y avec R2
- R^2 > 0.5 = relation très forte en biologie/écologie
R^2 ajusté
Corrige inflation pouvoir explicatif induit par ajout variables explicatives
Pénalise variance expliquée par nombre variable modèle -> augmente pas toujours avec ajout variable
Formule : R^2 aj = 1 - (CMres/CMreg) = 1 - ( (SCres / (n-k)) / (Screg / (n-1)) )
Facteur d’Inflation de la Variance (VIF)
Valeur montre de combien variance β̂j surestimé par possible colinéarité
Ex : si VIF de β̂j = 4 -> erreur standard 2 (√4) fois plus grande que si pas colinéarité
- β̂j 2x plus grand nécessaire pour significativité
VIF > 4 mauvais signe
Utilise vif () du package car
Analyse de covariance (ANCOVA)
Cherche déterminer effet facteur sur variable réponse numérique eet permet calculer effet par contrôle effet autre variable continue de confusion -> covariable
Donc : ANCOVA = ANOVA * Régression
Utilise quand peut pas réduire influence covariable par blocking -> étude observationnelle
- Doit mesurer valeurs covariable et corriger après
H0 : facteur pas influence sur moyenne variable quand covariable corrigée
H1 : facteur effet sur variable quand covariable corrigée
Modèle linéaire : Réponse = Constante + Covariable + Facteur
ANCOVA : indépendance facteur-covariable
Doit assurer absence intéractions entre covariable et facteur
Vérifier significativité : Réponse = Constante + Covariable + Facteur + Covariable * Facteur
Visuellement : absence = pentes droites régression entre Y-covariable égales dans chaque groupe
Donc ANCOVA sert tester égalité pente régression entre Y-X différents groupes
Procédure : ANCOVA
- Définit résultat attendu
- Formule H0/H1
- Vérifie intéraction facteur-covariable
- Avec ANCOVA dans tableau ANOVA - Vérification condition applications (plot (), 1,2,5)
- Conclusion (p-value < α -> rejet H0)
- Permet savoir si significtif après correction
- Peut visualiser avec figure synthétique