Test 2 Flashcards
On utilise la régression linéaire multiple dans quel situation
b
a quoi serve les coefficients de régression standardisés
permette de standardiser les coefficients de régression pour prendre en compte les écarts-types des variables.
appelés les coefficients béta, ils permettent de comparer l’importance de chacune des variables indépendantes à la prédication de la VD
a quoi sert l’erreur standard des coefficient de régression
c’est un indice de la précision des coefficients de régression.
C’est un estimé de l’erreur -type de la distribution d’échantillonnage
Il permettent de faire des test-t sur la valeur des coefficient de régression.
Whats la variance résiduelle
la variabilité non expliqué par l’équation de régression
C’est la somme des différences entre les valeurs observées et les valeurs prédites au carré
Le coefficient de régression multiple R
C’est la corrélation entre, d’une part, la variable
dépendante (Y) et, d’autre part, la meilleure
combinaison linéaire des prédicteurs
R2 donne le pourcentage de variance expliqué
Le R2 ajusté
R2 est un estimateur biaisé
§ C’est pourquoi il est préférable d’utiliser un R2 ajusté
(R*2) pour prendre en compte le nombre de prédicteurs et le N
La construction des équations de régression
nous voulons généralement avoir le
modèle le plus parcimonieux – un modèle qui offre la
meilleure prédiction avec le plus petit nombre de
prédicteurs
Il faut donc choisir les meilleurs VI pour la prédiction de notre VD
on test different modèles de régression (avec different prédicateurs) pour déterminer le meilleur modele
Les critères d’ajustement
Ils permettent de comparer différents modèles en
prenant en compte le nombre de paramètres et
l’ajustement du modèle (R2) afin de trouver le
« meilleur » modèle
C’est quoi qui arrive a la variance de l’échantillonnage lorsque le N est grand
elle est petite
la moyenne de la population se resserre autour de la moyenne
Les tests paramétriques
Tests statistiques permettant de faire des inférences sur
la population lorsque les caractéristiques de la distribution
d’échantillonnage sont connues (généralement une
distribution normale)
Basé sur le théorème de la limite centrale
Les tests non paramétriques
§ Tests statistiques qui ne demandent pas que la forme
et les paramètres de la distribution d’échantillonnage
soient connus
§ Nous parlons de tests indépendants de toute
distribution
§ Il sont moins puissants – (1- b), la probabilité de
conclure correctement sur l’hypothèse alternative
(ce que je veux démontrer)
Le ré-échantillonnage
Technique computationnelle qui permet d’estimer la
forme et les caractéristiques de la distribution
d’échantillonnage sans postuler une distribution
particulière
Il s’agit d’estimer le paramètre qui nous intéresse un
grand nombre de fois à partir de tirages répétés d’un
grand nombre « d’échantillons »
§ Nous ne disposons que d’un seul échantillon
représentatif de la population
§ La procédure vise à créer un grand nombre de
« nouveaux » échantillons en faisant des tirages
aléatoires avec remise à partir de notre échantillon
§ Notre échantillon forme une pseudo-population
§ En faisant des tirages avec remise, nous créons un
grand nombre de pseudo-échantillons qui permettent
d’estimer la statistique un grand nombre de fois et de
reproduire la distribution d’échantillonnage
Approche bootstrap
Permets de faire des tests d’hypothèse sans postuler
une distribution d’échantillonnage
§ Peut être utilisée dans un grand nombre de techniques
statistiques et notamment la régression multiple
Cet intervalle de perceptible n’inclut pas la valeur zéro (0), nous
rejetons Ho et adoptons H1 pour conclure que r ≠ 0
Inconvenients de la methode bootstrap
Nécessite un échantillon pleinement représentatif
(idéalement probabiliste)
§ Différents essais peuvent donner des résultats
différents et (donc) parfois ambigus
§ Ne s’applique pas aux méthodes statistiques plus
complexes
L’ANOVA
Elle permet de tester des différences de moyennes
(comme le test-t), mais sans restriction quant au nombre
de moyennes testées
Permets de tester les effets de plusieurs variables
indépendantes (facteurs ou critères de classification) et de
vérifier les interactions
A quoi sert l’analyse anova
vise à déterminer si la
variabilité naturelle (variabilité d’erreur ou effet du hasard)
permets d’expliquer la variabilité observée entre les
échantillons (ou les mesures).
Test-F
Nous utilisons un test-F (F de Fisher) pour comparer deux
sources de variance:
Sous l’hypothèse nulle - c’est-à-dire pas d’effet autre que le
hasard - la valeur du test devrait être près de 1
Lorsque le test-F dépasse une valeur critique, nous
rejetons l’hypothèse nulle et concluons à une différence
significative de moyenne, car la variabilité entre les
échantillons est plus grande que la variabilité naturelle
La logique de l’anova
S’il n’y a que le hasard qui joue, ces deux variabilités
devraient être approximativement égales
si la variabilité entre les échantillons est
significativement plus grande que la variabilité intra
échantillon, il faut conclure qu’il y a autre chose que le
hasard qui joue et qui provoque des différences de
moyennes entre les échantillons
Pourquoi transformer les SC en CM
pour prendre en
compte le nombre d’éléments qui entre dans chacun des
calculs. Pour ce faire, nous divisons le CM par les degrés de
liberté dl (le dénominateur dans la formule de la variance)
Conditions d’application de l’anova
Homogenité
normalité
indépendance des observations
Anova a plan factoriel
un plan factoriel comporte deux VI (facteurs) ou plus
les niveau des facteurs correspondent aux différentes conditions
Avantage des plans factoriels
- Une généralisation plus large
2. Les tests d’interaction entre les facteurs
Calculs pour cette ANOVA à deux facteurs:
Il y a un test-F pour chacun des effets principaux et
pour l’interaction
Dans les plans factoriels, nous calculons aussi
SCcellules qui représente la variance totale des cellules
du plan d’expérience
Toute la variabilité à l’intérieur des cellules qui n’est pas
attribuable au facteur AGE ou au facteur CONDITION
est attribuée à l’interaction entre les facteurs:
Trois considérations pour les plans factoriels
Plus le modèle est complexe, plus nous « perdons »
des dl et plus le CMerreur augmente - p.e. pour le test-
F du facteur Âge
Faut-il interpréter les effets principaux lorsqu’une
interaction est significative?
Ça dépend des hypothèses qui nous intéressent…
Les interactions ordinales et non ordinales
Les interactions ordinales vont toujours dans le même
sens lorsque l’on passe d’un niveau à un autre
A quoi servent les tests d’interaction
permettent d’établir si l’interaction
est statistiquement significative
Les tests d’effets simples
Lorsqu’il y a une interaction significative, vérifier l’effet
d’un facteur pour chacun des niveaux d’un autre facteur
Les plans expérimentaux à mesures répétées
Un plan d’expérience ou chaque participant (unité
d’observation) fournit une mesure pour chacun des
différents niveaux d’un ou de plusieurs facteurs
Les mêmes participants (unités d’observation) fournissent
les données pour les différentes cellules de ce plan
L’analyse vise à déterminer s’il y a une différence
significative de moyenne d’une mesure à l’autre
Différence entre anova intergroupe et mesure répétées
Contrairement à l’ANOVA intergroupe, il y a une
certaine corrélation entre les données des différentes
cellules
§ Comme ce sont les mêmes participants qui sont
mesurés plus d’une fois, il n’y a pas d’effet de
variabilité inter-échantillon
§ Les plans à mesures répétées ont l’avantage de
diminuer la variabilité d’erreur (SCerreur) des données
en éliminant une partie de la variabilité due aux
participants
2 problems de anova a plan répétées
Les plans à mesures répétées ne permettent pas de
répartition au hasard (!)
Il peut y avoir des effets de séquence
La matrice des covariances
Pour effectuer une ANOVA à mesures répétées, il faut que
les données respectent une condition d’application
additionnelle : la matrice des covariances doit présenter
une sphéricité (ou une symétrie composée)
Le test de sphéricité de Mauchly
Permets de vérifier le postulat d’homogénéité de la
matrice des covariances
§ Un test significatif implique que les données ne
respectent pas le postulat et les conclusions du test
peuvent être erronées
Hypothèse anova plan répétée
Les différentes mesures sont effectuées sur les mêmes
participants, le test d’hypothèse porte sur l’égalité des
moyennes aux différents temps de mesure: