Test 2 Flashcards
On utilise la régression linéaire multiple dans quel situation
b
a quoi serve les coefficients de régression standardisés
permette de standardiser les coefficients de régression pour prendre en compte les écarts-types des variables.
appelés les coefficients béta, ils permettent de comparer l’importance de chacune des variables indépendantes à la prédication de la VD
a quoi sert l’erreur standard des coefficient de régression
c’est un indice de la précision des coefficients de régression.
C’est un estimé de l’erreur -type de la distribution d’échantillonnage
Il permettent de faire des test-t sur la valeur des coefficient de régression.
Whats la variance résiduelle
la variabilité non expliqué par l’équation de régression
C’est la somme des différences entre les valeurs observées et les valeurs prédites au carré
Le coefficient de régression multiple R
C’est la corrélation entre, d’une part, la variable
dépendante (Y) et, d’autre part, la meilleure
combinaison linéaire des prédicteurs
R2 donne le pourcentage de variance expliqué
Le R2 ajusté
R2 est un estimateur biaisé
§ C’est pourquoi il est préférable d’utiliser un R2 ajusté
(R*2) pour prendre en compte le nombre de prédicteurs et le N
La construction des équations de régression
nous voulons généralement avoir le
modèle le plus parcimonieux – un modèle qui offre la
meilleure prédiction avec le plus petit nombre de
prédicteurs
Il faut donc choisir les meilleurs VI pour la prédiction de notre VD
on test different modèles de régression (avec different prédicateurs) pour déterminer le meilleur modele
Les critères d’ajustement
Ils permettent de comparer différents modèles en
prenant en compte le nombre de paramètres et
l’ajustement du modèle (R2) afin de trouver le
« meilleur » modèle
C’est quoi qui arrive a la variance de l’échantillonnage lorsque le N est grand
elle est petite
la moyenne de la population se resserre autour de la moyenne
Les tests paramétriques
Tests statistiques permettant de faire des inférences sur
la population lorsque les caractéristiques de la distribution
d’échantillonnage sont connues (généralement une
distribution normale)
Basé sur le théorème de la limite centrale
Les tests non paramétriques
§ Tests statistiques qui ne demandent pas que la forme
et les paramètres de la distribution d’échantillonnage
soient connus
§ Nous parlons de tests indépendants de toute
distribution
§ Il sont moins puissants – (1- b), la probabilité de
conclure correctement sur l’hypothèse alternative
(ce que je veux démontrer)
Le ré-échantillonnage
Technique computationnelle qui permet d’estimer la
forme et les caractéristiques de la distribution
d’échantillonnage sans postuler une distribution
particulière
Il s’agit d’estimer le paramètre qui nous intéresse un
grand nombre de fois à partir de tirages répétés d’un
grand nombre « d’échantillons »
§ Nous ne disposons que d’un seul échantillon
représentatif de la population
§ La procédure vise à créer un grand nombre de
« nouveaux » échantillons en faisant des tirages
aléatoires avec remise à partir de notre échantillon
§ Notre échantillon forme une pseudo-population
§ En faisant des tirages avec remise, nous créons un
grand nombre de pseudo-échantillons qui permettent
d’estimer la statistique un grand nombre de fois et de
reproduire la distribution d’échantillonnage
Approche bootstrap
Permets de faire des tests d’hypothèse sans postuler
une distribution d’échantillonnage
§ Peut être utilisée dans un grand nombre de techniques
statistiques et notamment la régression multiple
Cet intervalle de perceptible n’inclut pas la valeur zéro (0), nous
rejetons Ho et adoptons H1 pour conclure que r ≠ 0
Inconvenients de la methode bootstrap
Nécessite un échantillon pleinement représentatif
(idéalement probabiliste)
§ Différents essais peuvent donner des résultats
différents et (donc) parfois ambigus
§ Ne s’applique pas aux méthodes statistiques plus
complexes
L’ANOVA
Elle permet de tester des différences de moyennes
(comme le test-t), mais sans restriction quant au nombre
de moyennes testées
Permets de tester les effets de plusieurs variables
indépendantes (facteurs ou critères de classification) et de
vérifier les interactions