Cours 4 Flashcards by Cindy Julien

V ou F. Comme on n’a pas accès à la population, on doit estimer les paramètres b0 et b1 à partir de l’échantillon.

VRAI

How well did you know this?

Not at all

Perfectly

V ou F. La relation entre X et Y dépend de B1 (EXAMEN)

VRAI

How well did you know this?

Not at all

Perfectly

À quoi correspond B0 ?

La valeur prédite de Y lorsque la valeur du prédicateur X vaut 0.

Le meilleur estimateur de B1 à partir des données

How well did you know this?

Not at all

Perfectly

À quoi correspond B1 ?

Au nombre d’unités d’augmentation de la valeur prédite Y lorsque la valeur du prédicateur X augmente de 1 unité

How well did you know this?

Not at all

Perfectly

Que cherche-t-on à définir à partir de B1 et B0? (EXAMEN)

Si la prédiction de Y connaissant X est meilleure que celle ne connaissant pas X

How well did you know this?

Not at all

Perfectly

Quel est le meilleur modèle selon l’hypothèse nulle ?

B0 = moyenne

How well did you know this?

Not at all

Perfectly

Quels sont les 4 tableaux en sortie sur SPSS dans une régression linéaire ?

Variables introduites/éliminées
Récapitulatif des modèles
ANOVA
Coefficients

How well did you know this?

Not at all

Perfectly

À quoi correspond la variable X dans le tableau des variables introduites/éliminées ?

Le prédicateur introduit dans le modèle, variable indépendante

How well did you know this?

Not at all

Perfectly

À quoi correspond la variable Y dans le tableau des variables introduites/éliminées ?

La variable prédite, variable indépendante

How well did you know this?

Not at all

Perfectly

À quoi correspond t dans le tableau des coefficients?

t = b0 - H0 (signal) / ES b0 (bruit)

où H0 = 0

Tente de déterminer si b0 est différent de 0 et si b1 est différent de b0

How well did you know this?

Not at all

Perfectly

V ou F. Lorsque l’alpha est plus petit que 0.05, on rejette H0. Lorsque alpha est plus grand que 0.05, on conserve H0 (EXAMEN)

VRAI

How well did you know this?

Not at all

Perfectly

Pourquoi réalise-t-on une ANOVA ?

Pour tester si le modèle explique mieux les données que le modèle de base : la moyenne des valeurs de la variable Y. Ce modèle de base recèle

How well did you know this?

Not at all

Perfectly

Qu’est-ce qui reflète l’hypothèse nulle de l’ANOVA ?

La moyenne des valeurs de la variable Y (modèle de base), meilleur prédicteur.

How well did you know this?

Not at all

Perfectly

À quoi correspond l’hypothèse alternative de l’ANOVA ?

Le modèle utilisant les meilleures valeurs des estimateurs (b^0 et b^1)

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la SCT ?

SC de l’erreur pour H0

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la SCR ?

SC de l’erreur pour H alternative

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la SCM ?

la différence entre la SCT-SCR, expliquée par le modèle alternatif, somme des carrés expliquée par le Modèle

How well did you know this?

Not at all

Perfectly

Que représente la statistique F ?

Study These Flashcards

Le rapport “signal sur bruit”

Quel est le but des résultats de F?

Study These Flashcards

Permet de rejeter le modèle de base au profit de du modèle alternatif avec une probabilité d’erreur inférieure à 0.1% si H0 est vraie

Donc la variable Y permet de mieux expliquer la variable X que si on ne la connaissait pas

Car SCR = SCT donc n’explique pas mieux

Quel est le problème de l’ANOVA ?

Study These Flashcards

Le test est basé sur les carrés moyens (CM) du modèle et des résiduels

Or les CMR dépend de la taille de l’échantillon

Plus N est grand, plus le CMR est faible

Plus CMR est faible, plus F est faible

Plus F est faible, plus il est facile de rejeter H0

Qu’est-ce que R^2 ?

Study These Flashcards

La taille d’effet du modèle sur la prédiction de Y

Quel est le problème de R^2 ?

Study These Flashcards

Plus k est grand par rapport à N1, plus on risque d’expliquer de la variabilité correspondant à de l’erreur d’échantillonnage, plutôt que d’expliquer un effet réel dans la population

Donc plus k est grand par rapport à N, moins l’explication des données se généralisera à l’ensemble de la population (pas d’erreur dans mes données mais pas généralisable à la population)

*Plus N est grand, plus dl res est petit > test puissant

Quelle est la solution à R^2?

Study These Flashcards

R^2 ajusté

Plus k est grand par rapport à N, plus la valeur de R2 ajusté est petite

Si N est beaucoup plus grand que k, alors R2 ajusté = R2

À quoi correspond R ?

Study These Flashcards

La corrélation entre le prédicteur X et la variable prédite Y

Qu'est-ce que la covariance ?

Permet de mettre en relation des variables distinctes Indique le sens (polarité) d'un nuage de points Indique le degré d'aplatissant du nuage de points Constitue une mesure de l'association entre 2 variables

Quelles sont les informations que nous fournissent la covariance ?

1. Le sens de l'inclinaison du nuage de points | 2. Le degré d'aplatissement du nuage de points

Expliquez le sens (polarité) d'un nuage points.

On a une covariance positive quand la somme des produits positifs est plus élevée que la somme des produits négatifs On a une covariance négative quand la somme des produits positifs est plus faible que la somme des produits négatifs

Expliquez le degré d'aplatissement d'un nuage points.

Plus le nuage de points est aplatit, plus les produits sont de mêmes signes et donc, plus la valeur absolue de la covariance est élevée Moins le nuage de points est aplatit, plus il y a un équilibre entre les produits de mêmes signes et les produits de signes opposés et donc, plus la valeur absolue de la covariance est __

Expliquez la mesure d'association entre 2 variables

Plus la norme de la covariance est élevée, plus la forme de la dispersion des données est aplatie. Nous pouvons également dire que plus la forme de la dispersion est aplatie, plus les variables sont fortement associées/corrélées. Ainsi plus la covariance est élevée, meilleure est l'association de l'une des variables sur la base de l'autre

Quels sont les problèmes de la covariance ? (2)

1. Les unités de la covariance sont peu intuitives (dépendent des variables mesurées) 2. Il est difficile de dire si une covariance est élevée

Quelle est la solution pour la covariance ?

Standardiser les 2 variables Multiplier l'écart à la moyenne en terme d'écart type en X et en Y On obtient la corrélation entre les variables X et Y Donc multiplier les scores z de la variable X par les scores z de la variable Y

V ou F. La valeur maximale de la valeur absolue de la covariance, survient lorsque le nuage de points corresponds à une ligne droite parfaite

VRAI

Compléter l'énoncé suivant. rxy= __A__ correspond à une droite parfaite de polarité positive rxy= __B__ correspond à une droite parfaite de polarité négative rxy= __C__ correspond à un nuage de points sans relation entre X et Y

A. +1 B. -1 C. 0

Comment la corrélation règle les problèmes de la covariance ?

1. Les unités de la covariance sont peu intuitives (dépendent des variables mesurées) SOL. = La corrélation n'a pas d'unité et représente donc une mesure d'association pure, facile à interpréter 2. Il est difficile de dire si une covariance est élevée SOL = Les valeurs de la corrélation sont limitées à -1 = rxy = +1

Quoi faire avant de faire l'analyse de régression?

Pré traitement des données 1. Vérifier et gérer les données manquantes 2. Vérifier et gérer les données extrêmes et les données influentes 3. Vérifier le postulat de linéarité et d'additivité 4. Vérifier le postulat de normalité 5. Vérifier le postulat d'homoscédasticité 6. Vérifier le postulat d'indépendance des données

V ou F. Une donnée peut être ni extrême sur le prédicteur (X) ni sur la variable prédite (Y) et être tout de même une donnée extrême

VRAI

Pourquoi utiliser la distribution des résiduels au lieur d'utiliser la distribution des données dans chacune des variables ?

La grandeur de chaque résiduel est difficile à interpréter, car elle est dans les mêmes unités que la variable Y Toutefois, on peut calculer les scores Z des résiduels, la distribution des scores z a une moyenne de 0 et un écart type de 1 et on peut alors utiliser les critères habituels

Comment vérifier l'influence qu'a une donnée sur le modèle estimé ?

Une donnée ne devrait pas à elle seule changer significativement les résultats de nos analyses

V ou F. Les postulats s'intéressent à la distribution des erreurs de prédictions et non pas aux distributions des variables elles-mêmes

VRAI

V ou F. On peut vérifier visuellement les postulats de linéarité et d’homoscédasticité à l’aide d’un graphique présentant les scores z des résiduels (axe des ordonnées) en fonction des scores z des valeurs prédites (axe des abscisses).

VRAI

V ou F. On peut vérifier visuellement le postulat de normalité des résiduels en utilisant un histogramme des résiduels (et un graphique P-P).

VRAI

V ou F. Les valeurs d’asymétrie et d’aplatissement doivent être mesurées sur la distribution des résiduels (et non sur la distribution des données à l’intérieur de chaque variable).

VRAI Le théorème central limite est également applicable.

Quoi faire si la linéarité n'est pas respectée ?

on devrait soit utiliser un modèle non linéaire, soit appliquer une transformation aux données qui permette de les rendre linéaires

Quoi faire si l’homoscédasticité n'est pas respectée ? (2)

1. Utiliser la méthode de « bootstrap » | 2. Utiliser la méthode des moindres carrés pondérés

Cours 4 Flashcards

(44 cards)