Cours 4 Flashcards

1
Q

V ou F. Comme on n’a pas accès à la population, on doit estimer les paramètres b0 et b1 à partir de l’échantillon.

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

V ou F. La relation entre X et Y dépend de B1 (EXAMEN)

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

À quoi correspond B0 ?

A

La valeur prédite de Y lorsque la valeur du prédicateur X vaut 0.

Le meilleur estimateur de B1 à partir des données

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

À quoi correspond B1 ?

A

Au nombre d’unités d’augmentation de la valeur prédite Y lorsque la valeur du prédicateur X augmente de 1 unité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Que cherche-t-on à définir à partir de B1 et B0? (EXAMEN)

A

Si la prédiction de Y connaissant X est meilleure que celle ne connaissant pas X

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quel est le meilleur modèle selon l’hypothèse nulle ?

A

B0 = moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quels sont les 4 tableaux en sortie sur SPSS dans une régression linéaire ?

A
  1. Variables introduites/éliminées
  2. Récapitulatif des modèles
  3. ANOVA
  4. Coefficients
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

À quoi correspond la variable X dans le tableau des variables introduites/éliminées ?

A

Le prédicateur introduit dans le modèle, variable indépendante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

À quoi correspond la variable Y dans le tableau des variables introduites/éliminées ?

A

La variable prédite, variable indépendante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

À quoi correspond t dans le tableau des coefficients?

A

t = b0 - H0 (signal) / ES b0 (bruit)

où H0 = 0

Tente de déterminer si b0 est différent de 0 et si b1 est différent de b0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

V ou F. Lorsque l’alpha est plus petit que 0.05, on rejette H0. Lorsque alpha est plus grand que 0.05, on conserve H0 (EXAMEN)

A

VRAI

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Pourquoi réalise-t-on une ANOVA ?

A

Pour tester si le modèle explique mieux les données que le modèle de base : la moyenne des valeurs de la variable Y. Ce modèle de base recèle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce qui reflète l’hypothèse nulle de l’ANOVA ?

A

La moyenne des valeurs de la variable Y (modèle de base), meilleur prédicteur.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

À quoi correspond l’hypothèse alternative de l’ANOVA ?

A

Le modèle utilisant les meilleures valeurs des estimateurs (b^0 et b^1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que la SCT ?

A

SC de l’erreur pour H0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce que la SCR ?

A

SC de l’erreur pour H alternative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qu’est-ce que la SCM ?

A

la différence entre la SCT-SCR, expliquée par le modèle alternatif, somme des carrés expliquée par le Modèle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Que représente la statistique F ?

A

Le rapport “signal sur bruit”

19
Q

Quel est le but des résultats de F?

A

Permet de rejeter le modèle de base au profit de du modèle alternatif avec une probabilité d’erreur inférieure à 0.1% si H0 est vraie

Donc la variable Y permet de mieux expliquer la variable X que si on ne la connaissait pas

Car SCR = SCT donc n’explique pas mieux

20
Q

Quel est le problème de l’ANOVA ?

A

Le test est basé sur les carrés moyens (CM) du modèle et des résiduels

Or les CMR dépend de la taille de l’échantillon

Plus N est grand, plus le CMR est faible

Plus CMR est faible, plus F est faible

Plus F est faible, plus il est facile de rejeter H0

21
Q

Qu’est-ce que R^2 ?

A

La taille d’effet du modèle sur la prédiction de Y

22
Q

Quel est le problème de R^2 ?

A

Plus k est grand par rapport à N1, plus on risque d’expliquer de la variabilité correspondant à de l’erreur d’échantillonnage, plutôt que d’expliquer un effet réel dans la population

Donc plus k est grand par rapport à N, moins l’explication des données se généralisera à l’ensemble de la population (pas d’erreur dans mes données mais pas généralisable à la population)

*Plus N est grand, plus dl res est petit > test puissant

23
Q

Quelle est la solution à R^2?

A

R^2 ajusté

Plus k est grand par rapport à N, plus la valeur de R2 ajusté est petite

Si N est beaucoup plus grand que k, alors R2 ajusté = R2

24
Q

À quoi correspond R ?

A

La corrélation entre le prédicteur X et la variable prédite Y

25
Q

Qu’est-ce que la covariance ?

A

Permet de mettre en relation des variables distinctes

Indique le sens (polarité) d’un nuage de points

Indique le degré d’aplatissant du nuage de points

Constitue une mesure de l’association entre 2 variables

26
Q

Quelles sont les informations que nous fournissent la covariance ?

A
  1. Le sens de l’inclinaison du nuage de points

2. Le degré d’aplatissement du nuage de points

27
Q

Expliquez le sens (polarité) d’un nuage points.

A

On a une covariance positive quand la somme des produits positifs est plus élevée que la somme des produits négatifs

On a une covariance négative quand la somme des produits positifs est plus faible que la somme des produits négatifs

28
Q

Expliquez le degré d’aplatissement d’un nuage points.

A

Plus le nuage de points est aplatit, plus les produits sont de mêmes signes et donc, plus la valeur absolue de la covariance est élevée

Moins le nuage de points est aplatit, plus il y a un équilibre entre les produits de mêmes signes et les produits de signes opposés et donc, plus la valeur absolue de la covariance est __

29
Q

Expliquez la mesure d’association entre 2 variables

A

Plus la norme de la covariance est élevée, plus la forme de la dispersion des données est aplatie.

Nous pouvons également dire que plus la forme de la dispersion est aplatie, plus les variables sont fortement associées/corrélées.

Ainsi plus la covariance est élevée, meilleure est l’association de l’une des variables sur la base de l’autre

30
Q

Quels sont les problèmes de la covariance ? (2)

A
  1. Les unités de la covariance sont peu intuitives (dépendent des variables mesurées)
  2. Il est difficile de dire si une covariance est élevée
31
Q

Quelle est la solution pour la covariance ?

A

Standardiser les 2 variables

Multiplier l’écart à la moyenne en terme d’écart type en X et en Y

On obtient la corrélation entre les variables X et Y

Donc multiplier les scores z de la variable X par les scores z de la variable Y

32
Q

V ou F. La valeur maximale de la valeur absolue de la covariance, survient lorsque le nuage de points corresponds à une ligne droite parfaite

A

VRAI

33
Q

Compléter l’énoncé suivant.

rxy= __A__ correspond à une droite parfaite de polarité positive

rxy= __B__ correspond à une droite parfaite de polarité négative

rxy= __C__ correspond à un nuage de points sans relation entre X et Y

A

A. +1
B. -1
C. 0

34
Q

Comment la corrélation règle les problèmes de la covariance ?

A
  1. Les unités de la covariance sont peu intuitives (dépendent des variables mesurées)

SOL. = La corrélation n’a pas d’unité et représente donc une mesure d’association pure, facile à interpréter

  1. Il est difficile de dire si une covariance est élevée

SOL = Les valeurs de la corrélation sont limitées à -1 = rxy = +1

35
Q

Quoi faire avant de faire l’analyse de régression?

A

Pré traitement des données

  1. Vérifier et gérer les données manquantes
  2. Vérifier et gérer les données extrêmes et les données influentes
  3. Vérifier le postulat de linéarité et d’additivité
  4. Vérifier le postulat de normalité
  5. Vérifier le postulat d’homoscédasticité
  6. Vérifier le postulat d’indépendance des données
36
Q

V ou F. Une donnée peut être ni extrême sur le prédicteur (X) ni sur la variable prédite (Y) et être tout de même une donnée extrême

A

VRAI

37
Q

Pourquoi utiliser la distribution des résiduels au lieur d’utiliser la distribution des données dans chacune des variables ?

A

La grandeur de chaque résiduel est difficile à interpréter, car elle est dans les mêmes unités que la variable Y

Toutefois, on peut calculer les scores Z des résiduels, la distribution des scores z a une moyenne de 0 et un écart type de 1 et on peut alors utiliser les critères habituels

38
Q

Comment vérifier l’influence qu’a une donnée sur le modèle estimé ?

A

Une donnée ne devrait pas à elle seule changer significativement les résultats de nos analyses

39
Q

V ou F. Les postulats s’intéressent à la distribution des erreurs de prédictions et non pas aux distributions des variables elles-mêmes

A

VRAI

40
Q

V ou F. On peut vérifier visuellement les postulats de linéarité et d’homoscédasticité à l’aide d’un graphique présentant les scores z des résiduels (axe des ordonnées) en fonction des scores z des valeurs prédites (axe des abscisses).

A

VRAI

41
Q

V ou F. On peut vérifier visuellement le postulat de normalité des résiduels en utilisant un histogramme des résiduels (et un graphique P-P).

A

VRAI

42
Q

V ou F. Les valeurs d’asymétrie et d’aplatissement doivent être mesurées sur la distribution des résiduels (et non sur la distribution des données à l’intérieur de chaque variable).

A

VRAI

Le théorème central limite est également applicable.

43
Q

Quoi faire si la linéarité n’est pas respectée ?

A

on devrait soit utiliser un modèle non linéaire, soit appliquer une transformation aux données qui permette de les rendre linéaires

44
Q

Quoi faire si l’homoscédasticité n’est pas respectée ? (2)

A
  1. Utiliser la méthode de «bootstrap»

2. Utiliser la méthode des moindres carrés pondérés