Cours 1 Flashcards

1
Q

Quand utiliser l’analyse multivariée?

A

1) Lorsqu’il y a plusieurs VD et/ou VI 2) En présence de VD/VI corrélées *L’analyse multivariée vient de la multiplication des variables indépendantes. Ce sont plusieurs variables que l’on met en même temps dans l’analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Augmentation croissante de la validité interne: 1) Méthodes […] 2) Méthodes quasi-expérimentales 3) Méthodes […]

Augmentation croissante de la validité externe: 1) Méthodes […] 2) Méthodes quasi-expérimentales 3) Méthodes […]

A

Augmentation croissante de la validité interne: 1) Méthodes expérimentales 2) Méthodes quasi-expérimentales 3) Méthodes corrélationnelles

Augmentation croissante de la validité externe: 1) Méthodes corrélationnelles 2) Méthodes quasi-expérimentales 3) Méthodes expérimentales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quels sont les avantages des analyses multivariées? (4)

A

1) Analyses plus flexibles et « réalistes » (il est rare qu’on ait peu de variables dans nos recherches) 2) Réduit le nombre de tests statistiques univariés ou bivariés 3) Réduit le problème de l’erreur alpha (l’erreur de type 1) avec les tests multiples (diminue la probabilité de faux positifs) 4) Accroît la puissance statistique (décroît la probabilité d’erreur beta ou type II)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quelles sont les limites des analyses multivariées? (4)

A

1) Complexité conceptuelle et mathématique 2) L’analyste est plus « éloigné » des données brutes 3) Les résultats sont sensibles aux choix de l’analyste ( Il faut être plus précis dans la communication de nos résultats car il est probable de faire la même analyse deux fois et ne pas avoir le même résultat) 4) Demande le respect de conditions d’utilisation plus nombreuses que les analyses univariées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

La distribution binomiale (loi binomiale) est utilisée pour les […]

A

La distribution binomiale (loi binomiale) est utilisée pour les proportions (variables catégorielles)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

La distribution normale (loi normale) est utilisée pour les […], avec ou sans décimale

A

La distribution normale (loi normale) est utilisée pour les échelles continues, avec ou sans décimale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

La distribution de Poisson (loi de Poisson) est utilisée pour les […]

A

La distribution de Poisson (loi de Poisson) est utilisée pour les échelles de dénombrement (count data)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Loi de Bernouilli (binomiale si n > 1): -> Domaine des valeurs: […] ou […] -> Probabilité de […] (1) = p -> Loi multinomiale si […] catégories (ordonnées ou non) -> Lois utilisées pour modéliser les variables […]

A

Loi de Bernouilli (binomiale si n > 1): -> Domaine des valeurs: 0 ou 1 -> Probabilité de succès (1) = p -> Loi multinomiale si 3+ catégories (ordonnées ou non) -> Lois utilisées pour modéliser les variables catégorielles *exemple: si 40% de femmes (code 1), p =0.40 et 1-p = 0.60 = 60% d’hommes (code 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Loi normale -> Domaine des valeurs: les réels ([…] négatif à positif) -> Paramètres: […] et […] (>0) -> Distribution symétrique en cloche -> Loi utilisée pour modéliser les variables […] (la majorité des variables en sciences sociales)

A

Loi normale -> Domaine des valeurs: les réels (infini négatif à positif) -> Paramètres: Moyenne et variance (>0) -> Distribution symétrique en cloche -> Loi utilisée pour modéliser les variables continues (la majorité des variables en sciences sociales)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Loi de Poisson -> Domaine des valeurs: les […] positifs (0 à infini positif) -> Paramètres: lambda ( […] = […]) -> Distribution généralement […] -> Loi utilisée pour modéliser les variables de […] (#accidents, #visites, etc.) -> Particulièrement utile pour les […]

A

Loi de Poisson -> Domaine des valeurs: les entiers positifs (0 à infini positif) -> Paramètres: lambda (moyenne = variance) -> Distribution généralement non-symétrique -> Loi utilisée pour modéliser les variables de dénombrement (#accidents, #visites, etc.) -> Particulièrement utile pour les évènements rares (ex: Beaucoup de gens rapportent une valeur mais peu les autres valeurs)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

VRAI ou FAUX Il est possible de transformer la distribution de Poisson en distribution normal

A

VRAI Il est possible de transformer la distribution de Poisson en distribution normal, MAIS ce n’est pas nécessairement une bonne idée et on peut la laisser en distribution de Poisson

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quelle est la différence entre un niveau alpha empirique et théorique?

A

Niveau alpha empirique: observé suite au test Niveau alpha théorique: fixé pour processus décision

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce qu’une erreur alpha (type […]) et une erreur bêta (type […])?

A

Erreur alpha (type I): -> Rejeter l’hypothèse null lorsqu’en réalité il n’y a pas de différence, c’est-à-dire un faux positif. Erreur bêta (type II): -> Accepter l’hypothèse null lorsqu’en réalité il y a une différence, c’est-à-dire un faux négatif.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Calcul de la puissance: 1 - erreur […]

A

Calcul de la puissance: 1 - erreur bêta (type II)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

VRAI ou FAUX Vous obtenez une valeur p = 0.01. -> VRAI – je sais, si je décide de rejeter Ho, la probabilité de prendre la mauvaise décision -> FAUX – je ne sais pas …

A

FAUX Je sais que je sais que j’ai 1% de faire une erreur (théoriquement), mais je ne sais pas dans quel monde je suis (la réalité) (manque d’information). -> Si je suis dans le monde null, j’ai 1% de chance d’observer mon phénomène d’absence/null

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Le valeur p indique la probabilité d’observer ces données SI […] est vraie (dans la réalité […] et non la probabilité que […] soit vraie

A

Le valeur p indique la probabilité d’observer ces données SI Ho est vraie (dans la réalité Ho et non la probabilité que Ho soit vraie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

La valeur p dépend de la […] de l’effet et de la […]. Donc un p très significatif n’indique pas l’[…] d’une différence

A

La valeur p dépend de la grandeur de l’effet et de la taille d’échantillon. Donc un p très significatif n’indique pas l’importance d’une différence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

La puissance statistique est la probabilité de détecter un […] lorsqu’il y en a un

A

La puissance statistique est la probabilité de détecter un effet lorsqu’il y en a un

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

L’objectif de la démarche inférentielle est de maximiser la […] de chaque test utilisé

A

L’objectif de la démarche inférentielle est de maximiser la puissance statistique de chaque test utilisé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Le calcul de puissance est essentiel pour: 1) Justifier la […] d’une étude 2) Justifier la […] nécessaire 3) Interpréter un résultat […] (selon la valeur p)

A

Le calcul de puissance est essentiel pour: 1) Justifier la tenue d’une étude 2) Justifier la taille d’échantillon nécessaire 3) Interpréter un résultat non-significatif (selon la valeur p)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quels sont les facteurs influençant la puissance ? (6)

A

1) La grandeur de l’effet (+ grandeur = + puissance) 2) 2) La taille d’échantillon (+ n = + puissance) 3) Le niveau alpha (+ alpha = + puissance) 4) La direction du test (unilatéral = + puissance) 5) La variance de la mesure (+ variance = - puissance) 6) La fidélité de la mesure (+ fidélité = + puissance)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Expliquer l’effet de la taille d’échantillon sur la puissance

A

Plus on a de monde, plus c’est facile de détecter des différences -> Relation qui n’est pas complètement linéaire par contre, on a un plateau après un certain point. Passé un certain n, ça vaut pas la peine d’augmenter encore un échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Expliquer l’effet du niveau alpha sur la puissance

A

Plus tu augmentes ton alpha, plus tu as de chance de rejeter l’hypothèse nulle (p= .05 ou p =.01). -> Il y a des procédures qui peuvent jouer sur l’alpha (tests de comparaisons multiples: Si on fait plusieurs tests, on multiplie notre alpha donc on l’augmente).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Expliquer l’effet de la direction du test (bi vs unilatéral) sur la puissance

A

Dans un test bilatéral, on divise l’alpha en deux (p = .05 -> p =.025 de chaque bord). -> Le test unilatéral a un alpha plus élevé et est donc plus puissant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Expliquer l’effet de la variance de la mesure sur la puissance

A

En augmentant la variance, on augmente l’écart-type. -> Si l’écart-type est plus élevé, on diminue la grandeur d’effet et donc la puissance.

26
Q

Expliquer l’effet de la fidélité de la mesure sur la puissance

A

Une mesure très fidèle (qui mesure toujours la même chose) va être moins variable (moins de variance), et donc avoir un plus petit écart-type. La mesure aura donc une grandeur d’effet plus importante et plus de puissance.

27
Q

Une étude puissante est une étude où l’on sait la […] des résultats (bonne littérature qui appuie un sens attendu des résultats) avec une mesure très […], une bonne […] et peu de […].

A

Une étude puissante est une étude où l’on sait la direction des résultats (bonne littérature qui appuie un sens attendu des résultats) avec une mesure très fidèle, une bonne taille d’échantillon et peu de variance.

28
Q

Le d de Cohen est utilisé pour mesurer la […]. -> Il permet de voir à quel point deux groupes sont différents, indépendamment de la grandeur de l’échantillon. Ces différences sont standardisées avec […]

A

Le d de Cohen est utilisé pour mesurer la grandeur d’effet. -> Il permet de voir à quel point deux groupes sont différents, indépendamment de la grandeur de l’échantillon. Ces différences sont standardisées avec l’écart-type

29
Q

d de Cohen -> 0.20 = […] différence (.2 écart-type de différence entre les deux groupes) -> 0.50 = […] différence -> 0.80 = […] différence ** unité du d = nombre d’écart-type

A

d de Cohen -> 0.20 = petite différence (.2 écart-type de différence entre les deux groupes) -> 0.50 = moyenne différence -> 0.80 = large différence ** unité du d = nombre d’écart-type

30
Q

Quel est le défi principale de l’inférence statistique?

A

Estimer la valeur d’un paramètre (population) à partir des données d’un échantillon de taille limitée

31
Q

Qu’est-ce qu’un estimateur?

A

Fonction qui résume les données (e.g., moyenne, variance, mode, corrélation, coefficient de régression) d’un échantillon afin d’estimer un paramètre. -> Variable avec un chapeau

32
Q

Qu’est-ce qu’un estimé?

A

Valeur numérique de l’estimateur dans un échantillon donné

33
Q

Qu’est-ce qu’un paramètre?

A

Valeur que l’on veut estimer dans la population

34
Q

Quelles sont les propriétés d’un bon estimateur? (2)

A

1) Absence de biais (validité) 2) Efficace (fidélité)

35
Q

Qu’est-ce que le biais chez un estimateur?

A

Le biais corresponds à la différence entre la moyenne des estimés (e) (si on utilise une infinité d’échantillons) et le paramètre (p) dans la population. -> Absence de biais: Si on a la bonne valeur dans la population, chaque estimateur que je prend dans mon échantillon va être proche de celle de la population. Ex: Moyenne de 10 dans ma population, alors que dans mon échantillon l’estimé est entre 9 et 10. -> Biais = E (e) - p -> Exemples : moyenne, variance…

36
Q

Qu’est-ce que l’efficacité d’un estimateur?

A

Estimateur qui minimise l’erreur quadratique moyenne (MSE). -> Estimateur efficace: La mesure mesure bien la bonne chose et donne des résultats constants pour la même personne qui repasse le test souvent. -> EQM = E (e – p) au carré -> La variance de l’estimateur autour du paramètre (avec une infinité d’échantillons)

37
Q

Quelles sont les méthodes d’estimation utilisées pour obtenir les estimateurs les plus près possible de la réalité? (3)

A

1) Méthode des moindres carrés (least squares): utilisée en régression, hypothèse que la loi de distribution des données est normale 2) Méthode de maximum de vraisemblance (maximum likelihood): utile pour tout type de variable (normale, binomiale, Poisson, etc.), méthode paramétrique = exige de connaitre la loi de la distribution de la variable modélisée 3) Rééchantillonnage (bootstrap): utile pour tout type de données, ne demande pas de connaitre le loi de distribution des variables.

38
Q

Qu’est-ce que la méthode des moindres carrés?

A

On tente de trouver un bon estimateur en minimisant la différence entre les valeurs prédites et réels. -> Ex: On a des points sur notre graphiques et on veut établir une droite de régression qui minimise la distance entre chaque point et la droite. La droite crée donc la méthode des moindres carrées -> On additionne les points au carrée (pour retirer les résultats négatifs) et on fait la moyenne pour en sortir la droite au milieu -> Utilisée en régression, hypothèse que la loi de distribution des données est normale

39
Q

Qu’est-ce que la méthode de maximum de vraisemblance?

A

La méthode de maximum de vraisemblance fonctionne à peu près comme la méthode des moindre carrées, mais elle fonctionne pour tout type de variable indépendante (donc tout type de loi). -> L’idée est pas mal la même que la moindre carrés, on tente de réduire l’écart entre notre modèle (ex: droite) et nos données. Il faut connaître la loi de la variable.

40
Q

Qu’est-ce que la méthode de rééchantillonnage?

A

Méthode d’estimation utilisée lorsqu’on ne connaît pas la loi de la variable indépendante

41
Q

VRAI ou FAUX Deux variables sont orthogonales si leur association (variance commune: covariance) est élevée

A

FAUX

Deux variables sont orthogonales si leur association (variance commune) est nulle.

-> Il faut utiliser des analyses multivariées pour les variables non-orthogonale car l’analyse univariée ne peut pas différencier le chevauchement des variables dans l’explication de la variable dépendante.

42
Q

Qu’est-ce que le principe de parcimonie?

A

Trouver le nombre optimal de prédicteurs à inclure et à ne pas inclure.

-> Plus j’augmente le nombre de prédicteurs, plus je donne faussement l’impression d’un variance (R2) parfaite.

43
Q

Qu’est-ce que l’erreur réelle selon le principe de parcimonie?

A

C’est la variance non-expliquée sur un autre échantillon.

-> Quand on développe un modèle sur un jeu de donnée, mais quand on l’applique sur un autre jeu de données, on obtient beaucoup plus d’erreurs. Donc le retest n’est plus bon et n’est pas applicable à la population. En général, après un certains nombre de prédicteurs, l’erreur ne descend plus mais augmente (il y a trop de variables inutiles qui envahissent mes résultats).

44
Q

Qu’est-ce que l’erreur apparente selon le principe de parcimonie?

A

Variance non-expliquée sur l’échantillon originale

45
Q

Décriver le dilemme biais-variance

A
  • > Si on a un modèle avec plusieurs variables, on diminue notre biais mais il y aura plus de variance dans mes résultats
  • > On veut donc un modèle qui a un biais et une variance faible
46
Q

Un modèle prédictif devrait réduire le […]

A

Un modèle prédictif devrait réduire le biais.

-> L’important ici est d’avoir une prédiction juste (je ne peux pas me tromper, mais je peux être vague) et donc que notre biais soit réduit au minimum

47
Q

Un modèle explicatif devrait réduire la […]

A

Un modèle explicatif devrait réduire la variance.

-> L’important ici est d’être sûr de ce que je dit, donc qu’on est précis (Je peux me tromper mais je dois être le plus précis possible). On est mieux d’utiliser le principe de parcimonie afin de réduire la variance des résultats.

48
Q

Quels sont les 5 grands objectifs des techniques multivariées (pas besoin de savoir les sous-points)?

A
  1. Étude sur les associations et les liens entre les variables: Analyses de régression
    1. Corrélation et régression bivariée
    2. Corrélation et régression multiple
    3. Corrélation canonique
    4. Régression standard, hiérarchique et par étapes (stepwise)
    5. Analyse des fréquences multinomiales (multiway frequency analysis)
  2. Tests de différences (de moyennes) entre les groupes/temps: ANOVA, Test t, etc.
    1. Test-t et ANOVA à 1+ facteur
    2. Analyse de covariance ANCOVA
    3. Analyse de variance multivariée - MANOVA
    4. Analyse de covariance multivariée - MANCOVA
    5. Analyse de profiles (approche multivariée des mesures répétées)
    6. Famille des modèles linéaires mixtes
    7. Modèles multiniveaux / hiérarchiques
  3. Prédictions de l’appartenance (des sujets) à des groupes: VD binaire/catégorielle
    1. Analyse discriminante standard
    2. Analyse discriminante hiérarchique
    3. Régression logistique dichotomique
    4. Régression logistique polytomique (nominale ou ordinale)
  4. Étude de la structure des observations: Est-ce qu’on a des sous-groupes qui se ressemblent dans groupes. Analyses de cluster, etc.
    1. Analyse de regroupement (cluster analysis)
    2. Analyse en composantes principales ACP (analyse de réduction de la “dimensionalité” des observations)
    3. Analyses factorielles (analyse des facteurs principaux et communs)
    4. Modèles d’équations structurelles
    5. Analyse de profils / classes latent(e)s
  5. Étude des évènements temporels: Analyses longitudinales, etc.
    1. Analyse de survie
    2. Analyse de série chronologique
    3. Analyses d’intervention (single-case analysis)
49
Q

Pour calculer la variance, on calcule la déviation de la […], divisée par le nombre de […] -1

A

Pour calculer la variance, on calcule la déviation de la moyenne, divisée par le nombre de participants -1

* on utilise -1 car sinon la variance serait biaisée

50
Q

Lorsque l’on fait la racine carrée de la variance, on obtient l’[…]

A

Lorsque l’on fait la racine carrée de la variance, on obtient l’écart-type

51
Q

La covariance estime la […] entre deux variables X1 et X2. Deux variables covarient lorsque, si elles sont éloignées, l’éloignement de la […] est le même ou presque pour les deux variables.

A

La covariance estime la variation simultanée entre deux variables X1 et X2. Deux variables covarient lorsque, si elles sont éloignées, l’éloignement de la moyenne est le même ou presque pour les deux variables.

-> On multiplie la déviation de la moyenne pour X1 à celle de X2, puis on divise le nombre de participant -1

52
Q

La corrélation entre deux variables est une […] ajustée (standardisée) selon la […] de chaque variable

A

La corrélation entre deux variables est une covariance ajustée (standardisée) selon la variance de chaque variable

-> C’est la covariance de chaque variable divisé par l’écart-type. La division par l’écart-type, c’est de la standardisation, donc ce chiffre ne dépend plus des échelles de la variable. On peut donc faire de la corrélation entre les différentes paires de variables.

53
Q

Dans une matrice de variance-covariance, le 1er indice est la […] et le second est la […]

A

Dans une matrice de variance-covariance, le 1er indice est la rangée et le second est la colonne

54
Q

VRAI OU FAUX

Les variances sont toujours positives et les covariances ne sont jamais comparables.

A

VRAI

Les variances sont toujours positives et les covariances ne sont jamais comparables.

-> Il faut standardiser les covariances avant de les comparer

55
Q

Qu’est-ce que la trace d’une matrice de covariance-variance?

A

La trace d’une matrice est la somme des éléments de sa diagonale

56
Q

Qu’est-ce que la transposée d’une matrice?

A

La transposée d’une matrice est la matrice où les rangées et les colonnes sont substituées.

-> On “flip” les colonnes et rangées

57
Q

VRAI ou FAUX

Lors de l’addition (ou soustraction) de deux matrices, l’ordre de calcul n’est pas important. Les matrices additionnées doivent absolument être de la même dimension.

A

VRAI

58
Q

VRAI ou FAUX

Lors de la multiplication de deux matrices, l’ordre de calcul est pas important. On fait la rangé * la colonne.

A

VRAI

59
Q

VRAI ou FAUX

Il n’est pas possible de diviser deux matrices

A

VRAI

On ne divise pas une matrice A par une matrice B. On multiplie plutôt la matrice A par l’inverse de la matrice B.

𝐀×1/𝐁=𝐀𝐁(exposant−1)

** Avant de réaliser l’inversion, on doit s’assurer que la matrice est invertible

60
Q

Une matrice est invertible si le déterminant est différent de […]. Sinon, la matrice est dite […].

A

Une matrice est invertible si le déterminant est différent de zéro. Sinon, la matrice est dite singulière.

-> on déterminant est la multiplication de la diagonale de la matrice - la multiplication de l’autre diagonale.

61
Q

Que se passe-t-il si vous essayez de calculer le déterminant d’une matrice dont les deux variables sont très fortement corrélées?

A

Plus deux variables vont être corrélées ensemble, plus le déterminant va se rapprocher de 0. À ce moment là, on va avoir une notice comme quoi on a un problème d’inversion de matrice. Le logiciel n’est pas capable de faire la division par 0 donc il bloque.

-> Ex sur l’image: A = 1*1-0.99*0.99 = 0.0199