Statistiques Flashcards

1
Q

Qu’est-ce que la statistique descriptive? La statistique inférentielle?

A

Statistique descriptive : vise à produire une synthèse des données prélevées sur un échantillon.

Statistique inférentielle : partant des observations faites sur un échantillon, vise à énoncer une conclusion qui soit valable pour l’ensemble de la population.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qu’est-ce qu’une variable quantitative? Une variable qualitative?

A

Variable quantitative : valeurs qu’elle emprunte sont numériques (par ex. nombre annuel de visites chez le médecin).

Variable qualitative : valeurs qu’elle emprunte décrivent des catégories (par ex. niveau socio-économique).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce qu’une variable quantitative continue? Une variable quantitative discrète?

A

Variable quantitative continue : valeurs peuvent être aussi précises que l’instrument de mesure le permet (par ex. poids).

Variable quantitative discrète : quantités obtenues par dénombrement (par ex. nombre annuel de visites chez le dentiste).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qu’une variable qualitative nominale? Une variable qualitative ordinale?

A

Variable qualitative nominale : ses catégories ne peuvent être ordonnées selon un système établi (par ex. appartenance religieuse).

Variable qualitative ordinale : ses catégories peuvent être ordonnées de manière logique (par ex. niveau socio-économique).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est-ce qui est évalué par la corrélation (r)?

A

Le degré d’association linéaire entre deux variables continues, donc la force de la relation linéaire entre deux variables.

  • 1 : association positive parfaite
    • 1 : association négative parfaite
  • 0 : absence de relation linéaire

*Ne permet pas d’établir un lien de causalité!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce qui est évalué par le risque relatif et le rapport de cotes (au niveau des variables)?

A

Ils estiment le degré d’association entre deux variables qualitatives. Leur relation est souvent illustrée par un tableau de contingence.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce qu’une distribution normale?

A

Distribution : répartition des différentes valeurs d’une variable dans la population.

Distribution normale :

  • Continue
  • En forme de cloche
  • Symétrique par rapport à la moyenne
  • Unimodale

*Il faut que ce soit spécifié dans le problème pour qu’on sache si une distribution est normale ou pas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Un échantillon n’est parfois pas complètement représentatif de la population qu’il représente. Comment peut-on tenir compte de la variation échantillonnale?

A

On construit un intervalle de confiance autour de l’estimation généré par l’échantillon : il s’agit des valeurs entre lesquelles la caractéristique recherchée est susceptible de se trouver.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qui affecte la largeur d’un intervalle de confiance?

A
  • Niveau de confiance désiré : plus il est élevé, plus l’intervalle est grand.
  • Taille de l’échantillon : plus elle est élevée, plus l’intervalle est petit.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Comment fonctionne un test d’hypothèse?

A

Le chercheur l’effectue afin de déterminer l’hypothèse la plus vraisemblable lors d’une étude :

  • Hypothèse nulle (H0) : absence de changement, de relation
  • Hypothèse alternative (H1) : celle que le chercheur souhaite démontrer, présence de relation

*L’hypothèse nulle se définit toujours par une égalité.

Pour déterminer quelle hypothèse est vraie, le chercheur forme un échantillon à partir duquel il effectue une estimation du paramètre étudié. Il compare ensuite l’estimation à ses hypothèses.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que la valeur p? À quoi elle sert?

A

Valeur p : probabilité qu’un échantillon pris au hasard produise un résultat plus extrême que celui qui a été observé.

Elle permet de juger si l’estimation du paramètre est compatible ou non avec l’hypothèse nulle. Plus la valeur p est faible, plus l’hypothèse nulle est invraisemblable et on la rejette.

Habituellement, on rejette H0 si valeur p < 5% ou 1% (niveau du test).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce qu’une erreur de première espèce? De deuxième espèce?

A

Erreur de première espèce (probabilité de la commettre est notée alpha) : si le chercheur rejette l’hypothèse nulle et qu’elle est vraie.

Erreur de deuxième espèce (probabilité de la commettre est notée ß) : si le chercheur accepte l’hypothèse nulle et qu’elle est fausse.

Probabilité de rejetter H0 quand elle est fausse (donc de prendre la bonne décision) est la puissance de l’étude (notée 1 - ß).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est-ce qu’on veut dire quand on parle de groupes indépendants dans une étude? De groupes dépendants?

A

Les groupes dépendants sont appariés ; à chaque sujet d’un groupe correspond un et un seul sujet de l’autre groupe.

Par ex. lorsqu’un groupe de sujets est mesuré avant et après avoir été soumis à une intervention expérimentale, il s’agit d’un groupe apparié (avec lui-même).

Les groupes indépendants ne sont pas appariés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce qu’une fréquence attendue et à quoi ça sert?

A

Fréquences attendues : correspondent aux fréquences (par ex. nombre de personnes atteintes d’une maladie) auxquelles on s’attend lorsque l’hypothèse nulle est vraie.

Plus les fréquences observées (les vrais résultats de l’étude) s’éloignent de celles qui sont attendues, plus on peut conclure que l’hypothèse nulle est fausse et la rejeter en conséquence.

Manière rapide de calculer une fréquence attendue (pour une case précise du tableau de contingence) : (total de la ligne X total de la colonne) / total des observations de l’étude.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Comment peut-on déterminer quel type de test est approprié au type d’étude mené?

A

Il faut utiliser correctement les organigrammes (voir dans le manuel de statistiques, ils vont être disponibles à l’examen).

  • Premier organigramme : pour les variables continues, discrètes à plusieurs valeurs, ordinales à plusieurs catégories.
  • Deuxième organigramme : pour les variables discrètes à peu de valeurs, ordinales à peu de catégories, nominales.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dans le cas d’un test d’hypothèses, comment utilise-t-on l’intervalle de confiance?

A
  • Si l’intervalle de confiance exclut la valeur de l’hypothèse nulle, celle-ci est rejetée
  • Si l’intervalle de confiance inclut la valeur de l’hypothèse nulle, celle-ci est conservée (et on conclut que l’hypothèse alternative est fausse)
17
Q

Dans le cas d’un test d’hypothèses, comment utilise-t-on la corrélation?

A

Comme on sait qu’en l’absence de relation linéaire entre les variables continues, la corrélation est nulle …

  • H0 : r = 0
  • H1 : r n’égale pas 0

Si la valeur 0 n’appartient pas à l’intervalle de confiance autour de r (ou si valeur p est suffisamment petite), il y a rejet de H0 et on peut conclure à une relation linéaire entre les variables.

À noter : même si la corrélation est bonne, ça ne veut pas dire qu’on peut déterminer Y si on a la valeur de X.

18
Q

Qu’est-ce que l’analyse de régression?

A

Technique qui consiste à déterminer les paramètres d’un modèle liant une variable continue dépendante (notée Y) à une variable continue indépendante (notée X).

Le modèle correspond à une droite :

Y = b0 + b1X

19
Q

Expliquer les différentes composantes de la droite qui caractérise l’analyse de régression : Y = b0 + b1X.

A
  • b0 : ordonnée à l’origine ; c’est la valeur de Y lorsque X vaut 0.
  • b1 (coefficient de régression) : pente de la droite ; c’est le changement dans Y qu’entraîne un changement d’une unité dans X.

Le signe de b1 est celui du coefficient de corrélation.

20
Q

Dans le cas d’un test d’hypothèses, comment interprète-t-on le coefficient de régression?

A

Un test d’hypothèses sur b1 permet de savoir s’il existe une association linéaire significative entre deux variables.

  • H0 : b1 = 0
  • H1 : b1 n’égale pas 0

Si 0 n’appartient pas à l’intervalle de confiance autour de b1 (ou si valeur p est suffisamment petite), le coefficient de régression est non nul et il y a une association linéaire.

21
Q

Qu’est-ce que le modèle de régression linéaire multiple?

A

Extension du modèle de régression linéaire simple :

Y = b0 + b1X1 + b2X2 + …

Il permet de prendre en compte l’effet simultané de plusieurs variables indépendantes sur la variable dépendante.

22
Q

Peut-on faire un test d’hypothèses sur chacun des coefficients de régression de l’équation (droite) du modèle de régression linéaire multiple?

A

Oui. Le test d’hypothèses sur b1 (par exemple) permet de déterminer si la variable X1 est utile pour prédire Y en présence des autres variables indépendantes. Il en va de même pour b2, b3

À noter : tous les coefficients sont ajustés, c’est-à-dire qu’ils tiennent compte de l’effet simultané des autres variables indépendantes.

23
Q

Qu’est-ce que le coefficient de détermination (R²)?

A

Coefficient de détermination : indique quelle proportion de la variation de la variable dépendante est attribuable à l’ensemble des variables indépendantes incluses dans le modèle.

24
Q

Qu’est-ce qu’un modèle de régression logistique et à quoi ça sert?

A

Utilisé lorsqu’on désire étudier l’effet simultané de plus d’une variable indépendante (par ex. plusieurs facteurs de risque) sur une variable dépendante dichotomique (par ex. malade versus non-malade).

Il permet de dire si un facteur de risque spécifique modifie les chances que la variable dépendante se produise (par ex. souffrir d’une maladie). Il fournit des rapports de cote (RC) ajustés, c’est-à-dire qui tiennent compte de l’effet simultané des autres variables indépendantes considérées dans le modèle.