Statistiques Flashcards

Question 1

Q

Qu’est-ce que la statistique descriptive? La statistique inférentielle?

Answer

A

Statistique descriptive : vise à produire une synthèse des données prélevées sur un échantillon.

Statistique inférentielle : partant des observations faites sur un échantillon, vise à énoncer une conclusion qui soit valable pour l’ensemble de la population.

Question 2

Q

Qu’est-ce qu’une variable quantitative? Une variable qualitative?

Answer

A

Variable quantitative : valeurs qu’elle emprunte sont numériques (par ex. nombre annuel de visites chez le médecin).

Variable qualitative : valeurs qu’elle emprunte décrivent des catégories (par ex. niveau socio-économique).

Question 3

Q

Qu’est-ce qu’une variable quantitative continue? Une variable quantitative discrète?

Answer

A

Variable quantitative continue : valeurs peuvent être aussi précises que l’instrument de mesure le permet (par ex. poids).

Variable quantitative discrète : quantités obtenues par dénombrement (par ex. nombre annuel de visites chez le dentiste).

Question 4

Q

Qu’est-ce qu’une variable qualitative nominale? Une variable qualitative ordinale?

Answer

A

Variable qualitative nominale : ses catégories ne peuvent être ordonnées selon un système établi (par ex. appartenance religieuse).

Variable qualitative ordinale : ses catégories peuvent être ordonnées de manière logique (par ex. niveau socio-économique).

Question 5

Q

Qu’est-ce qui est évalué par la corrélation (r)?

Answer

A

Le degré d’association linéaire entre deux variables continues, donc la force de la relation linéaire entre deux variables.

1 : association positive parfaite
- 1 : association négative parfaite
0 : absence de relation linéaire

*Ne permet pas d’établir un lien de causalité!

Question 6

Q

Qu’est-ce qui est évalué par le risque relatif et le rapport de cotes (au niveau des variables)?

Answer

A

Ils estiment le degré d’association entre deux variables qualitatives. Leur relation est souvent illustrée par un tableau de contingence.

Question 7

Q

Qu’est-ce qu’une distribution normale?

Answer

A

Distribution : répartition des différentes valeurs d’une variable dans la population.

Distribution normale :

Continue
En forme de cloche
Symétrique par rapport à la moyenne
Unimodale

*Il faut que ce soit spécifié dans le problème pour qu’on sache si une distribution est normale ou pas.

Question 8

Q

Un échantillon n’est parfois pas complètement représentatif de la population qu’il représente. Comment peut-on tenir compte de la variation échantillonnale?

Answer

A

On construit un intervalle de confiance autour de l’estimation généré par l’échantillon : il s’agit des valeurs entre lesquelles la caractéristique recherchée est susceptible de se trouver.

Question 9

Q

Qu’est-ce qui affecte la largeur d’un intervalle de confiance?

Answer

A

Niveau de confiance désiré : plus il est élevé, plus l’intervalle est grand.
Taille de l’échantillon : plus elle est élevée, plus l’intervalle est petit.

Question 10

Q

Comment fonctionne un test d’hypothèse?

Answer

A

Le chercheur l’effectue afin de déterminer l’hypothèse la plus vraisemblable lors d’une étude :

Hypothèse nulle (H₀) : absence de changement, de relation
Hypothèse alternative (H₁) : celle que le chercheur souhaite démontrer, présence de relation

*L’hypothèse nulle se définit toujours par une égalité.

Pour déterminer quelle hypothèse est vraie, le chercheur forme un échantillon à partir duquel il effectue une estimation du paramètre étudié. Il compare ensuite l’estimation à ses hypothèses.

Question 11

Q

Qu’est-ce que la valeur p? À quoi elle sert?

Answer

A

Valeur p : probabilité qu’un échantillon pris au hasard produise un résultat plus extrême que celui qui a été observé.

Elle permet de juger si l’estimation du paramètre est compatible ou non avec l’hypothèse nulle. Plus la valeur p est faible, plus l’hypothèse nulle est invraisemblable et on la rejette.

Habituellement, on rejette H₀ si valeur p < 5% ou 1% (niveau du test).

Question 12

Q

Qu’est-ce qu’une erreur de première espèce? De deuxième espèce?

Answer

A

Erreur de première espèce (probabilité de la commettre est notée alpha) : si le chercheur rejette l’hypothèse nulle et qu’elle est vraie.

Erreur de deuxième espèce (probabilité de la commettre est notée ß) : si le chercheur accepte l’hypothèse nulle et qu’elle est fausse.

Probabilité de rejetter H₀ quand elle est fausse (donc de prendre la bonne décision) est la puissance de l’étude (notée 1 - ß).

Question 13

Q

Qu’est-ce qu’on veut dire quand on parle de groupes indépendants dans une étude? De groupes dépendants?

Answer

A

Les groupes dépendants sont appariés ; à chaque sujet d’un groupe correspond un et un seul sujet de l’autre groupe.

Par ex. lorsqu’un groupe de sujets est mesuré avant et après avoir été soumis à une intervention expérimentale, il s’agit d’un groupe apparié (avec lui-même).

Les groupes indépendants ne sont pas appariés.

Question 14

Q

Qu’est-ce qu’une fréquence attendue et à quoi ça sert?

Answer

A

Fréquences attendues : correspondent aux fréquences (par ex. nombre de personnes atteintes d’une maladie) auxquelles on s’attend lorsque l’hypothèse nulle est vraie.

Plus les fréquences observées (les vrais résultats de l’étude) s’éloignent de celles qui sont attendues, plus on peut conclure que l’hypothèse nulle est fausse et la rejeter en conséquence.

Manière rapide de calculer une fréquence attendue (pour une case précise du tableau de contingence) : (total de la ligne X total de la colonne) / total des observations de l’étude.

Question 15

Q

Comment peut-on déterminer quel type de test est approprié au type d’étude mené?

Answer

A

Il faut utiliser correctement les organigrammes (voir dans le manuel de statistiques, ils vont être disponibles à l’examen).

Premier organigramme : pour les variables continues, discrètes à plusieurs valeurs, ordinales à plusieurs catégories.
Deuxième organigramme : pour les variables discrètes à peu de valeurs, ordinales à peu de catégories, nominales.

Question 16

Q

Dans le cas d’un test d’hypothèses, comment utilise-t-on l’intervalle de confiance?

Answer

A

Si l’intervalle de confiance exclut la valeur de l’hypothèse nulle, celle-ci est rejetée
Si l’intervalle de confiance inclut la valeur de l’hypothèse nulle, celle-ci est conservée (et on conclut que l’hypothèse alternative est fausse)

Question 17

Q

Dans le cas d’un test d’hypothèses, comment utilise-t-on la corrélation?

Answer

A

Comme on sait qu’en l’absence de relation linéaire entre les variables continues, la corrélation est nulle …

H₀ : r = 0
H₁ : r n’égale pas 0

Si la valeur 0 n’appartient pas à l’intervalle de confiance autour de r (ou si valeur p est suffisamment petite), il y a rejet de H₀ et on peut conclure à une relation linéaire entre les variables.

À noter : même si la corrélation est bonne, ça ne veut pas dire qu’on peut déterminer Y si on a la valeur de X.

Question 18

Q

Qu’est-ce que l’analyse de régression?

Answer

A

Technique qui consiste à déterminer les paramètres d’un modèle liant une variable continue dépendante (notée Y) à une variable continue indépendante (notée X).

Le modèle correspond à une droite :

Y = b₀ + b₁X

Question 19

Q

Expliquer les différentes composantes de la droite qui caractérise l’analyse de régression : Y = b₀ + b₁X.

Answer

A

b₀ : ordonnée à l’origine ; c’est la valeur de Y lorsque X vaut 0.
b₁ (coefficient de régression) : pente de la droite ; c’est le changement dans Y qu’entraîne un changement d’une unité dans X.

Le signe de b₁ est celui du coefficient de corrélation.

Question 20

Q

Dans le cas d’un test d’hypothèses, comment interprète-t-on le coefficient de régression?

Answer

A

Un test d’hypothèses sur b₁ permet de savoir s’il existe une association linéaire significative entre deux variables.

H₀ : b₁ = 0
H₁ : b₁ n’égale pas 0

Si 0 n’appartient pas à l’intervalle de confiance autour de b₁ (ou si valeur p est suffisamment petite), le coefficient de régression est non nul et il y a une association linéaire.

Question 21

Q

Qu’est-ce que le modèle de régression linéaire multiple?

Answer

A

Extension du modèle de régression linéaire simple :

Y = b₀ + b₁X₁ + b₂X₂ + …

Il permet de prendre en compte l’effet simultané de plusieurs variables indépendantes sur la variable dépendante.

Question 22

Q

Peut-on faire un test d’hypothèses sur chacun des coefficients de régression de l’équation (droite) du modèle de régression linéaire multiple?

Answer

A

Oui. Le test d’hypothèses sur b₁ (par exemple) permet de déterminer si la variable X₁ est utile pour prédire Y en présence des autres variables indépendantes. Il en va de même pour b₂, b₃…

À noter : tous les coefficients sont ajustés, c’est-à-dire qu’ils tiennent compte de l’effet simultané des autres variables indépendantes.

Question 23

Q

Qu’est-ce que le coefficient de détermination (R²)?

Answer

A

Coefficient de détermination : indique quelle proportion de la variation de la variable dépendante est attribuable à l’ensemble des variables indépendantes incluses dans le modèle.

Question 24

Q

Qu’est-ce qu’un modèle de régression logistique et à quoi ça sert?

Answer

A

Utilisé lorsqu’on désire étudier l’effet simultané de plus d’une variable indépendante (par ex. plusieurs facteurs de risque) sur une variable dépendante dichotomique (par ex. malade versus non-malade).

Il permet de dire si un facteur de risque spécifique modifie les chances que la variable dépendante se produise (par ex. souffrir d’une maladie). Il fournit des rapports de cote (RC) ajustés, c’est-à-dire qui tiennent compte de l’effet simultané des autres variables indépendantes considérées dans le modèle.