Introduction à l'analyse statistique inférentielle Flashcards

1
Q

Inférence statistique

A

Il y a deux types d’erreurs qui peuvent venir «fausser» (invalider) les résultats d’une étude:

1) les erreurs systématiques (les biais) – vues dans la 1ère moitié de la session.

2) les erreurs aléatoires (la chance, le hasard) – vues dans la 2e moitié de la session.
* L’inférence statistique permet de jauger l’effet du hasard (de la chance) sur les résultats d’une étude.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Inférence statistique : c’est quoi et elle sert à quoi*****

A

Définition: Champ de la statistique qui a pour objet de déterminer la probabilité que des événements surviennent seulement par chance (c.-à-d., en raison du hasard).

Applications (utilité):
Estimer les paramètres d’une population (p.ex.: incidence cumulée, prévalence, moyenne) avec une certaine marge d’erreur;
Estimer des différences entre des mesures (p.ex.: moyennes, médianes, proportions) et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Estimer des associations entre des variables et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Faire des prédictions au sujet d’une variable dépendante et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Estimation de paramètres

A

Lors d’une étude, l’estimation des caractéristiques d’une population (p.ex.: une moyenne, un taux d’incidence) se fonde sur les valeurs observées dans un échantillon;

Même si cet échantillon a été sélectionné aléatoirement, ses caractéristiques ne sont qu’une approximation des valeurs réelles dans la population;

De plus, plusieurs échantillons de taille identique issus de la même population n’auront pas exactement les mêmes caractéristiques (la même moyenne, par exemple);

C’est ce qu’on appelle l’erreur d’échantillonnage (voir prochaine diapo);

Comment pouvons-nous savoir si les caractéristiques que l’on rapporte dans une étude sont précises ou non ? Quelles représentent bien les valeurs réelles de la population?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Estimation de paramètres***

A

Afin de tenir compte de l’erreur d’échantillonnage, on rapporte souvent une caractéristique donnée de la population (p.ex.: incidence, prévalence) avec sa marge d’erreur;

Cette marge d’erreur porte le nom d’intervalle de confiance;
MARGE ERREUR= INTERVALLE DE CONFIANCE

Définition: L’intervalle de confiance (IC), c’est l’intervalle de valeurs qui a de fortes probabilités (généralement 95%) de contenir la vraie valeur du paramètre d’intérêt;

Pourquoi 95%  relié à cette idée de «normalité statistique» abordée au cours 9 (voir prochaine diapo pour un rappel);

Dans certaines études, la marge d’erreur peut être plus ou moins grande (p.ex.: IC99% ou IC90%);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Estimation de paramètres

A

L’importance de la marge d’erreur (c.-à-d., la largeur de l’intervalle de confiance) dépend de la taille de l’échantillon (le n):

  • Un grand échantillon implique une petite marge d’erreur (et donc un intervalle de confiance plus étroit) et vice versa;
  • C’est pour cette raison que dans plusieurs études, la section méthode comporte une sous-section appelée «sample size calculation» (calcul de la taille de l’échantillon requis) ou «power analysis » (analyse de puissance statistique);
  • On souhaite ainsi déterminer, avant le début de l’étude, le nombre de patients requis afin de produire des estimés de paramètres qui sont relativement précis (c.-à-d., qui ont une marge d’erreur relativement étroite).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comparaison de mesures**

A

L’inférence statistique peut aussi être utilisée afin de comparer les caractéristiques de deux ou plusieurs groupes (voir diapos suivantes pour exemple) afin de déterminer si leurs différences sont réelles ou le fruit du hasard;
C’est alors un processus qui porte le nom de «vérification d’hypothèses statistiques»;
Ce processus comporte 4 étapes. Elles sont décrites dans les prochaines diapos;
Note: Ces étapes sont rarement (voire jamais) écrites textuellement dans les articles de recherche, mais certains mots-clés nous permettent de les déceler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comparaison de mesures : recette générale étape 1

A

Formuler l’hypothèse nulle (H0) et l’hypothèse alternative (HA)

H0: Dans la population, il n’y a pas de différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);

HA: Dans la population, il y a une différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);

Note: ces hypothèses ne sont jamais écrites dans les articles de recherche. On prend pour acquis que tout le monde sait ça ou pense comme ça!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comparaison de mesures : recette générale étape 2

A

Définir la marge d’erreur (synonyme: seuil de signification statistique [statistical significance], seuil α)
Par convention, on fixe α à 5% (0,05); plus rarement, on le fixe à 1% (0,01); ce qui veut dire :
5%: On accepte de se tromper 1 fois / 20;
1%: On accepte de se tromper 1 fois / 100;
On «accepte de se tromper», car on travaille avec un échantillon et on sait qu’il y a toujours un certain risque que la chance nous joue des tours;
Utilité: c’est un critère de décision. On s’en sert à l’étape 4 pour décider si on accepte l’hypothèse nulle ou si on la rejette en faveur de l’hypothèse alternative.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comparaison de mesures : recette générale étape 3

A

Effectuer le test statistique approprié:
L’algorithme de décision (diapo suivante) donne la liste des principaux tests statistiques rencontrés dans la littérature. Il y a deux catégories de tests:
Test paramétrique: catégorie de tests statistiques utilisés pour des variables qui suivent une distribution normale (ou une autre forme connue de distribution des données);
Test non paramétrique: catégorie de tests statistiques utilisés lorsque les données ne suivent pas une distribution connue;
Note: L’algorithme est un guide de lecture: Je ne vous demanderai jamais, par exemple, de me dire quel test est approprié pour comparer la différence entre deux moyennes. Il faut juste savoir que ces tests servent à comparer des mesures.

Effectuer le test statistique approprié (suite)
Quel que soit le test statistique utilisé dans une étude, une valeur p est toujours produite;
Valeur p: C’est la probabilité d’observer par hasard seulement un score aussi extrême que celui observé dans l’échantillon de l’étude si H0 est vraie:
Dans notre exemple, c’est la probabilité que la différence entre la durée médiane de séjour des unités contrôle (3.27 jours) et celle des unités d’intervention (3.25 jours) soit le fruit du hasard ou d’erreurs d’échantillonnage;
Dans le tableau de la diapo 17, une valeur p = 0.40 est rapportée pour la comparaison des durées médianes de séjour. Ça veut dire quoi?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Comparaison de mesures : recette générale étape 4

A

Interpréter les résultats du test statistique:
L’interprétation se fait par rapport au seuil de significativité statistique défini à l’étape 2 (diapo 19):
Si p ≤ α, on rejette l’hypothèse nulle (H0) et on accepte l’hypothèse alternative (HA). On conclut que la différence observée entre les deux groupes d’unités n’est pas le fruit du hasard; qu’elle est réelle ou «statistiquement significative».

Si p > α on accepte l’hypothèse nulle (H0) et on conclut qu’il n’y a pas de différence entre les durées médianes de séjour des deux groupes. On conclut que la différence observée entre les groupes est le fruit du hasard; qu’elle «n’est pas statistiquement significative». C’est le cas dans notre exemple (p = 0,40; ce qui est > que notre seuil de significativité statistique α = 0,05).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. on formule hypothèse
  2. on défini la marge d’erreur 9ex : on accepte de se tromper une fois sur 20 ou une fois sur 100
  3. on fait le test statistique approprié
  4. interprétation
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Estimer des associations (correlation) entre des variables et déterminer la probabilité qu’elles soient réelles

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Estimer des associations bivariées

A

L’inférence statistique (ou vérification d’hypothèses statistiques) permet également de déterminer s’il existe des associations (corrélations [r]) entre deux variables; nommées variable indépendante et variable dépendante;
On suit alors les 4 mêmes étapes décrites pour les mesures de comparaison:
Formulation des hypothèses nulle et alternative (tacite);

H0: Dans la population, il n’y a pas de corrélation entre les variables (r = 0);

HA: Dans la population, il y a une corrélation entre les variables (r ≠ 0);

Détermination du seuil de significativité statistique (α = 0,05);

Réalisation du test statistique (une mesure de corrélation, r);

Interprétation de la corrélation et de la valeur p;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

tests paramétriques et non paramétriques servant à mesurer l’association entre deux variables

A

but : mesure l’association entre deux variables
test paramétriques : coefficient de corrélation de Pearson
test non paramétriques : coefficient de correlation Spearman ou test de kendall

But : mesure association entre deux variables dichotomiques (deux valeurs)
test paramétriques :
test non paramétriques : coefficient phi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Estimer des associations bivariées*****

A

Coefficient de corrélation (r): Valeur qui permet de décrire l’intensité, la direction et la signification statistique de l’association linéaire entre deux variables:

3 caractéristiques:

Direction (ou sens):
Positive : coefficient r > 0
Négative : coefficient r < 0
Valeur nulle: coefficient r = 0

Intensité ou force (varie de – 1,00 à + 1,00):
Forte: r ≥ ±0,70**
Modérée: r entre ± 0,31 et 0,69
Faible: r < ±0,30**

Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

bivariés : deux variables indépendantes
multivariés : plus de 2 variables indépendantes

A
17
Q

Estimer des associations bivariées

A

Interprétation: Il y a une association modérée et positive entre l’âge et le temps de récupération. Cette association est statistiquement significative au seuil de 5%.

L’association est:
Modérée, car r est entre 0,31 et 0,69
Positive car plus l’âge avance, plus le temps de récupération est long.
Statistiquement significative, car p < 0,05.

18
Q
A