Introduction à l'analyse statistique inférentielle Flashcards

1
Q

Inférence statistique

A

Il y a deux types d’erreurs qui peuvent venir «fausser» (invalider) les résultats d’une étude:

1) les erreurs systématiques (les biais) – vues dans la 1ère moitié de la session.

2) les erreurs aléatoires (la chance, le hasard) – vues dans la 2e moitié de la session.
* L’inférence statistique permet de jauger l’effet du hasard (de la chance) sur les résultats d’une étude.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Inférence statistique : c’est quoi et elle sert à quoi*****

A

Définition: Champ de la statistique qui a pour objet de déterminer la probabilité que des événements surviennent seulement par chance (c.-à-d., en raison du hasard).

Applications (utilité):
Estimer les paramètres d’une population (p.ex.: incidence cumulée, prévalence, moyenne) avec une certaine marge d’erreur;
Estimer des différences entre des mesures (p.ex.: moyennes, médianes, proportions) et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Estimer des associations entre des variables et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Faire des prédictions au sujet d’une variable dépendante et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Estimation de paramètres

A

Lors d’une étude, l’estimation des caractéristiques d’une population (p.ex.: une moyenne, un taux d’incidence) se fonde sur les valeurs observées dans un échantillon;

Même si cet échantillon a été sélectionné aléatoirement, ses caractéristiques ne sont qu’une approximation des valeurs réelles dans la population;

De plus, plusieurs échantillons de taille identique issus de la même population n’auront pas exactement les mêmes caractéristiques (la même moyenne, par exemple);

C’est ce qu’on appelle l’erreur d’échantillonnage (voir prochaine diapo);

Comment pouvons-nous savoir si les caractéristiques que l’on rapporte dans une étude sont précises ou non ? Quelles représentent bien les valeurs réelles de la population?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Estimation de paramètres***

A

Afin de tenir compte de l’erreur d’échantillonnage, on rapporte souvent une caractéristique donnée de la population (p.ex.: incidence, prévalence) avec sa marge d’erreur;

Cette marge d’erreur porte le nom d’intervalle de confiance;
MARGE ERREUR= INTERVALLE DE CONFIANCE

Définition: L’intervalle de confiance (IC), c’est l’intervalle de valeurs qui a de fortes probabilités (généralement 95%) de contenir la vraie valeur du paramètre d’intérêt;

Pourquoi 95%  relié à cette idée de «normalité statistique» abordée au cours 9 (voir prochaine diapo pour un rappel);

Dans certaines études, la marge d’erreur peut être plus ou moins grande (p.ex.: IC99% ou IC90%);

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Estimation de paramètres

A

L’importance de la marge d’erreur (c.-à-d., la largeur de l’intervalle de confiance) dépend de la taille de l’échantillon (le n):

  • Un grand échantillon implique une petite marge d’erreur (et donc un intervalle de confiance plus étroit) et vice versa;
  • C’est pour cette raison que dans plusieurs études, la section méthode comporte une sous-section appelée «sample size calculation» (calcul de la taille de l’échantillon requis) ou «power analysis » (analyse de puissance statistique);
  • On souhaite ainsi déterminer, avant le début de l’étude, le nombre de patients requis afin de produire des estimés de paramètres qui sont relativement précis (c.-à-d., qui ont une marge d’erreur relativement étroite).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comparaison de mesures**

A

L’inférence statistique peut aussi être utilisée afin de comparer les caractéristiques de deux ou plusieurs groupes (voir diapos suivantes pour exemple) afin de déterminer si leurs différences sont réelles ou le fruit du hasard;
C’est alors un processus qui porte le nom de «vérification d’hypothèses statistiques»;
Ce processus comporte 4 étapes. Elles sont décrites dans les prochaines diapos;
Note: Ces étapes sont rarement (voire jamais) écrites textuellement dans les articles de recherche, mais certains mots-clés nous permettent de les déceler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comparaison de mesures : recette générale étape 1

A

Formuler l’hypothèse nulle (H0) et l’hypothèse alternative (HA)

H0: Dans la population, il n’y a pas de différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);

HA: Dans la population, il y a une différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);

Note: ces hypothèses ne sont jamais écrites dans les articles de recherche. On prend pour acquis que tout le monde sait ça ou pense comme ça!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comparaison de mesures : recette générale étape 2

A

Définir la marge d’erreur (synonyme: seuil de signification statistique [statistical significance], seuil α)
Par convention, on fixe α à 5% (0,05); plus rarement, on le fixe à 1% (0,01); ce qui veut dire :
5%: On accepte de se tromper 1 fois / 20;
1%: On accepte de se tromper 1 fois / 100;
On «accepte de se tromper», car on travaille avec un échantillon et on sait qu’il y a toujours un certain risque que la chance nous joue des tours;
Utilité: c’est un critère de décision. On s’en sert à l’étape 4 pour décider si on accepte l’hypothèse nulle ou si on la rejette en faveur de l’hypothèse alternative.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comparaison de mesures : recette générale étape 3

A

Effectuer le test statistique approprié:
L’algorithme de décision (diapo suivante) donne la liste des principaux tests statistiques rencontrés dans la littérature. Il y a deux catégories de tests:
Test paramétrique: catégorie de tests statistiques utilisés pour des variables qui suivent une distribution normale (ou une autre forme connue de distribution des données);
Test non paramétrique: catégorie de tests statistiques utilisés lorsque les données ne suivent pas une distribution connue;
Note: L’algorithme est un guide de lecture: Je ne vous demanderai jamais, par exemple, de me dire quel test est approprié pour comparer la différence entre deux moyennes. Il faut juste savoir que ces tests servent à comparer des mesures.

Effectuer le test statistique approprié (suite)
Quel que soit le test statistique utilisé dans une étude, une valeur p est toujours produite;
Valeur p: C’est la probabilité d’observer par hasard seulement un score aussi extrême que celui observé dans l’échantillon de l’étude si H0 est vraie:
Dans notre exemple, c’est la probabilité que la différence entre la durée médiane de séjour des unités contrôle (3.27 jours) et celle des unités d’intervention (3.25 jours) soit le fruit du hasard ou d’erreurs d’échantillonnage;
Dans le tableau de la diapo 17, une valeur p = 0.40 est rapportée pour la comparaison des durées médianes de séjour. Ça veut dire quoi?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Comparaison de mesures : recette générale étape 4

A

Interpréter les résultats du test statistique:
L’interprétation se fait par rapport au seuil de significativité statistique défini à l’étape 2 (diapo 19):
Si p ≤ α, on rejette l’hypothèse nulle (H0) et on accepte l’hypothèse alternative (HA). On conclut que la différence observée entre les deux groupes d’unités n’est pas le fruit du hasard; qu’elle est réelle ou «statistiquement significative».

Si p > α on accepte l’hypothèse nulle (H0) et on conclut qu’il n’y a pas de différence entre les durées médianes de séjour des deux groupes. On conclut que la différence observée entre les groupes est le fruit du hasard; qu’elle «n’est pas statistiquement significative». C’est le cas dans notre exemple (p = 0,40; ce qui est > que notre seuil de significativité statistique α = 0,05).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q
  1. on formule hypothèse
  2. on défini la marge d’erreur 9ex : on accepte de se tromper une fois sur 20 ou une fois sur 100
  3. on fait le test statistique approprié
  4. interprétation
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Estimer des associations (correlation) entre des variables et déterminer la probabilité qu’elles soient réelles

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Estimer des associations bivariées

A

L’inférence statistique (ou vérification d’hypothèses statistiques) permet également de déterminer s’il existe des associations (corrélations [r]) entre deux variables; nommées variable indépendante et variable dépendante;
On suit alors les 4 mêmes étapes décrites pour les mesures de comparaison:
Formulation des hypothèses nulle et alternative (tacite);

H0: Dans la population, il n’y a pas de corrélation entre les variables (r = 0);

HA: Dans la population, il y a une corrélation entre les variables (r ≠ 0);

Détermination du seuil de significativité statistique (α = 0,05);

Réalisation du test statistique (une mesure de corrélation, r);

Interprétation de la corrélation et de la valeur p;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

tests paramétriques et non paramétriques servant à mesurer l’association entre deux variables

A

but : mesure l’association entre deux variables
test paramétriques : coefficient de corrélation de Pearson
test non paramétriques : coefficient de correlation Spearman ou test de kendall

But : mesure association entre deux variables dichotomiques (deux valeurs)
test paramétriques :
test non paramétriques : coefficient phi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Estimer des associations bivariées*****

A

Coefficient de corrélation (r): Valeur qui permet de décrire l’intensité, la direction et la signification statistique de l’association linéaire entre deux variables:

3 caractéristiques:

Direction (ou sens):
Positive : coefficient r > 0
Négative : coefficient r < 0
Valeur nulle: coefficient r = 0

Intensité ou force (varie de – 1,00 à + 1,00):
Forte: r ≥ ±0,70**
Modérée: r entre ± 0,31 et 0,69
Faible: r < ±0,30**

Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

bivariés : deux variables indépendantes
multivariés : plus de 2 variables indépendantes

17
Q

Estimer des associations bivariées

A

Interprétation: Il y a une association modérée et positive entre l’âge et le temps de récupération. Cette association est statistiquement significative au seuil de 5%.

L’association est:
Modérée, car r est entre 0,31 et 0,69
Positive car plus l’âge avance, plus le temps de récupération est long.
Statistiquement significative, car p < 0,05.

18
Q

Estimer des associations bivariées

A

Puisqu’un coefficient de corrélation est un estimé du degré d’association entre deux variables (force et direction), il pourrait, dans certains articles, être rapporté avec son intervalle de confiance à 95% (IC95%).
L’IC95% aurait alors la même signification que précédemment: nous indiquer l’étendue des valeurs attendues de cette corrélation dans la population 19 fois sur 20 (ou 95% du temps).

19
Q

Mesure de prédiction/ analyse de régression

A

L’inférence statistique (ou vérification d’hypothèses statistiques) permet également de prédire la valeur d’une variable dépendante en se fondant sur la valeur d’une ou de plusieurs variables indépendantes;

On suit alors les 4 mêmes étapes décrites précédemment:

Formulation des hypothèses nulle et alternative (tacite);
H0: Dans la population, il n’y a pas d’association entre les variables ;
HA: Dans la population, il y a une association entre les variables;

Détermination du seuil de significativité statistique (α = 0,05);

Réalisation du test statistique (une analyse de régression);

Interprétation des coefficients de régression, et de la valeur p;

20
Q

Mesures de prédiction: régression
Que veut dire régression, quelles sont ses trois caractéristiques

A

Régression: Procédure statistique qui permet de prédire la valeur d’une variable dépendante en se fondant sur la valeur d’une ou de plusieurs variables indépendantes;
3 caractéristiques:
Donne la formule de la droite qui s’ajuste le mieux au nuage de points décrivant la relation entre les valeurs de deux variables. Cette formule est rarement donnée dans les articles scientifiques;
Produit un coefficient (bêta [β]) qui donne l’amplitude du changement de la variable dépendante pour chaque unité de changement de la variable indépendante (analogue à une corrélation, car la régression est aussi une mesure de l’association entre des variables);
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative» ;
Si p > 0,05, l’association est dite «non significative»;

21
Q

Formule d’une droite (de régression):

A

𝑦= 𝛽0+ 𝛽1 𝑥1

y = valeur de la variable dépendante (VD);
𝛽_0 = point d’origine de la droite sur l’axe des y (l’ordonnée);
Aussi appelée «intersection» ou «ordonnée à l’origine»;
C’est la valeur de y quand x1 = 0;
𝛽_1 = pente de la droite de régression;
A le même signe (+ ou -) que r, mais pas la même valeur
Aussi appelé «coefficient de régression» (analogue à une corrélation);
C’est l’influence d’une unité de changement de x (la VI) sur y (la VD);
C’est ce que vous devrez apprendre à interpréter;
x = valeur de la variable indépendante (VI);

22
Q

Interprétation de mesures de prédiction

A

Interprétation: TAD = 59,311 + 0,22(poids)
Pour chaque Kg additionnel gagné on observe une augmentation de la tension artérielle diastolique de 0,22 mm Hg. Il s’agit d’une augmentation, car il y a un + avant le coefficient;
Cette relation est statistiquement significative:
Au seuil de 5% car p < 0,05;
En conclusion:
La régression décrit (tout comme la corrélation) la relation (association) entre deux variables;
Son intérêt (utilité) tient au fait qu’on peut aussi l’utiliser (contrairement à la corrélation) afin de: 1) prédire des valeurs de la VD; 2) décrire la relation entre une VD et plusieurs VI

23
Q

Régression linéaire

A

Coefficient de régression (β): Valeur qui permet de décrire l’intensité, la direction et la signification statistique de l’association entre une VI et une VD continue:
3 caractéristiques:
Direction (ou sens):
Facteur de risque (Positif): coefficient de régression β > 0
Facteur de protection (Négatif): coefficient de régression β < 0
Valeur nulle: coefficient de régression β = 0
Intensité ou force:
Plus le coefficient β s’éloigne de la valeur nulle, plus l’association est forte, peu importe la direction (contrairement à une corrélation, le coefficient de régression n’est pas limité aux valeurs se situant entre -1 et +1);
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»

24
Q

Les types de tests statistiques de régression : régression linéaire simple, régression multiple, régression logistique

A

Régression linéaire simple : prédit la valeur d’une variable dépendante en se fondant sur la valeur d’UNE variable indépendante. type de variable continu VI et VD

Régression multiple : prédit la valeur d’une variable dépendante d’après les valeurs de plusieurs variables indépendantes. Est une extension de l’analyse de la régression linéaireé Type de variable; VI : nominale ou continues. VD : continu

Régression logistiques (peut être aussi simple ou multiple : détermine quelles sont les variables qui ont un impact sur la probabilité de survenue d’un évènement et estime les risques relatifs. VI : nominale ou continue. VD : nominale ou dichotomique

25
Q

la régression multiple

A

La régression multiple est une extension de la régression linéaire simple dans laquelle il y a plus d’une variable indépendante;
Si on reprend l’exemple précédent:
TAD = 59,311 + 0,22(poids) + 0,26(âge) + 0,11(sexe) + 0,17(tabagisme) – 0,34(exercice) + …
Dans une telle équation, l’association de chaque variable indépendante (VI) avec la variable dépendante (VD) est ajusté (tient compte) de celui des autres variables;
Permet: 1) d’identifier des facteurs de risque/protection indépendants d’une maladie (prédicteurs); 2) corriger/éliminer statistiquement les biais de confusion dues à l’âge, au sexe, etc.

26
Q

Interprétation de régression multiple

A

L’interprétation des coefficients de régression multiple se fait comme suit:
Net de l’effet des autres variables dans le modèle OU en tenant compte des autres variables:
Pour chaque année d’âge additionnelle, la TAD augmente de 0,26 mm Hg;
Si le sexe est représenté comme suit (femme = 0; homme = 1), le fait d’être un homme augmente la TAD de 0,11 mm Hg;
Si le fait de fumer est représenté comme suit (non-fumeur = 0; fumeur = 1), fumer augmente la TAD de 0,17 mm Hg;
Pour chaque augmentation de 1 point sur l’échelle d’activité physique, la TAD diminue de 0,34 mm Hg (elle diminue car un signe – précède le coefficient de régression);

27
Q

Les coefficients de régression nous permettent aussi de dire ceci:
Arrêter de fumer, c’est bien, mais faire de l’exercice, c’est mieux:
C’est bien, car fumer est un facteur de risque (son coefficient est positif; il augmente la TAD);
C’est mieux, car |0,34| est > que 0,17. L’effet de l’exercice est plus grand que celui du tabagisme;
Idéalement, vous devriez faire les deux
Car les coefficients sont additifs (|0,34| + 0,17 = 0,41);

Note:
|0,34| = un chiffre en valeur absolue (sans tenir compte du signe + ou -)

Ex : arrêter de fumer c’est bien mais faire de l’activité physique c’Est mieux
Concret dans le sens que si le pt ne veut changer qu’une seule habitude à la fois, on sait sur laquelle miser

28
Q

Régression logistique

A

Type particulier de régression qui permet de prédire la valeur d’une variable dépendante et se fondant sur la valeur d’une ou de plusieurs variables indépendantes;
Utilisé lorsque la variable dépendante est dichotomique (p.ex.: mort vs. vivant; récidive ou non);
Dans ce type particulier de régression, les coefficients de régression (β) portent le nom de rapports de cotes (odds ratio [OR]);
Leur interprétation est similaire à celle des coefficients de régression standard (voir exemple dans les diapos suivantes);

29
Q

Caractéristiques de régression logistique

A

Rapport de cotes (odds ratio): Valeur qui permet de décrire l’intensité, la direction, et la signification statistique de l’association entre une VI et une VD dichotomique:
3 caractéristiques:
Direction (ou sens):
Facteur de risque (positive): Rapport de cotes (odds ratio) > 1,00
Facteur de protection (négative): Rapport de cotes (odds ratio) < 1,00
Nulle: Rapport de cotes (odds ratio) = 1,00
Intensité ou force:
Plus le rapport de cotes s’éloigne de la valeur nulle, plus l’association est forte, peu importe la direction;
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»

30
Q

Ajusté veut dire qu’on met toutes les variables dépendantes ensemble et on regarde leurs effets sur la variable indépendante

Si on ajuste pas, ça veut dire qu’on regarde effet de chacune des variables dépendantes séparément sur la variable indépendante

31
Q

Objectif: Examiner les associations entre le ratio patients-infirmière, la mortalité et la mortalité secondaire à des complications chez des patients chirurgicaux, et des facteurs de rétention chez les infirmières (c.-à-d., la satisfaction au travail et le burnout).

Résultats: Après avoir ajusté pour les caractéristiques des patients et des hôpitaux, chaque patient additionnel par infirmière était associé à…

Interprétation:
Chaque patient additionnel par infirmière était associé à:
Une augmentation de 7% les chances de décéder dans les 30 jours suivant l’admission à l’hôpital (OR: 1,07; 95%CI: 1,03-1,12);
Une augmentation de 7% les chances de décéder de complications potentiellement évitables 30 jours suivant l’admission à l’hôpital (failure to rescue) (OR: 1,07; 95%CI: 1,02-1,11);
Une augmentation de 23% des chances de burnout (OR: 1,23; 95%CI: 1,13-1,34);
Une augmentation de 15% des chances d’insatisfaction au travail (OR: 1,15; 95%CI: 1,07-1,25);
Note: Les IC95% vous donnent la taille des associations attendues dans la population si cette étude serait répliquée ailleurs. Leur interprétation est la même que précédemment.

32
Q

Ce sont les associations ajustées qui sont d’intérêt clinique;

33
Q

Signification clinique vs. statistique

Peut importe le résultat, si aucune signification clinique alors ne nous sert à rien

Ligne de conduite de OIIQ; utiliser des données probantes soit cliniquement significative