Section 2 Flashcards
statistique descriptive vs inférentielle
descriptive : résumer un ensemble de données dans une population ou échantillon pur présenter des faits saillants
inférentielle : généraliser un résultat d’un échantillon à une population
- énoncer une conclusion
moyenne d’un échantillon vs moyenne d’une population
échantillon : 𝑋/ population : µ
le théorème central limite propose que ?
toutes les moyennes d’échantillons seront distribués normalement autour de la moyenne de la population (µ)
l’écart-type de la distribution des échantillons est ?
l’erreur-type (pour la population) : 𝝈∕√𝒏
l’erreur-type est estimé à partir de ?
s / √𝒏
quelles sont les stratégies pour permettre de déterminer si les résultats du théorème central limite sont signitifcatifs ?
1) intervalles de confiance
2) tests statistiques
un intervalle retrouve 95% des données dans un échantillon : : 𝐗̅± 2s
pour trouver la moyenne de la population (µ), quelle est la formule ?
𝐗̅±𝟐𝐬∕√𝐧
Un chercheur joint par téléphone 100 personnes ayant utilisé ce service dans les 6 derniers mois et mesure leur satisfaction sur une échelle variant de 0 (très insatisfait) à 100 (très satisfait). Si 𝑿̅=𝟕𝟒 et écart-type (s) = 10
74 + 2 * 10 = 94
74 - 2 * 10 = 54
[54 - 94] représente 95% des observations de l’échantillon
Un chercheur joint par téléphone 100 personnes ayant utilisé ce service dans les 6 derniers mois et mesure leur satisfaction sur une échelle variant de 0 (très insatisfait) à 100 (très satisfait). Si 𝑿̅=𝟕𝟒 et écart-type (s) = 10
cherche la moyenne de la population
[54 - 94] représente 95% des observations de l’échantillon
74 + 20 / 10 = 76
74 - 20 / 10 = 72
il y a des chances (95%) que µ (la moyenne de la population) soit entre [72 - 76]
plus la taille de l’échantillon sera grand (n), plus l’intervalle obtenu sera ?
petit –> précis
IC des observations de l’échantillon (descriptif) vs de la population (inférence)
IC échantillon : IC95% = 𝑋̅±2𝑠
- seulement si la distribution est normale
IC population (inférence) : IC95% = 𝑋̅±2𝑠∕√𝑛
- les données sont applicable si le n est supérieur à 30
la valeur p fait référence à ?
le résultat du test d’hypothèse qui correspond à la probabilité que les données de recherche aient été obtenus par hasard (autrement dit, la probabilité que l’hypothèse nulle soit vraie)
probabilité d’avoir tort en affirmant qu’une différence existe
symbole pour comparer des proportions
symbole de PI (π) pour comparer des proportions
le test d’hypothèse compare ?
l’hypothèse nulle (H0) à une hypothèse alternative (H1)
si la valeur p est petite, cela veut dire ?
que la probabilité que l’hypothèse nulle (H0) soit vraie est petite –> on rejette H0 et on assume que H1 est vrai
quel est le seuil primordial à partir duquel on rejette H0 ?
seuil alpha : degré de signification statistique (généralement 5%)
si la valeur P est inférieur au niveau du test (p < α), on rejette H0 –> résultat statistiquement significatif
si la valeur p est égale ou supérieur au seuil alpha, on conserve l’hypothèse nulle (H0) –> résultat non-significatif
est-ce qu’un résultat statistiquement significatif que ce l’est aussi cliniquement ?
non :
1) il faut mesurer l’importance de l’effet en contexte clinique
2) déterminé par un consensus scientifique et/ou par expertise clinique et/ou par gros bon sens
facteurs affectant le résultat du test statistique
- % d’écart entre les données comparées
- probable qu’une petite différence soit due au hasard, mais peu probable qu’une très large différence soit due au hasard
- par rapport aux moyennes ou proportions entre les groupes comparées - taille de l’échantillon
- l’écart-type : un très grand écart-type indique une très grande variabilité (variable influencée par ++ facteurs, la différence observée est peut être aussi du au hasard)
2 types d’erreurs lors de l’évaluation de la valeur p
- rejeter à tort H0 : on assume qu’il existe une différence statistiquement significative alors qu’en réalité H0 est vrai (ERREUR ALPHA ou DE PREMIÈRE ESPÈCE) –> faux positif
- lorsque échantillon tellement gros qu’on accepte statistiquement H1 alors que cliniquement l’intervention a pas d’effet observable. - on rejette pas statistiquement H0 alors qu’en réalité H0 est fausse (ERREUR DE 2e ESPÈCE ou BÊTA) –> faux négatif
- survient lorsqu’on a une trop grande variabilité ou pas assez de sujets pour prouver statistiquement qu’il y a une différence
mesure la probabilité de ne pas commettre d’errer de type 2
mesure la puissance statistique : 1 - bêta
on considère qu’une puissance de 80% est considéré adéquat. Avant d’accepter H0, il faut calculer la puissance avant de conclure si on ne fait pas une erreur.
facteurs influençant la puissance
- taille échantillon : + c’est grand + la puissance est élevé
- taille de l’effet : + la taille est taille, plus la puissance est élevé
- variation : plus la variation (écart-type) est grand, plus la puissance est faible
- seuil alpha : plus le seuil est petit, plus la puissance est faible
le choix du test statistique (pour valeur p) dépend de ?
- type de variable
- quantitative ou qualitative (ordinale vs nominale)
- moyenne vs proportion - nombre de groupes impliqués
- groupes dépendants / indépendants
- est-ce que les données comparées proviennent des mêmes sujets ou de sujets différents - type de distribution
- normale (et/ou n>30 par groupe) –> test paramétrique
- anormal (et n<30 par groupe) –> test non-paramétrique
groupe dépendant vs indépendant
dépendant : les mêmes patients dans le temps ou un groupe témoin apparié selon des caractéristique des patients
- force de préhension pré vs post
- témoins élections pour chacun des cas
indépendant : les patients ne se retrouvent pas dans les différents groupes
- un groupe avec médicament vs l’autre placebo
- un groupe malade vs l’autre non
test paramétrique possible si ?
grâce au TCL, si le nombre de sujets est supérieur à 30 par groupe, on peut utiliser des tests paramétriques peu importe la distribution de l’échantillon
si le N est inférieur à 30 par groupe, est-ce que la distribution ne sera pas normale ?
non –> il est possible que les données soient normalement distribués avec un n inférieur à 30
distribution non mentionnée –> test paramétrique et non-paramétrique à effectuer
dans les variables nominales ou ordinales (qualitatives), on ne tient pas en compte ?
la normalité et le nombre de groupes (donc moins de tests)
on évalue juste si on a des groupes dépendants et indépendants (si indépendant, il faut voir si fréquence attendue supérieur à 5)
fréquence attendues (Fa) =
total ligne * total colonne / TOTAL
pas de calcul de Fa, on veut juste comprendre la logique.
questions à se demander afin d’identifier le test approprié pour obtenir notre valeur p
- Quelle est la variable analysée ? Quelle est sa nature ?
- Combien de groupes sont comparés dans cette étude ?
- Les groupes sont-ils dépendants ou indépendants ?
- Peut-on présumer de la normalité des données ou non ? (pour les variables quantitatives)
comparer la qualité de vie mesurée de 0 à 100 selon 2 types de programme de réadaptation
qualité de vie : variable quantitative
2 groupes (2 programmes) : groupes indépendants