Cours 3 et 4 - Compréhension pratique de la statistique Flashcards

1
Q

Un sondage est un exemple d’étude…

A

Observationnelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les 10 commandements du sondage bien construit

A
  1. Pop cible bien définie
  2. Échantillon représente pop cible
  3. Selection randomisée
  4. Taille échantillon
  5. Diminuer taux non-réponse
  6. Adapter sondage
  7. Formulation des phrases
  8. Bon timing
  9. Personnel formé
  10. Conclusions adaptées et justes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Le principe que chaque membre de la population cible a une chance égale d’être inclus fait allusion à quel principe en stats ?

A

Selection randomisée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

À quoi faut-il faire attention quand on sélectionne des participants pour notre étude ?

A

Sample convenience

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Plus la taille de l’échantillon est grande, plus l’information que l’on en tirera…

A

Sera fiable !

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment estime-t-on la marge d’erreur dans la réponse du sondage ?

A

1/ √ 𝑥
où x = nombre de participants

Représente l’erreur statistique entre les résultats du sondage par rapport à la population entière

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quel est le taux de réponse idéal en statistiques ?

A

Taux de réponse >70% idéal

N répondants/N total*100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Comment peut-on assurer le suivi (réponse au sondage/minimiser non réponse)

A

être attractif: coupons de rabais, prix à gagner, enveloppes timbrées pour retour réponses… Attention aux biais incitatifs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Façons d’adapter le sondage à la population

A

Choix de la voie de communication

Mail, téléphone, internet, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles erreurs peut-on commettre dans la formulation des phrases pour un sondage ?

A
  1. Niveau de précision

2. Formulation guidée implicitement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

a. Sondage demandant de juger favorablement le président Bill Clinton: 60% favorables…
b. Sondage demandant de juger favorablement le président Bill Clinton, en tant que personne: 40% favorables…

est un exemple de…

A

Niveau de précision

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Que pensez-vous de la mauvaise gérance gouvernementale de Donald Trump? Vs. Que pensez-vous de la gérance gouvernementale de Donald Trump?

est un exemple de…

A

Formulation guidée implicitement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Récolte des données sans biais et hautement précise; envisager tous les scénarios pour anticiper la manière de les gérer; homogénéité entre chaque personne qui va conduire le questionnaire

sont des exemples de…

A

Formation et adaptation du personnel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Erreurs classiques lorsqu’on tire conclusions à partir de sondages

A
  • Projection à une population plus large
  • Clamer la présence d’une différence qui n’est pas vraiment là
  • Dire que les résultats ne sont pas scientifiques mais les présenter comme si
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Comment éviter les erreurs classiques lorsqu’on tire conclusions à partir de sondages

A
  • Valider la bonne sélection des individus/conclusion en adéquation avec la population testée
  • Être vigilant vis-à-vis des statistiques. Différence plus grande que la marge d’erreur.
  • Faire attention quand on dit ces résultats ne sont pas scientifiques mais…
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Critères pour expérience bien menée chez l’humain

A

§ Taille d’échantillon assez grande

§ Sujets sélectionnés représentent la population d’intérêt

§ Si traitement, randomisation traités/contrôles

§ Contrôles pour facteurs confondants

§ Minimiser les biais/contrôles qualités

§ Analyse des données appropriée

§ Conclusions adaptées

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Que fait-on des données en études cliniques

A

Les données issues des participants de l’étude servent à tirer des conclusions transférables à une population plus large de futurs patients

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Que fait-on des données en études en laboratoire

A

données collectées constituent l’échantillon. À partir de cet échantillon, on fait des inférences/liens fiables à propose de la situation réelle (population)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Quatre éléments importants pour guider la taille de l’échantillon

A
  • Taille effet recherchée
  • Niveau de puissance
  • Seuil de signification
  • Variabilité attendue
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quel niveau de puissance est le gold standard ?

A

80%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quelle est la différence significative par convention ?

A

0.05

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Quelle question faut-il se poser quand on choisit notre échantillon ?

A

Quelle population, ou groupe d’étude est la plus représentative?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Définition: caractéristique non inclue ou contrôlée dans l’étude mais qui peut avoir une influence majeure sur le résultat.

A

Facteur confondant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Définition: échantillon standard contrôle permettant de détecter les erreurs/variations analytiques.

A

Contrôle qualité

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Le contrôle qualité permet de vérifier que le résultat….

A

est précis, fiable et valide

On s’assure que la variation biologique est indépendante de celle analytique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

En utilisant un contrôle qualité on veut que le groupe…

A

Ait peu de variabilité…

Ainsi la variabilité dans chaque groupe et intergroupe n’est pas due à des biais expérimentaux/techniques; la variabilité est biologique.

(agglomération des points du CQ dans une partie du graph p ex)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

3 erreurs à éviter lorsqu’on tire conclusions en études humaines

A

§ Exagération de l’interprétation des résultats
§ Faire des connexions, donner des explications non supportées par les statistiques
§ Tirer des conclusions hors-sujet, au-delà de la portée de l’étude en cours

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Quel design (animal ou humain) comporte plus d’hétérogénéité ?

A

Humain !

Chez animal, contrôle de tous les facteurs pouvant être confondants

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

2 catégories principales de variables

A
  1. Numériques (quantitatif)

2. Catégorielles (qualitatif)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Types de variables catégorielles

A
  1. Nominales (nom/catégorie)
  2. Ordinale
  3. Binaire (classification oui/non, valeur 0 ou 1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Quel type de variable suppose un nombre infini de valeurs réelles

A

Variable continue

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Quel type de variable suppose un nombre limité de valeurs

A

Variable discrète

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Qu’est-ce que le coefficient de variation permet d’évaluer

A

La dispersion

CV = écart-type/moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Checklist de verification des graphiques

A

Vérifier l’échelle des axes;

Éviter les changements d’échelle pour améliorer la visualisation du résultat;

Choisir le type de graphique le plus approprié selon les données;

Attention à la manière de représenter la dispersion; avoir conscience de ce que cela représente;

Interprétation/conclusion; basé sur les valeurs de P; Choix du test d’analyse approprié.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Qu’est-ce que la valeur de p permet de donner ?

A

un poids à la force de l’évidence expérimentale que nous donne la comparaison, par exemple, de deux conditions; valeur entre 0 et 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Valeur de p<0.05 suppose…

A

une forte évidence contre l’hypothèse nulle; donc on rejette l’hypothèse nulle et on accepte l’hypothèse alternative.

37
Q

Valeur de p>0.05…

A

suppose une faible évidence contre l’hypothèse nulle.

38
Q

H0 rejetée …

A

p<0,05; résultats statistiquement significatifs; Donc A ≠ B; on valide Ha

39
Q

H0 non rejetée

A

p>0,05; résultats non significatifs; Donc A non ≠ de B; on valide H 0 ou pas assez de preuves pour la rejeter

40
Q

Dans le cas où p est proche de 0,05…

A

on ne peut pas rejeter l’hypothèse H0.

Autrement dit, on rejette l’hypothèse alternative (Ha) qui suppose une différence.
*Mais peut-on à tout coup dire que H 0 est vraie?

41
Q

Deux types potentiels d’erreur en valeur de p

A

type I : faux positif

type II : faux négatif

42
Q

Définir erreur de type I en stats avec valeur de P

A

Il n’existe, en réalité, aucune différence entre les populations. MAIS, l’échantillonnage aléatoire peut conduire à des données sélectionnées au sein desquelles il y aura une différence suffisamment grande et statistiquement significative.

43
Q

Définir erreur de type II en stats avec valeur de P

A

existe, en réalité, une différence réelle entre les populations. MAIS, l’échantillonnage aléatoire, et une petite taille d’échantillons, peut produire une différence suffisamment petite et non statistiquement significative.

44
Q

La puissance statistique de p dépend de quelles variables

A

§ La taille de l’échantillon

§ L’ampleur de la dispersion ou écart type attendu

§ La taille de l’effet que l’on suppose exister

§ Le seuil de signification choisi (généralement 0,05)

45
Q

Qu’est-ce qu’on doit regarder pour déterminer quelle fraction des expériences peut-on s’attendre à voir aboutir à un résultat statistiquement significatif?

A

La puissance statistique

46
Q

Définition : théorie de distribution en cloche ou normale.

A

Distribution de Gauss

47
Q

Caractéristiques principales de la distribution de Gauss

A

La moyenne ou centre de la distribution

L’aire/surface (toute la population)

Largeur

48
Q

Pourquoi voit-on la distribution de Gauss ?

A

Plusieurs facteurs aléatoires générant une certaine variabilité

Se contrebalancent/s’annulent

Rare que ces facteurs soient dans même direction; peu représentés; indépendants

= Bcp de valeurs proches de la moyenne

49
Q

Les valeurs à gauche de la distribution de Gauss…

A

Diminuent la valeur moyenne

Au contraire valeurs à droite augmentent la valeur moyenne

50
Q

Quel % des valeurs se retrouvent à +/- 1 ÉT de la valeur médiane en distribution de Gauss ?

A

68%

51
Q

Quel % des valeurs se retrouvent à +/- 2 ÉT de la valeur médiane en distribution de Gauss ?

A

95%

52
Q

Si on voit que la cloche de Gauss ne suit pas une distribution normale (on voit qu’elle tend plus d’un bord ou de l’autre), quoi faire ?

A

Log

53
Q

Pk la distribution de Gauss ne serait pas normale ?

A

§ Asymétrie contrairement à la distribution normale

§ Pas de contrebalancement

§ Dispersion des valeurs non homogène

54
Q

§ Agostino-Pearson (A-P)
§ Kolmogorov-Smirnov (K-S)
§ Anderson-Darling (A-D)
§ Shapiro-Wilk (S-W)

Qu’est-ce que ces tests permettent ?

A

Il existe des test permettant d’apprécier dans quelle mesure notre distribution s’approche, ou non, d’une distribution gaussienne ou à l’inverse log normale

55
Q

§ Agostino-Pearson (A-P)
§ Kolmogorov-Smirnov (K-S)
§ Anderson-Darling (A-D)
§ Shapiro-Wilk (S-W)

Objectif des tests ?

A

quantifier l’écart entre la distribution observée et la distribution gaussienne théorique; + la valeur de P est grande, + les distributions observées et théoriques sont semblables; visuellement apprécié avec le graphique QQ plot (validation subjective basée sur les quantiles)

56
Q

Définition : Une mesure par groupe On compare les groupes

A

Mesure indépendante

57
Q

Définition : Plusieurs mesures comparées dans un même groupe

A

Mesures répétées

58
Q

Définition : comment se comporte la variabilité de 2 ou plusieurs ensembles de données indépendantes.

A

Hypothèse d’égalité des variances

59
Q

Définition : différents ensembles de données ont des écart-types (variabilité, dispersion) similaires: les variances sont identiques

A

Homoscédasticité

60
Q

différents ensembles de données ont des écart-types (variabilité, dispersion) différents: les variances ne sont pas identiques

A

Hétéroscédasticité

61
Q

Quand on test l’hypothèse des égalités, quelle est l’hypothèse nulle ?

A

l’hypothèse nulle H0 est que les variances (écart types) sont identiques

l’hypothèse alternative Ha est que les variances (écarts types) sont différents

62
Q

Comment effectue-t-on le test l’hypothèse des égalités

A

Calcul du facteur F

63
Q

Quand on calcule le facteur F, à quel moment valide-t-on l’hypothèse nulle?

A

Si F = 1. Et donc, égalité des variances

64
Q

Quand on calcule le facteur F, à quel moment rejette-t-on l’hypothèse nulle?

A

F > 3 et donc, on dit que les variances sont inégales

65
Q

Si on obtient une variance inégale, quoi faire ?

A
  1. Ignorer le résultat. Les tests statistiques sont quand même assez robustes tant et si bien que la taille de l’échantillon est assez importante, et chaque population ont un nombre d’observations similaires;
  2. Transformer les données pour tenter d’égaliser les variances (souvent en logarithmes);
  3. Test alternatif, notamment lors de la comparaison de 2 groupes indépendants, appelé la correction de Welch qui s’affranchi de l’inégalité des variances. Mais, contrepartie: puissance plus faible pour détecter des différences;
  4. Se baser sur les résultats de F (égalité ou non des variances) pour orienter le choix du test statistique vers un test paramétrique ou non paramétrique.
66
Q

Pour utiliser un test paramétrique, quelle assomption fait-on ?

A

les données utilisées proviennent de populations avec une distribution gaussienne et des variances similaires (égalité des variances)

67
Q

En fonction de quels critères choisit-on le test paramétrique ?

A
  • Du type de variables: nominales ou catégoriques?
  • Du nombre de comparaisons: 2 groupes ou plus?
  • De la structure des groupes: indépendants (non pairés) ou dépendants (pairés)?
68
Q

Quand doit-on utiliser un test non-paramétrique ?

A

Si les données ont une distribution non gaussienne et/ou des variances inégales.

69
Q

Si les données une distribution non gaussienne et/ou des variances inégales

Paramétrique ou non paramétrique ?

A

Non paramétrique

70
Q

ANOVA et T-test sont des tests…

A

Paramétriques

T-test si 2 groupes

ANOVA si > 2 groupes

71
Q

Pairé vs non pairé

A

Pairé : personne dans groupe contrôle semblable à personne dans groupe expérimental

Non-pairé : distribution aléatoire

72
Q

Assomptions en one-way ANOVA

A
  1. Distribution normale
  2. Indépendance des échantillons
  3. Égalité des variances
  4. Variable dépendante doit être continue
  5. Variable indépendante catégorielle
73
Q

Si le test ANOVA est significatif…

A

Alors il est possible de comparer les différents groupes souhaités; tests post-hoc (en latin: après ça…). De nombreux tests existent… Un des plus utilisé est le test de Bonferroni.

74
Q

One-way vs two-way ANOVA

A

one way : >2 groupes, une variable inépendante

two way : >2 groupes, deux variables indépendantes

75
Q

Si p<0.05, on accepte Ha. Quelles questions devrait-on tout de meme se poser ?

A

§ La taille de l’effet est toutefois à considérer. Est-ce qu’une différence de 5% entre 2 groupes, même si significative a réellement un impact biologique?

§ Comment a été fait le design expérimental? Est-ce que la valeur de P est vraiment liée à la question posée? Est-ce que d’autres variables peuvent interférer (facteurs confondants)?

§ Est-ce que le bon test a été utilisé selon tous les critères abordés précédemment (normalité, variance, nombre de groupes…)?

§ Bonne approche expérimentale?

76
Q

Si p>0.05, mais proche de 0.05… Doit on vraiment accepter H0?

A

Puissance? Est-ce que la taille de l’échantillon est suffisante?

Approche expérimentale alternative pour vérifier?

+ se poser memes questions que si p<0.05, dont sur le design expérimental, sur présence ou non de facteurs confondants, si le bon test a été utilisé

77
Q

Si p»»0.05…

A

§ Les chances d’accepter Ha sont vraiment très faibles! § Toutefois, s’interroger sur la variabilité (erreur standard) est approprié. Si extrêmement variable, problème expérimental?

§ Comment ont été assignés les groupes expérimentaux? Bons contrôles? Échantillonnage représentant la question posée?

§ Encore une fois, facteurs confondants?

78
Q

Définition : On cherche à déterminer autour de la valeur estimée (moyenne) l’intervalle contenant la vraie valeur du paramètre recherché

A

Intervalle de confiance

79
Q

Comment peut-on modéliser la relation entre deux variables ?

A

Régression linéaire simple

80
Q

Comment modéliser impact du plusieurs variables indépendantes

A

Régression linéaire multiple

81
Q

V/F Une corrélation reflète un lien de cause à effet

A

F, quantification du degré avec lequel deux variables continues sont liées.

82
Q

Types de corrélations

A
  1. Pearson (distribution normale)

2. Spearman (non paramétrique)

83
Q

Assomptions pour corrélation de Pearson

A

§ Distribution normale pour les 2 variables;

Relation linéaire: ligne droite qui relie les 2 variables;

§Égalité des variances: distribution similaire autour de la droite linéaire.

84
Q

Assomptions corrélation Spearman

A

Équivalent non paramétrique corrélation de Pearson;

Utilisé en cas de violation des assomptions à suivre pour Pearson;

Relation monotonique; même direction mais pas nécessairement constante comme dans une relation linéaire.

85
Q

Définir effet cigogne

A

une corrélation illustre une association et non une causalité réelle

La confusion entre les 2 est l’effet cigogne
= On voit association entre deux paramètres sans qu’ils ne soient vraiment associés

86
Q

Histogramme - q’est-ce que l’écart type représente

A

2/3 des données se situent dans cet intervalle (si distribution normale ou gaussienne)

87
Q

Histogramme - qu’est-ce que la plus petite barre sur ce graphique représente

A

Représente erreur standard de la moyenne (ESM):

Écart type/√n; n = le nombre d’individus. + la taille de l’échantillon est grande + ESM sera petit

88
Q

Le digramme en violon est plus gros…

A

Là où le plus de valeurs se trouvent