Métho II (examen 1) Flashcards
qu’est-ce qu’une population et un exemple
ensemble des individus ou événements qui nous intéressent
exemple = toutes les marmottes du Québec
qu’est-ce qu’un échantillon avec un exemple
sous ensemble de la population
exemple = marmottes sur le campus de l’UL
qu’est-ce qu’une unité d’observation ainsi qu’un exemple
un objet sur lequel on peut collecter des données
exemple = une marmotte du campus
différence entre échantillon probabiliste et non probabiliste
Probabiliste
- aléatoire
- toutes les unités ont autant de chances d’être sélectionnées
- représentatif de toutes la population
- plus économique qu’un recensement
Non probabiliste
- unités ne sont pas sélectionnées au hasard
- de convenance = un groupe de personnes faciles à recruter
pourquoi utilisé un échantillon
- permet tirer des conclusions sur une population = inférences
- estimer certaines caractéristiques d’une population
différence entre validité interne et externe
- interne = à quel point ai-je vraiment mesuré ce que je voulais mesuré
- externe = à quel point mes observations sur l’échantillon sont-elles généralisables à la pop
quel type d’échantillon a la plus grande validité externe
échantillon aléatoire car il est généralisable à l’ensemble de la pop
différences entre échantillonnage aléatoire et aléation (randomisation)
- échantillonnage aléatoire = constitué un échantillon par une méthode faisant en sorte que chaque unité a autant de chance d’être sélectionnée pour participer à l’étude = augmente validité externe
- aléation = répartition aléatoire des unités d’observation dans différents groupes = augmente validité interne
différences entres les trois concepts suivants: variable, variable discrète, variable continue
- variable = valeur représentant une caractéristique d’une unité d’observation
- variable discrète = variable prenant un nombre limité de valeurs, ne peut pas être autre chose entre les deux = Likert, niveau étude, binaire (oui ou non)
- variable continue = valeur numérique représentant la magnitude d’une caractéristique = âge, score motivation, résultats scolaire
différences entres les 4 concepts suivants: données qualitatives, données quantitatives, variable indépendante, variable dépendante
-données qualitatives = représente souvent une catégorie = catégorie emploi
- données quantitatives = données numériques
- variable dépendante = ce qui est mesuré ou prédit = intensité sx
- variable indépendante = ce qui est manipulé = traitement, dosage médic
différences entre les échelles de mesures suivantes: nominale, ordinale, intervalles, rapport
- nominale = étiquettes sans ordre particulier = couleur de cheveux, niveau étude
- ordinale = objets classés suivant un continuum ordonné = échelle Likert
- intervalles = différences fixes entre les points de l’échelle donc pas de rapport entre les données = échelle température car pas un zéro absolu
- rapport = présence zéro absolu = poids
exemple expliquant qu’il n’y a pas de rapport dans les échelles intervalles
si j’ai 20$ dans mes poches et qu’on m’en donne 20 de plus, je ne suis pas 2 fois plus riches, car j’ai 100$ dans mon compte de banque et non 0
pourquoi est-ce important de connaître nos types d’échelle
permet de savoir quel type de test statistique doit être utilisé pour répondre à la question de recherche
différence entres ces types de statistiques: descriptive, inférences statistiques, paramètre, estimateur d’un paramètre
- statistiques descriptives = description d’une caractéristiques d’un ensemble de données = moyenne, écart-type
- inférence statistique = tirer une conclusion sur la population à partir des résultats échantillonnaux
- paramètre = caractéristique d’une population = moyenne d’âge pop
- estimateur = caractéristique d’un échantillon visant à inférer une caractéristique de la population = moyenne âge échantillon
vrai ou faux, les statistiques inférentielle constitue la plus grandes partie des études statistiques
vrai
que représente X
un ensemble de données
X = (3,4,5,6,7,8)
qu’est-ce que des mesures de tendance central
comme des moyennes = permettre de décrire une distribution de données avec un seul chiffre
qu’est-ce qu’un mode
le score le plus fréquent dans une distribution, mais peut être bimodale, si deux scores sont autant fréquent
qu’est-ce que des mesures de variabilité
voir à quel point les scores varie autour de la moyenne, plus elle est grande plus les scores varient
qu’est-ce que la variance
à quel point les différentes variables s’écarte de la moyenne
qu’est-ce que l’écart-type
racine carrée de la variance
qu’est-ce que des degrés de liberté
Le nombre d’observations indépendantes sur lequel un estimé repose
degré de liberté pour un estimateur = nb total de valeurs - nb de paramètre estimé
comment savoir si des estimés sont dépendants de l’un l’autre
si la valeur de chacun des estimé en calculé en fonction d’une moyenne dont chacun contribue ils sont dépendants
pourquoi dans le calcul de la variance d’un échantillon il y a un n-1 au dénominateur
puisque l’on estime la moyenne on doit venir faire moins 1 pour enlevé le degré de liberté relié à la moyenne
que représente l’air sous la courbe normale
la probabilité de se retrouver entre deux variables
qu’est-ce que la distribution échantillonnage
-le fait de prendre toutes les moyennes en faisant tous les échantillons possibles
-distribuer toutes ses moyennes sur un graphique (fréquence apparition de ma moyenne y et valeur de ma moyenne x)
vrai ou faux, la moyenne de la distribution d’échantillonnage et de la population est différente
faux, elles sont pareilles
vrai ou faux, plus la taille de l’échantillon dans la distribution d’échantillonnage est grand, plus la forme de la distribution sera normale et avec moins de variance
vrai
qu’est-ce que l’erreur échantillonnage
erreur type = écart-type de la distribution d’échantillonnage = plus le résultat de mon erreur-type est petit plus ma distribution est proche de la moyenne = bon
que permet de quantifier l’erreur-type
la variabilité interéchantillonnale = variabilité naturelle observée entre les échantillons = si mes données sont plus hautes qu’un seuil (o.o5) mes données ne sont pas dû au hasard
si la moyenne de notre échantillon est très _ de celle de la distribution échantillonnage, la donnée observée est _ ainsi plus je m’éloigne de la moyenne de la distribution échantillonnage plus ce que j’ai observé est _
- proche
- fréquente
- rare
vrai ou faux, la distribution échantillonnage porte seulement sur des moyennes
faux, elle peut être sur toutes sortes de statistiques
que représente Ho (hypothèse nulle)
il n’y a aucun changement
comment faire la décision ou non de rejet Ho
si ma valeur de t a une probabilité plus petite que o.o5 mes données sont rares et on rejette Ho
que représente p dans le test hypothèse
il ne s’agit pas d’une taille d’effet il s’agit de la probabilité que nos résultats soit vrai si Ho l’est
plus _ est _ plus on a des chances d’avoir une grande puissance statistique
plus échantillon est grand
pourquoi il ne faut pas se fier à seulement un test hypothèse et que faut-il utiliser en plus
- test hypothèse est dichotomique ce qui peut créer des erreurs de type 1 ou 2
- il faut aussi interpréter nos résultats avec la puissance statistique et la taille effet (différence petite, moyenne grande entre mes groupes)
qu’est-ce que la convergence scientifique
le fait de faire de plus en plus des études sur un sujet = moins il aura de résultats erronés avec des erreur de type 1 et 2 due au hasard
qu,est-ce que la point de vue analytique des statistiques
avoir un événement qui peut se produire de A manière mais pas de B manière et que chacune des manières sont autant probable = lancer de dé
point de vue fréquentiste des statistiques
- en ayant un grand nombre échantillons on peut estimer la probabilité d’un événement
- plus le nombre échantillon augmente plus la probabilité se rapproche de la vérité sans l’atteindre = limite
point de vue subjectif des statistiques
probabilité est la croyance subjective d’une personne à propos de la probabilité d’occurrence d’un événement
si je demande à mon amie de venir voir un film les probabilités est qu’elle dise oui
qu’est-ce qu’un événement
probabilité de l’événement X se produise
qu’est-ce que des événements indépendants
occurence ou non de l’événement 1 n’influence pas occurence ou pas du deuxième (pile ou face)
qu’est-ce que des événements mutuellement exclusifs
si événement 1 survient le 2 ne peut pas survenir en même temps (être inscrit en première et deuxième année)
qu’est-ce qu’un ensemble événements exhaustifs
inclut tous les événements possibles = si on lance un dé à 6 face non truqué mon ensemble exhaustif des résultats possibles = 1,2,3,4,5,6
différence entre probabilité simple, probabilité conjointe et probabilité conditionnelle
- simple = p(A)
- conjointe = probabilité de cooccurrence de 2+ événements = p (A,B)
- conditionnelle = probabilité événement survienne si l,autre est survenue (A si B) = p (A I B)
qu’est-ce que la loi additive
additionner les probabilités occurrence événements mutuellement exclusifs = événements ne peuvent pas survenir en même temps = probabilité que l’un ou l’autre survienne
probabilité de piger un caramel peut importe la sorte = additionne probabilité caramel mou + caramel dur
qu’est-ce que la loi multiplicative
multiplier la probabilité d’occurrence de deux événements indépendants (un n’influence pas l’autre) = permet avoir occurrence conjointe (avoir A et B)
piger caramel mou le remettre et piger un autre caramel mou = multiplier probabilité caramel mou par probabilité caramel mou
*si on ne remet pas cela n’est plus indépendant
peut-on faire des tests d’hypothèses avec la distribution binomiale
oui
est-ce que les données qualitatives peuvent aussi être des chiffres
oui mais plus souvent des mots
le test du khi-carré a un seul paramètre, lequel
k correspondant au degrés de liberté
comment noter les degrés de liberté avec le paramètre k
X2(k) = X2(3)
*2 est en exposant
*le chiffre entre parenthèse représente le nombre de degrés de liberté
la moyenne est (égale, supérieure, inférieure) au nombre de degrés de liberté
égale
moyenne = k
plus k augmente plus la variance (diminue, augmente, aucun effet) et quel est le calcul de la variance
augmente
variance = 2k
plus k augmente plus la courbe devient (asymétrique, symétrique)
symétrique
que permet de déterminer le test khi-carré d’ajustement
- déterminer si les valeurs que l’on observe sont assez différentes de celles qu’on obtiendrait par hasard
- pour que l’on rejette l’idée quelles ont été obtenues par hasard (Ho)
avec le test du khi-carré d’ajustement comment calculer les fréquences observées versus celles attendues
- celles observées proviennent des observations faites durant l’expérience
- celles attendues = moyenne = total possible/options possibles = 32 rats/ 4 corridors
pourquoi est-ce que dans la formule standard du khi-carré on divise par A
permet de considérer si la différence est importante ou non
que permet le khi-carré d’analyse de tables de contingence
- faire un test du khi-carré pour des variables classées selon plus d’une dimension = dimension corridors et dimension animaux
- savoir s’il y a une association entre les dimensions
comment trouver le nombre de degré de liberté pour
- test khi-carré ajustement
- tables de contingence
- ajustement = nombre catégorie ou colonne - 1
- table = (nb lignes-1)(nb colonnes -1)
comment savoir si mes valeurs attendues sont correctes pour mon test de tables de contingence
dépend grosseur tableau
- tableau 2*2 = mes valeurs attendues doivent être chacune supérieures à 5
- tableau supérieur = 80% de mes valeurs attendues doivent être supérieures à 5 et aucune inférieur à 1
pourquoi lors de l’interprétation du khi-carré il n’y a pas une mention de la direction
car le test ne le dit pas, on peut allé par nos propres observations du tableau pour la direction
3 conditions application du test de khi-carré
- indépendance des observations (ne peut pas être mutuellement exhaustif)
- inclusion des non-occurences = on doit inclure par exemple la condition pas de motoneige
- doit être des variables catégorielles
qu’est-ce que Phi (cercle barré)
Ce test repose sur l’idée que l’on peut considérer
toutes les tables 2 x 2 possibles qu’on peut
obtenir à partir de totaux marginaux pour
effectuer un test statistique
que permet d’avoir phi
savoir si significatif ou non ainsi que la taille d’effet (faible, modérée, élevée)
quand peut-on utiliser phi
seulement avec des tables de 2*2 sinon il faut utiliser le V de cramer
qu’est-ce que l’on observe comme relation entre la taille du n ainsi que la taille de l’erreur standard dans une distribution échantillonnage
- plus le n augmente plus l’erreur standard sera petite
- ainsi plus on aura confiance que n’importe quelle moyenne est en général plus proche de la vrai moyenne de la pop
- plus notre n est grand plus notre moyenne est proche de celle de la pop
quelles sont les deux paramètres à connaître pour faire un test z sur une seule moyenne
- moyenne de la population
- écart-type population
pour utiliser un test t notre échantillon doit être au moins de combien
- n plus grand ou égal à 25
- n plus grand ou égal à 30
pourquoi dans le test t il est demandé d’avoir un n plus grand ou égal à 30
- dans le test du student, la distribution varie selon le nombre de degrés de liberté
- moins on a de degrés de liberté plus notre distribution s’appliatit
- ainsi plus on a de dl plus on approche d’une distribution normale soit avec infinie de dl
- mais impossible avoir infinie de dl, mais avec 29 dl (n de 30 - 1) on approche assez de la distribution normale
quand utiliser une test de t pour deux moyennes
- quand j’ai deux moyennes a comparer
- et que mes groupes sont indépendants ainsi le score de un ne dépend pas du score de l’autre
quelle est la principale différence entre test t sur une moyenne versus deux moyennes
- la manière de calculer l’erreur standard
qu’est-ce que l’on utilise lorsque nos échantillons sont de tailles différentes pour notre test t
- estimation combinée de la variance
qu’est-ce que l’on utilise pour prendre notre décision pour un test t indépendant échantillons inégaux
- d de cohen = taille de l’effet trouvé
- petit effet = d de 0,2
- moyen effet = d de 0,5
- grand effet = d de 0,8
à quoi faut-il faire attention avec l’interprétation du d de cohen
- bien qu’il y ait des barèmes il faut tenir compte du contexte, car selon cohen cela peut sembler un petit effet mais en prenant le contexte un grand effet (sécurité routière)
quelles sont les conditions d’application d’un test t sur échantillons indépendants inégaux
- des données sur échelle intervalle ou rapport
- normalité de la distribution échantillonnage soit n plus grand ou égal à 30
- indépendance des observations
- homogénéité des variances
qu’est-ce que la robustesse
- un test robuste est un test peu affecté par des écarts modérés à ses conditions application
- ou un estimateur est robuste est peu affecté par des valeurs extrêmes
quel estimateur est le plus robuste versus le moins robuste
- plus = médiane, car même si j’ai des valeurs extrêmes elle ne change pas
- moins = moyenne, car change beaucoup par les valeurs extrêmes
pourquoi le test t est dit robuste
car il est peu affecté par des écarts modérés à ses conditions d’application
quelles sont les 3 manières d’augmenter la puissance statistique
- augmenter le niveau alpha mais augmente le risque d’erreur de type 1 = à éviter
- augmenter la distance entre la distribution H1 et H0 en utilisant des de meilleurs traitements, meilleures questionnaires, etc.
- augmenter la grandeur de n, car permet de diminuer la variance = diminuer le chevauchement entre les courbes donc meilleure puissance
quels sont les deux moyens les plus utilisé pour augmenter la puissance statistique
- éloigner la distribution H1 de celle de H0
- augmenter taille échantillon pour diminuer variance
quel est l’utilité de l’erreur standard dans test t pour échantillons indépendants
- quantifier la variabilité de la différence entre les moyennes des échantillons
que permet l’estimation combinée de la variance
calculer l’erreur standard lorsque les tailles échantillon sont différentes
synonyme erreur-type et ce quelle représente
- erreur standard = écart-type de la distribution échantillonnage
- plus elle est petite plus ma distribution est proche de la moyenne
que permettent de savoir les tests statistiques
- estimer la probabilité d’avoir nos résultats si ho est vrai
qu’est-ce que le test de fisher
- faire toutes les tables de 2 par 2
- déterminer proportion de ces tables qui ont des résultats aussi extrêmes ou plus que nos données
que représente axe des x et axe des y de la distribution normale
x = valeurs variable
y = densité probabilité
quel type d’erreur augmente en diminuant le seuil alpha
- erreur type 2
quel type de variables on a besoin pour les khi-carré et pourquoi
- qualitative ou quantitative catégorielle car besoin de nombre entier
3 conditions utilisations pour khi-carré
- variables catégorielles
- mention non-occurence
- indépendance des variables (ne s’influencent pas entre elles)
que permet de calculer le théorème central limite
- permet de calculer ce dont on a besoin pour faire test hypothèse
paramètres nécessaires pour test z versus test t
z = écart-type et moyenne pop
t = moyenne
qu’est-ce qu’exprime un test t sur échantillons indépendants sur 2 moyennes
différence entre 2 valeurs en quantité d’erreurs standard
qu’est-ce que nous permet de trouver le d de cohen
- nombre écart-type séparant les 2 moyennes = taille ou magnitude de l’effet trouvé
pour interpréter une test t il faut quoi
- p
- d
qu’est-ce que test z
vérifier si la moyenne d’un échantillon diffère significativement de la moyenne de la pop
qu’est-ce que test t
moyenne échantillon unique diffère significativement d’une valeur référence connue ou moyenne pop
3 méthodes pour augmenter la puissance statistique ainsi que la moins et plus recommandé
- augmenter seuil alpha = peu recommandé, car augmente risque erreur type 1
- augmenter différence entre Ho et H1 = permet distancer les distribution et rejeter Ho avec plus de certitude
- augmenter n pour diminuer erreur standard = utiliser des mesure qui porte seulement sur ce qu’on a un intérêt
est-ce les tests paramétriques ou non paramétriques qui ont plus de souplesse et l’effet de cette souplesse
- beaucoup souplesse = non paramétriques = diminue la puissance
- préférable utilisé test paramétrique pour augmenter la puissance
quelle est la manière la plus facile d’augmenter la puissance
- augmenter la taille échantillon (n)
3 manières pour savoir à combien augmenter la taille échantillon
- estimer la taille effet attendue = fier aux autres études, estimer subjectivement, ou utilisé seuil de cohen
- trouver delta = avec un niveau habituellement de 0.8
- faires les calculs = d Cohen estimé / niveau delta (dans tableau pour puissance de 0,8 avec alpha 0,5) = exposant 2 = arrondit réponse à la hausse = nous donne notre taille échantillon
pourquoi arrondit à la hausse notre taille échantillon
car si arrondit à la baisse cela diminue notre puissance statistique
est-ce mieux de calculer notre taille échantillon avant ou après avoir commencer notre étude
avant
quand (2) utilisé la corrélation de Pearson
- quand on étudie des différences entre moyennes = différences moyennes sur niveau anxiété entre un groupe traitement et contrôle
- des relations entre des variables continues = entre longueur bec et hauteur bec
différence entre régression et corrélation
- régression = niveau prédéterminés ou chercheur souhaite prédire la VD à l’aide de la VI
- corrélation = VI et VD sont aléatoires ou lorsque cherche seulement à quantifier le degré de relations entre
comment est-ce que la droite de régression en vient à être à sa position
- car elle cherche à minimiser l’erreur de prédiction soit être le plus possible au milieu des données
que représente r
corrélation = degré auquel les points se resserrent autour de la droit de régression
si nous avons seulement la valeur de x et nous cherchons la valeur de y que pouvons nous utiliser avec la corrélation
- la droite car elle nous donnera pour chaque valeur de x la valeur de y
pour que la corrélation de Pearson fonctionne bien la relation entre les variables doit être comment
linéaire = mon nuages de points formes une ligne = absence de courbatures
à quoi ressemble une corrélation forte
les points sont proches de la ligne = plus le r est grand plus la corrélation est forte
comment savoir si ma corrélation est positivement parfait, aucune corrélation ou corrélation négative parfaite
- selon la disposition de mes points par rapport à ma ligne
qu’est-ce qu’une covariance
- degré auquel deux variables varient ensemble
- pareille pour variance mais pour 2 variables au lieu de 1
pourquoi dans la covariance on divise par les écart-type
- car la grandeur des écart-type influence la covariance
- plus ils sont grands = covariance grande
- plus ils sont petits = covariance petite
- ainsi en divisant pas écart-type on tient compte de cet effet
comment tester le niveau de signification de la corrélation de Pearson
avec la distribution de t de student
pour conclure le niveau de signification de corrélation de Pearson que faut-il
- p (niveau alpha)
- r = corrélation
- r2 = probabilité de variabilité qui est attribuable à l’une l’autre des variable
comment interpréter r et r2
r = petit effet (0.1), moyen effet (0.3), grand effet (0.5)
r2 = petit (0.01), moyen (0.09), grand (0.25)
toujours interpréter avec le contexte aussi
vrai ou faux, une corrélation implique la présence de liens de cause à effet
faux
pour trouver la corrélation bisérielle de points, je peux utiliser t de student ou le d de cohen
oui
pourquoi ne pas utilisé le rho de spearman comme test de niveau de signification
- aucune manière accepté par tous de calculer l’erreur standard lorsque l’on a des petits échantillons
comment utilisé le coefficient tau de Kendal
pour chaque ligne compter le nombre de lignes plus basses ayant un rang plus petit que celui de départ
3 avantages d’utilisation du tau de Kendall au lieu du rho de spearman
- existe une manière de calculer l’erreur standard
- t est distribué de manière normal pour n plus grand ou égal à 10
- approximer la distribution de “ à l’aide de la distribution normale (Z) et
obtenir une valeur p à partir de la distribution Z, pour faire un test d’hypothèse
dans quels cas étudie-t-on les différences entre les moyennes
- test t
- anova
- corrélation
- test z
- quand on a une VI catégorielle et une VD continue
- relations entre variables
- test t
- anova
- test z
- VI catégorielle et VD continue
dans quel contexte est-ce qu’on utilise davantage une corrélation plutôt qu’une analyse de régression
- lorsqu’on souhaite quantifier le degré de relation entre deux variables considérées comme aléatoires
que représente le coefficient de corrélation de Pearson r dans le contexte d’une régression linéaire
- la mesure dans laquelle les points de données se resserrent autour de la droite de régression indiquant la correspondance entre les valeurs réelles et prédites
principale différence entre la covariance et le coefficient de corrélation
- les deux indiquent le degré de variation conjointe entre deux variables
- mais coefficient de corrélation pondère par les écarts-types de x et y
avec quel distribution doit-on effectuer un test d’hypothèse sur la corrélation de Pearson
- distribution du t de Student
dans un test d’hypothèse avec corrélation de Pearson on trouve la valeur de _ pour ensuite calculer la valeur de _
- r
- t
pourquoi il est important de rapporter une taille d’effet lors d’un test d’hypothèse
- parce que la taille d’effet quantifie l’intensité de la relation entre les variables
principale différence entre le coefficient de corrélation r et le coefficient de détermination r2
- r indique la force et direction de la relation linéaire
- r2 mesure la proportion de la variance dans la VD qui peut être prédite à partir de la VI
comment calculer le niveau de signification d’une corrélation bisérielle de point
- en utilisant la valeur de rpb pour calculer une valeur t puis en trouvant la valeur p correspondante dans une table de la distribution t de Student
différence entre rpb2 et taille d’effet d de cohen
- dpb2 indique la proportion de la variance dans la VD expliquée par la VI
- d de cohen quantifie la différence entre les moyennes deux gorupes en écarts-type
comment le tes khi-carré et coefficient phi sont-ils interconnectés
phi est calculé à partir de la valeur du khi-carré pour quantifier la force de l’association entre les variable
comment le tau de kendall est différent du coefficient de corrélation de Spearman
- Kendall est basé sur le principe des inversions de rangs alors que pas le cas du Rho de SPearman
on parle de probabilité ou de fréquence dans la distribution normale et pourquoi
- probabilité, car c’est continue
que permet de faire une distribution échantillonnage
- faire inférance à une pop à partir d’un échantillon
qu’est-ce que l’on remarque avec le théorème central limite et la taille échantillon
- plus nos échantillons augmentent en taille plus notre distribution sera normale et donc s’approchera de la population
différence entre erreur standard et erreur échantillonnage
- standard = à quel point ma distribution échantillonnage s’éloigne ou non de la moyenne de la pop
- échantillonnage = notre échantillonnage a des résultats différents de nos hypothèses et dû au hasard
qu’est-ce que la taille d’effet pour la distribution échantillonnage
- à quel point H1 et H0 s’éloigne ou sont porches
- plus la taille effet est grande plus il sera facile d’observé un effet et de prendre une décision
le coefficient de corrélation bissérielle et similaire à quel test
tes-t
le coefficient phi est équivalent à quel test
khi-carré de tables de contingence