Métho II (examen 2) Flashcards
que permet une anova
comparer plusieurs groupes entre eux pour voir s’ils diffèrent
quelle est la logique des anova
comparaison de la variance inter-groupe à la variance intra-groupe
3 conditions application de l’Anova
- homogénéité des variances à travers les conditions (groupes)
- normalité de l’erreur = données sont distribuées normalement pour chaque conditions (provienne de la même population)
- indépendance des observations (pas d’influence entre les conditions)
différence entre variance inter-groupe et intra-groupe
- intra = quantifie la dispersion des données autour de leur propre moyenne de groupe
- inter = évalue la dispersion des moyennes des groupes autour de la moyenne globale
quel est le seul aspect qui n’est pas contrôlé dans les estimés de variance pour les anovas
- variance inter groupe soit ici à quel point les groupes ont des moyennes différentes des autres
quel type de variance peut détecter lorsque les groupes dans mon Anova ne proviennent pas de la même population
- celle inter, car elle prend en compte l’appartenance aux groupes
que sont des carrés moyens
se sont nos variances intra et inter
quels sont les synonymes pour somme des carrés inter et intra
- inter = traitement
- intra = erreur
comment prendre la décision si oui ou non mes groupes dans mon Anova diffère significativement ou non
- trouver F critique (valeur inter est mon numérateur et dl mon dénominateur)
- si mon f trouvé est plus grand que mon f critique = mes groupes diffèrent significativement donc appartiennent probablement à une autre population
est-ce que l’Anova permet de savoir si ma valeur est plus haut ou plus bas comme dans les tests t
- non, elle permet seulement de savoir si c’est rare ou non
vrai ou faux, l’Anova est une procédure robuste
vrai
quel aspect influence la robustesse de l’Anova
- si les échantillons sont de taille inégales, car les variances ne seront plus homogènes
le test du f permettant de savoir si nos groupes sont différents significativement ou non ne nous permets pas de savoir la différence se trouve entre quels groupes, quoi faire pour trouver cette différence
- comparaisons multiples = comparer les différentes moyennes les unes aux autres pour trouver quelles moyennes diffèrent
quel est un grand risque des comparaisons multiples
- plus on fait de tes plus on risque de se tromper et faire une erreur de type 1 soit dire qu’il y a un effet alors que non
comment trouver la probabilité dans mes comparaison multiples de faire au moins une erreur de type 1
1 - probabilité aucun test significatif
comment contrôler le fait que les comparaisons multiples nous mettes à risque de faire des erreurs de type 1
utiliser des procédure de contrôle du taux d’erreur
dans quel contextes veut-on faire des comparaisons multiples
pour multiples groupes ou mesures = pour vérifier s’il existe des différences entre plusieurs groupes sur un certain nombre de mesures
différence entre 3 types de stratégies de contrôle du taux d’erreur
- par comparaison
- par famille
- par expérience
- comparaison = je fais seulement 1 seule Anova
- famille = j’ai 3 groupes dans mon Anova donc je fais 3 comparaison entre moyennes
- expérience = vérifier si dans toute mon étude, même si différents types analyses, ,pm taux n’est pas trop élevé
quel est le type de stratégies de contrôles du taux d’erreur que l’on utiliser
- taux d’erreur de l’ensemble = par famille + par expérience
3 exemples de stratégies de contrôle du taux d’erreur
- test-t multiples
- Bonferroni
- Sidak-Bonferroni
quelle est le méthode du test-t multiples et son type de contrôle
- méthode = faire une série de test t en comparant les moyennes par paires + aucune modification niveau alpha
- contrôle = par comparaison
quelle est le méthode du bonferroni et son type de contrôle
- méthode = séries de tests statistiques avec un seuil alpha diminuant pour chaque test
- contrôle = ensemble
inconvénients test bonferroni
- peut produire des seuils alpha très petits = très conservateur
- devient encore plus conservateur lorsque les mesures sont corrélées les unes aux autres
quelle est le méthode du sidak-bonferroni et son type de contrôle
- méthode = modification du bonferroni pour le rendre plsu libérale
- contrôle = ensemble
inconvénient test sidak-bonferroni
- à peine moins conservateur que Bonferonni
quels est le risque avec la diminution de l’erreur de type 1 des stratégies de contrôle du taux d’erreur
- diminué erreur de type 1 augmente le risque d’erreur de type 2 (dire pas d’effet alors que oui)
solution pour éviter de trop augmenter les erreurs de type 2 avec les stratégies de contrôle du taux d’erreur très stricte
- contrôle du taux de fausses découvertes
quels sont les deux types de contrôle du taux de fausses découvertes
- Holm-Bonferonni
- Benjamin-Hochberg
en gros les deux consiste a diminué le seuil alpha jusqu’à ne plus obtenir de différence significative
devrait-on contrôler le taux d’erreur
question personnelle
- si chercheur préfère contrôle erreur 1 = stratégie contrôle du taux d’erreur
- si chercheur préfère contrôle erreur 2 = contrôle du taux de fausses découvertes
comment éviter d’avoir à utiliser les stratégies du contrôle du taux d’erreur
- choisir un nombre limité de variables d’intérêt, étant corrélées entre elle et déterminées à l’avance
dans quel condition préférable faire contrôle du taux de fausse découverte
- si grand nombre de test
différence entre anova à plan simple et anova à plan factoriel
- simple = les participants sont classés selon 1 seul critère telle que l’appartenance à un traitement
- factoriel = les participants sont classés selon plusieurs critères de classification tel que l’âge et traitement
synonyme factoriel
variable catégorielle
2 avantages des anova à plan factoriel
- elles sont économiques = car au lieu de faire une anova pour chaque groupe il aurait fallu le double de participants pour avoir la même puissance
- permet interprétation plus riche = permet de voir les interactions entre les variables indépendantes
qu’est-ce que l’effet principal
se rapporte aux effets observés par les moyennes marginales soit la différence entre les différents niveaux d’un facteur
qu’est-ce qu’une interaction
- observations faites en regardant l’effet d’un facteur selon les niveau d’un autre = je prends les personnes de plus de 18 ans et regarde différence selon les traitements
dans l’anova à plan factoriel, la somme carré total est = à quoi
somme carré cellules + somme carré erreur
dans l’anova à plan factoriel, la somme carré cellules est = à quoi
somme carré valeur indépendante 1 + somme carré valeur indépendante 2 + somme carré valeur indépendante
qu’est-ce que la somme carrés d’erreur dans l’anova à plan factoriel
- je l’utilise si me résultats varient encore en dehors de mes somme de carrés de mes variables indépendantes
- mesure de la variabilité des données ne s’expliquant pas par le modèle
dans les anovas à plan factoriel quel est un synonyme de la somme carré erreur
somme carré intra
dans les anovas à plan factoriel, comment trouver nos effets principaux pour chaque variable indépendantes et pour leur interaction
- trouver notre f car f = effet principal
- f = cm pour une variable indépendante / cm erreur
comment savoir si dans mon anova à plan factoriel il y a une interaction
- interaction = une variable dépend de l’autre
- sur un graphique mes droites ne sont pas parallèles
- pour être significative = nécessite un écart important
comment interprété une interaction
utilisé le contexte
pouvons-nous utilisé des comparaison multiples dans les anavos à plan factoriel
oui
que permette les test d’effet simple
savoir quand nos interactions sont significatives
comment interprété test effet simple
= trouvé f = si a un étoile il est significatif et plus sa valeur est grande plus la différence est grande
si je veux par exemple, dans mon anova à plan factoriel, seulement la proportion de la variabilité expliqué par ma variable dépendante âge je fais quoi
je vais prendre sa somme carrée
à quoi il faut faire particulièrement attention avec les anovas à plan factoriel
les cellules de tailles inégales = demandera de modifier les calculs pour les SC et les tailles d’effets
que représente partial eta squared
taille effet partiel au carré
quel test est souvent utilisé pour vérifier l’homogénéité des variances avec les anovas simples
test de levene
si les conditions d’utilisation de l’ANOVA sont respectées et que toutes les observations proviennent de la même population qu’est-ce que l’on observera
- la variance intra est égale à celle inter
quel est l’objectif principal d’un test d’hypothèse dans le cadre d’une ANOVA
- savoir à quel point il est probable d’observer une certaine valeur F si tous les groupes proviennent d’une même population
différence entre sommes des carrés et les carrés moyens dans un tableau ANOVA
- SC représente la variation totale des données
- CM est la SC ajustée selon les degrés de liberté pertinents pour chaque source de variation
que représente un résultat significatif dans l’ANOVA
- il existe une différence significative entre au moins deux des moyennes des groupes
quel est le principal indicateur de la taille d’effet utilisé en anova plan simple pour mesurer l’ampleur de la différence entre les groupes
- l’êta carré
Comment interprète-t-on une taille d’effet η2 de 0.05 dans le contexte d’une ANOVA ?
5% de la variance totale est expliquée par les différences entre les groupes
Pourquoi y a-t-il un plus grand risque d’erreur de type 1 si celui-ci n’est pas contrôlé dans les comparaisons multiples après une ANOVA ?
Parce que l’augmentation du nombre de tests augmente la probabilité de trouver au moins un résultat significatif par chance, même si l’hypothèse nulle est vraie pour tous les tests.
Qu’est-ce que le contrôle du taux d’erreur de l’ensemble (EE) dans le contexte d’analyses statistiques multiples ?
minimiser le risque d’erreurs de type I lorsqu’on effectue plusieurs comparaisons de moyennes
Quelle méthode de contrôle du taux d’erreur ajuste le seuil alpha de façon variable pour chaque test, basé sur le rang des valeurs p ?
La méthode de Holm-Bonferroni.
Quelle est la principale différence entre le taux d’erreur de l’ensemble (EE) et le taux de fausses découvertes (FDR) dans le contexte des comparaisons multiples ?
- EE = contrôler la probabilité de commettre au moins une erreur de Type I sur l’ensemble des tests
- FDR vise à contrôler la proportion d’erreurs de Type I parmi les tests déclarés significatifs.
pourquoi il est préférable de faire des taux de fausses découvertes aux taux d’erreur de l’ensemble
par ce que FDR est moins conservateur et augmente ainsi la puissance statistique des tests
Quels sont les avantages principaux de la méthode de Benjamini-Hochberg par rapport à la méthode de Bonferroni ?
- moins conservatrice
- permet de contrôler le taux de fausses découvertes plutôt que le taux d’erreur de Type I global.
comment décrire correctement une ANOVA à plan factoriel dans un rapport de recherche
« Une ANOVA 2 (enfants vs adultes) × 3 (thérapie cognitive vs médication vs thérapie plus médication) a été conduite sur les scores au GAD-7. »
qu’indique la présence d’une interaction significative dans une anova à plan factoriel
que l’effet d’un facteur sur la variable dépendante change selon les niveaux de l’autre facteur
Quels types d’effets une ANOVA à plan factoriel permet-elle d’examiner ?
- Les effets principaux de chaque facteur
- les interactions entre ces facteurs.
Quelle est la principale différence entre les interactions et les effets principaux dans le contexte d’une ANOVA factorielle
- effets principaux = concernent la comparaison des moyennes globales de chaque niveau d’un facteur, sans tenir compte des niveaux des autres facteurs
- interactions = examinent comment la combinaison spécifique des niveaux de deux facteurs ou plus affecte la variable dépendante
Dans une ANOVA, si le êta carré partiel pour l’âge est de 0.35, comment interpréteriez-vous cette valeur ?
35 % de la variance totale de la variable dépendante est attribuable à l’âge.
différence entre anova à plan factoriel et à mesures répétées
- plan factoriel = participant participe à seulement 1 condition
- répétées = participants participent à plus d’une condition
objectif général d’une ANOVA
estimer quelle portion de la variance est due aux conditions et quelle proportion est due à l’erreur
différence par rapport à la variance due à l’erreur entre ANOVA standard et celle à mesures répétées
- standard = la variance intra-groupe est considérée comme de la variance due à l’erreur
- répétées = puisque plusieurs mesures pour chaque participant on enlève la variance intra-groupe ce qui diminue l’erreur
qu’est-ce que la condition d’application de l’ANOVA à plan simple à mesures répétées nommée la symétrie composée de la matrice des covariances
- les variances (diagonale) doivent être constantes
- les covariances (hors diagonale) doivent être constantes
qu’est-ce que la covariance
degré auquel 2 variables varient ensemble
si nous faisons des covariance dans le cadre d’une ANOVA avec des groupes indépendants qu’est-ce que l’on observe
les covariances seront de 0
la condition de la symétrie composée de la matrice des covariances est dite trop stricte, on la remplace par quoi
sphéricité qui s’intéresse à la variance des différences entre traitements plutôt que la covariance entre les traitements
quel test de sphéricité est utilisé et quel résultat on veut
- Mauchly
- non significatif car cela indique que la sphéricité est respectée
dans les ANOVAS factoriel à mesures répétées il y a deux SC erreur lesquels
- facteur inter-sujet
- facteur temps x inter-sujet
dans ANOVA factoriel à mesures répétées à quoi est égal la variabilité inter-sujet
variabilité groupe + variabilité intra-groupe
dans ANOVA factoriel à mesures répétées à quoi est égal la variabilité intra-sujet
variabilité temps + variabilité temps x groupe + variabilité temps x intra groupe
pourquoi pour trouver le f dans une ANOVA factoriel à mesures répétées nous avons fait CM groupe / CM intra-groupe
car permet de trouver l’effet du groupe sur l’intra-groupe
à partir des degrés de libertés comment trouver
- nb total participants
- nb de groupes
- nb temps de mesures
- participants = regardé la ligne inter-sujet +1
- groupe = regardé la ligne groupe + 1
- temps = regardé ligne temps +1
si la sphéricité n’est pas respecté il y a deux corrections possibles à faire, en quoi elles consistent
diminuer le nombre de degrés de liberté ce qui rend le test plus sévère et donc plus difficile d’être significatif
différence entre régression linéaire simple et celle multiple
- simple = prédire un critère avec un seul prédicteur
- multiple = prédire un seul critère avec plusieurs prédicteurs
quel est l’explication derrière la formule de la régression linéaire multiple
par quel chiffre on doit multiplier les valeurs pour que lors de leur addition on arrive le plus proche possible de la variable prédite
que cherchons nous dans les régressions linéaires multiples
- le b minimisant les espaces entre les points et la ligne = diminué l’erreur de prédiction soit le résidu
dans les régression linéaires ont cherche la proportion de variabilité mais quelles sont les différences entre celle linéaire simple et celle multiple
- simple = proportion variable de notre critère expliquée par notre prédicteur
- multiple = proportion de la variabilité de notre critère expliquée uniquement par les différents critères = soit pas expliqué par plusieurs critères (pas de chevauchement)
dans mon tableau de corrélations de pearson de régression linéaire multiple quelle ligne je regarde pour vérifier mes corrélation
- première ligne du tableau dans la section corrélation de person
comment vérifier mes colinéarité dans mon tableau spss de régression linéaire multiple
- regarder les lignes sous la première, on veut que nos corrélations soient faibles, car on veut observer les contributions uniques (il aurait trop de chevauchement)
que représente les B rapporté par SPSS dans mon tableau pour régression linéaire multiple
ils sont des coefficients indiquant de combien le critère varie pour un changement d’une unité sur un prédicteur donné
que représente les scores beta dans tableau SPSS pour régression linéaire multiple
un changement de 1 correspondant à une changement de 1 écart-type = ce qui permet de faire des comparaisons soit en regardant les scores beta de trouver le prédicteur le plus important = plus bêta est grand plus il est important
comment trouver dans mon tableau SPSS pour ma régression linéaire multiple, quels prédicteur sont significatifs et que cela veux dire
- regarder colonne sig. et si .001 cela est significatif
- veux dire que si la personne côte 0 partout ailleurs elle ne coterait pas 0 à ces endroits
que représente r2 dans ma régression linaire multiple
prend en compte tout les prédicteurs qu’on a et à quel point ils nous permettent de prédire y
qu’est-ce que l’on remarque avec le r2 ajusté
R2 augmente toujours lorsque l’on ajoute un prédicteur ainsi il a tendance à être plus grand qu’il ne devrait ainsi le r2 ajusté corrige ce biais
est-ce que la constante a un bêta
non
est-ce qu’habituellement on utilise des corrections pour les régressions linéaires multiples
non
quelles sont les 6 conditions application de la régression linéaire multiple
- ratio cas : prédicteur
- absence de données extrêmes ou aberrantes
- absence de multicolinéarité et de singularité
- normalité, linéarité et homoscédasticité des résidus
- indépendance des erreurs
- absence de données extrêmes ou aberrantes dans la solution
comment avec un tableau SPSS pour régression linéaire multiple, vérifier qu’il n’y a pas de multicolinéarité
- allé dans la colonne statistique VIF et si inférieur 10, il n’y a pas de problème
quelle statistique on utilise pour vérifier l’indépendance des erreurs
Durbin-Watson
quelles sont les 3 méthodes d’entrée des variables dans une régression linéaire multiple
- standard
- pas à pas (séquentielle par élimination OU régression pas à pas)
à quoi ressemble la méthode standard d’entrée de variables pour les régressions linaires multiples
- entré tous les prédicteurs dans l’équation en une seule étape
à quoi ressemble la méthode séquentielle par élimination d’entrée de variables pour les régressions linaires multiples
On entre tous les prédicteurs
dans l’équation et on les retire une à une en commençant par celles qui contribuent le moins à l’équation de régression = maximiser r2
à quoi ressemble la méthode régression pas à pas d’entrée de variables pour les régressions linaires multiples
- On entre les
prédicteurs un à un dans le modèle, en commençant par celui qui a la
corrélation la plus élevée avec le critère. - jusqu’à ce que plus
aucun ajout de variable n’apporte d’augmentation significative au R2
la régression linéaire multiple est utilisé avec quels types de prédicteur
- surtout continus ou approximativement continus
- catégoriels
différence entre médiation et modération
- médiation = notre prédicteur et notre VD ont un lieu qui existe à cause d’un médiateur
- modération = la valeur M modifie l’association entre 2 variables
est-ce que le médiateur peut avoir un effet négatif et positif
oui
quelles sont les 4 conditions pour que l’on puisse parler de médiation
- prise indépendamment les 3 corrélations doivent être présentes et significatives
- la relation entre le VI et la VD disparait ou est fortement réduite quand on contrôle statistiquement l’effet de la variable médiatrice
que représente dans la médiation selon la méthode des étapes causales de Baron les lettres suivantes : a, b, c et c’
- a = relation entre VI et médiateur
- b = relation entre médiateur et VD
- c = relation entre VI et VD quand on a enlevé tout associé à a et b
- c’ = relation entre VI et VD en présence de a et b
comment trouvé dans une médiation
- effet total
- effet direct
- effet indirect
- effet total = c = a*b+c’
- effet direct = c’
- effet indirect = a*b = c-c’
dans mon tableau de corrélation SPSS pour une médiation que dois-je vérifier
si toutes mes corrélations sont significatives = ont des étoiles
comment avec une sortie spss pour médiation venir vérifier si j’ai un effet unique de la VI
- regarder si la corrélation entre VI et VD est significative (première ligne)
- regarder la deuxième ligne du tableau où on vient contrôler pour l’effet avec la variable médiatrice, vérifier si c’est toujours significatif, si non alors pas d’effet unique de la VI
qu’est-ce que la corrélation semi-partielle
la corrélation entre VI et VD lorsque l’on contrôle pour la variable médiatrice soit qu’on enlève son effet
quelles sont les 4 critiques de la méthode des étapes causales de Baron
- ne quantifie pas l’effet indirect (a*b)
- aucun test statistique n’est fait sur l’effet indirect
- utilise plusieurs test statistiques alors qu’on pourrait en utiliser qu’un
- peu puissant car augmente risque erreur type 2
à quoi sert la méthode de Sobel
- assouplir la condition 4 des médiations soit que si enlève médiateur le lien entre VI et VD disparaît
- permet de quantifier l’effet indirect et son degré de signification (a*b)
à quoi ressemble la formule de la méthode de Sobel
t = BaBb/S Ba Bb = coefficient de a * coefficient de b / erreur standard du lien combiné de a et b
comment utiliser le résultat de ma méthode de Sobel
- donne une valeur t pouvant être transformé en score z qui sera comparé avec un score z critique significatif pour seuil alpha
- permettra de savoir si l’effet indirect est significatif
quelle est une alternative plus puissante que la méthode de Sobel
- méthode de Preacher et Hayes
que permet la méthode de Preacher et Hayes
- permet de générer une distribution d’échantillonnage de l’effet indirect
- ce qui permet de tester et quantifier l’effet indirect
- en plus de diminuer erreur de type 2 car elle fait 1 test seulement
critique des analyses de médiation
- bien qu’il y ait des structure causale on ne peut pas inférer de liens de cause à effet
- difficile de justifier le modèle choisi car les variables médiatrices sont définies par la littérature
différence entre régression multiple et régression logistique
- la régression logistique a une variable dépendante dichotomique (oui ou non, noir ou blanc)
- multiple = 1 critère mais plusieurs prédicteurs
est-ce que dans la régression logistique, la variable indépendante soit prédicteurs peuvent être continus (salaire, âge) ou catégoriels (marque voiture, animal pref)
oui
est-ce que dans la régression logistique je peux avoir une VD catégorielle à plus de 2 catégories
oui
pourquoi la régression logistique est plus flexible que d’autres analyses semblables
- prédicteur pas besoin d’être distribué normalement, ni avoir relation linéaire avec VD, ni de variance égale dans chaque groupe
- les prédicteurs peuvent être autant dichotomique, continu que catégorielle
- VD peut avoir 2 ou plus catégories et ces catégories peuvent avoir un ordre
que nous donne la régression logistique
probabilité que chaque participant appartienne aux différentes catégories de la VD en fonction de son patron de réponse
quels sont les 3 problèmes avec la régression logistique
- notre variable prédite pour le maximum de notre VD peut dépassé notre barème dichotomique ce qui est impossible
- la droite n’est pas linéaire elle est sigmoide
- notre valeur de y ne peut pas prendre n’importe quelle valeur car elle est dichotomique = données censurées
que sont des données censurées
un score continu est converti en score dichotomique
quelle est la solution au fait que la courbe de régression logistique ne soit pas linéaire mais sigmoide
- transformer nos données = de probabilité à chance et après de chance en log chance
pourquoi est-ce que l’on transforme nos données dans la régression logistique
- car en faisant ces transformations la fonction redevient linéaire
comment se trouve les chances
p / 1 - p
comment trouver les odds ration
- on fait les chances pour chaque condition = p / 1-p
- ensuite on divise nos résultats obtenus par l’autre
synonyme log chances
logit
à quoi est égale log chances
ln(p/1-p) = loge (chances) = ln (chances)
qu’est-ce qu’un log
log4(16) = quel exposant je dois donné à 4 (base) pour obtenir 16 (argument) = 2
dans loge que représente e
constante utilisée fréquemment soit 2,718281
quelles sont les étapes des tests inférentiels pour la régression logistique
- on calcule 2 modèle = un sans prédicteur soit seulement la constante qui est l’ordonnée à l’origine et un avec tous les prédicteurs
- on vérifier si un modèle avec tous les prédicteur est meilleur que celui sans prédicteur = comparer les table de classification en regardant le pourcentage overall
- Nagelkerke = r2 = si ma valeur est plus grande cela veux dire que le modèle explique davantage de variation dans la VD
- vérifier si significatif avec un Wald équivalant à un chi-carré
quelles sont les 5 limites à la flexibilité de la régression logistique
- un bon ration cas:prédicteur
- relation linéaire
- absence multicolinéarité
- absence données extrêmes dans solution
- indépendance des erreurs
que nous permets la formule du Kappa
de trouver la proportion d’accords si on exclut tous ceux qui seraient obtenus par hasard
le Kappa est quoi
mesure d’accord inter-juge
avec ma réponse au kappa comment savoir le degré d’accord entre juges
- 0 à 20 = aucun
- 21 à 39 = minime
- 40 à 59 = faible
- 60 à 79 = modéré
- 80 à 90 = fort
- 90 et plus = presque parfait
si les juges ne sont pas d’accord la variance devrait être comment
petite
comment trouver mon coefficient de concordance de Kendall (w)
variance des totaux de colonnes / variance maximale possible de totaux de colonnes
comment interpréter mon w
- il faut d’abord le transformer en rs de spearman
- ensuite le rs de spearman plus il est proche de 1 plus la relation monotone positive entre les positives
- si le rs est proche de 0 il n’y a aucune relation monotone entre les variables
différence entre médiane et moyenne
- médiane = point où se trouve 50% des scores lorsque placé en ordre numérique
- moyenne = somme divisé par nombre
entre la médiane et la moyenne laquelle est la plus sensible aux scores extrêmes
moyenne
entre la médiane et la moyenne laquelle est la plus stable
moyenne
que sont des limites
barèmes en dehors desquels on rejetterait n’importe quel score z
comment trouver les valeurs de mes limites
- écart-type * valeur z (1,96)
- moyenne - valeur obtenue en 1 = limite côté négatif
- moyenne + valeur obtenue en 1 = limite côté positif
que sont des intervalles de confiance
ce que j’observe dans mon projet est susceptible d’être à l’intérieur de l’intervalle 95% du temps lorsque l’on répète la procédure un grand nombre de fois
que veux dire IC.95 = (8.3, 15.7)
mon intervalle de confiance à 95% se situe entre 8.3 et 15.7
pourquoi est-ce important des intervalles de confiance
- permet de savoir à quel point il y a de l’incertitude dans nos résultats
- permet de faire un test d’hypothèses sans un test t et tout de même obtenir l’intervalle de confiance
différence entre test paramétrique et non paramétrique
- paramétrique = implique des conditions d’application liées à certains paramètres (population) et des distributions
- non paramétrique = pas conditions et plus générale
avantages tests non paramétriques
- parfois plus fors que ceux paramétriques n’ayant pas remplis leurs conditions
- plus sensible aux médianes qu’aux moyennes
- permet tester hypothèses sur nos données même s’il y a des données extrêmes
inconvénient des test non paramétriques
- ils sont moins puissants que ceux paramétriques donc il faut avoir des échantillons plus grands pour atteindre la même puissance
bootstrap est utile dans quelles conditions
- calculer un intervalle de confiance pour des médianes
- échelle intervalle ou présence de données extrêmes
- non normalité de la distribution
qu’est-ce que la méthode de bootstrap basé sur les percentiles
- je prends aléatoirement des scores dans mon échantillon A pour les mettre dans mon échantillon B
- le score que j’ai pris en A reste là mais ira aussi dans B
- calcule médiane pour chaque échantillon
- regarde à quel fréquence j’obtiens un échantillon avec cette médiane
- trouve mes limites pour IC.95 ou le plus proche possible de 95%
- prendre les valeur incluse dans le 95 = intervalle de confiance
que permet la méthode de bootstrap basé sur les percentiles
permet de savoir quelle proportion des données que l’on doit retrancher pour avoir notre intervalle de confiance
quelle est une particularité de la méthode de bootstrap basé sur les percentiles avec le rejet de l’hypothèse nulle
- si dans mon hypothèse nulle il y a une valeur qui se retrouve dans mon intervalle de confiance je ne peux pas la rejeter
pourquoi voudrait-on calculer des intervalles de confiance avec boostrap
- permet d’aller au-delà d’une valeur p et donc on peut faire des tests hypothèse nulle
- permet de visualiser l’incertitude associée à nos données (on veut le plus petit intervalle car permet d’avoir beaucoup de certitude en nos données)
qu’est-ce que le test de la somme des rangs de Wilcoxon
- équivalent du test-t sur deux échantillons indépendants
- on met nos données standards en rang = on prend nos scores et les mets en rang du plus petit au plus grand
que vérifie le test de la somme des rangs de Wilcoxon
vérifie si la somme des rangs du plus petit groupe est plus petite que la plus petite somme qu’on s’attendrait à obtenir au hasard
qu’est-ce que la statistique U de Mann-Withney
- test équivalent à la somme des rang de Wilcoxon
- relation linéaire parfaite entre les deux = permet de les convertir entre eux
dans quelle situation est-ce que l’on utilise le test des rangs pour échantillons pairés de Wilcoxon
- équivalent du test-t sur deux échantillons pairés ou dépendants
- utilise soit toujours les mêmes participants ou des populations qui sont symétriques avec le même moyenne
que fait-on avec le test des rangs pour échantillons pairés de Wilcoxon
on fait la différence de rang avant et après par exemple et si le score t obtenu est positive (il y a une amélioration) versus s’il est négatif (il y a une diminution de la condition du participant)
*à vérifier avec le contexte)
problèmes des tests hypothèse nulle avec valeur p
- difficulté de compréhension une grande valeur p ne signifie pas nécessairement un grand effet
- encouragent pensée dichotomique (les groupes sont différents ou pas)
- confusion entre degré signification et taille échantillon
- p haking et p harking
qu’est-ce que le p haking et p harking
- haking = ajout de participant après les analyses
- harking = prétendre qu’une hypothèse faite après collecte données
solutions pour problèmes des tests avec valeur p
- rapporter taille d’effet = magnitude
- rapporter intervalles de confiance
- méta analyse et méthode bayésienne
Selon Baron & Kenny (1986), quelles sont les conditions requises pour établir une médiation?
- corrélation entre VI et médiatrice
- médiatrice affecte VD
- lien VI et VD diminue avec inclusion médiateur
Comment la méthode de Sobel diffère-t-elle des étapes causales de Baron & Kenny?
elle utilise un test statistique pour évaluer l’effet indirect
Quelle approche permet d’évaluer l’effet indirect en se basant sur le rééchantillonnage?
Preacher et Hayes
Quel est un avantage de la méthode de Preacher & Hayes par rapport à celle de Baron & Kenny?
Elle fournit des intervalles de confiance pour l’effet indirect.
Dans le contexte d’une analyse de médiation, quel est le rôle de l’effet total?
Il décrit l’effet de la variable indépendante sur la variable dépendante avant l’introduction du médiateur.
Quel est l’avantage principal de la régression logistique ?
elle est flexible
Que sont les chances ?
La probabilité qu’un événement se produise divisée par la probabilité qu’il ne se produise pas.
que sont les Odds Ratio?
rapport des odds de survenue d’un événement entre deux groupes.
Dans une étude évaluant l’effet de l’exercice sur la santé mentale, on mesure le bien-être chez un groupe pratiquant de l’exercice à un groupe sans exercice. En assumant que l’exercice est bénéfique pour la santé, comment interpréteriez-vous un Odds Ratio de 3 ?
Le groupe pratiquant l’exercice a trois fois plus de chances de présenter une amélioration de la santé mentale comparé au groupe sans exercice.
Dans l’équation Ŷi = eu / (1 + eu), que représente Ŷi ?
La probabilité prédite de l’occurrence de l’événement.
Quel est le but principal d’utiliser deux cliniciens indépendants pour évaluer les participants dans l’étude sur l’anxiété sociale ?
Assurer la fiabilité de la procédure de sélection des participants
Pourquoi utiliser le coefficient Kappa au lieu de simplement utiliser un pourcentage d’accord ?
Pour prendre en compte la possibilité d’accord par hasard.
L’accord inter-juge permet-il de savoir si les jugent classent correctement les stimuli présentés ?
Non, l’accord inter-juge confirme seulement que les juges sont cohérents entre eux dans la classification des stimuli.
Si les deux juges avaient évalué les participants de manière complètement aléatoire, quelle valeur le Kappa aurait-il théoriquement atteinte ?
0 (Kappa évalue l’accord au-delà du hasard; un accord aléatoire devrait conduire à un Kappa de 0)
Quelle est la principale différence entre le coefficient de concordance de Kendall et le coefficient kappa ?
Le coefficient de concordance de Kendall évalue l’accord sur des échelles ordinales tandis que le kappa évalue l’accord sur des échelles nominales.
Quelle serait la valeur du coefficient de concordance de Kendall si tous les juges étaient d’accord avec l’ordre du premier juge ?
Une concordance parfaite donne un coefficient de 1. L’accord entre les juges est complet et tous les objets sont classés identiquement par chaque juge.
Quel est l’impact du nombre d’objets (N) et du nombre de juges (k) sur la fiabilité du W de Kendall ?
Augmenter N et k augmente la fiabilité de W.
Pourquoi pourrait-on vouloir transformer le W de Kendall en rs de Spearman
Pour simplifier l’interprétation des résultats. Transformer en rho de Spearman peut aider à simplifier l’interprétation en fournissant une mesure plus familière et comparable.
Comment la position de la médiane est-elle déterminée dans un ensemble de données ?
ordonnant les valeurs et en sélectionnant celle au milieu
explique correctement pourquoi l’échelle de mesure est cruciale dans le choix entre la médiane et la moyenne comme mesure de tendance centrale ?
- moyenne requiert des données sur une échelle d’intervalle pour être interprétable car elle implique des calculs qui supposent une équidistance entre les valeurs.
- médiane, étant simplement le point médian des données classées, est suffisante pour les données sur une échelle ordinale où le classement est significatif mais pas la distance exacte entre les rangs
mesure de tendance centrale est généralement plus affectée par l’ajout ou la suppression de valeurs dans l’échantillon
médiane
raison principale pour laquelle on pourrait préférer un test non paramétrique à un test paramétrique dans une étude statistique
tests non paramétriques sont basés sur moins d’hypothèses sur la distribution sous-jacente des données
quel contexte un test non paramétrique pourrait-il être considéré moins puissant qu’un test paramétrique correspondant
données sont parfaitement normales. Les tests paramétriques tendent à être plus puissants que les tests non paramétriques lorsque les conditions d’application des tests paramétriques (comme la normalité des données) sont satisfaites
pourquoi la méthode de Bootstrap est-elle particulièrement utile pour estimer l’intervalle de confiance de la médiane dans des données asymétriques
- utilise un grand nombre de réplications pour estimer la distribution de la médiane
- ne repose pas sur des postulats de normalité
- utilise le rééchantillonnage pour simuler la distribution asymétrique
principe sous-tend l’approche Bootstrap
scores observés dans un certain pourcentage des cas dans l’échantillon sont représentatifs de ce même pourcentage dans la population
scénario approprié pour utiliser le Bootstrap plutôt que les méthodes paramétriques traditionnelles
données montrent des valeurs extrêmes et que la distribution de l’échantillon est asymétrique
Bootstrap pour estimer des statistiques, comment les tirages sont-ils effectués à partir de l’échantillon original
tirages sont effectués avec remise pour permettre la réplication exacte de la distribution de l’échantillon
Comment doit-on interpréter un intervalle de confiance issu d’une méthode Bootstrap pour un coefficient de corrélation qui n’inclut pas zéro
signifie que le coefficient de corrélation est significativement différent de zéro, suggérant une corrélation significative entre les variables
Que signifie un intervalle de confiance qui n’inclut pas zéro pour une taille d’effet
La taille de l’effet est statistiquement significative. Si l’intervalle de confiance pour une taille d’effet (p. ex. un coefficient de corrélation r) ne comprend pas zéro, cela signifie que l’effet est statistiquement significatif
test de la somme des rangs de Wilcoxon est une alternative à quel test
test t pour échantillons indépendants
l’hypothèse nulle du test de la somme des rangs de Wilcoxon pour deux échantillons indépendants
Les deux échantillons ont été prélevés aléatoirement de populations identiques, au-delà de la simple égalité des moyennes
dans le test de la somme des rangs de Wilcoxon, passe-t-on à une approximation normale lorsque la taille de l’échantillon est grande, pourquoi
cette approche permet de calculer un score Z et d’utiliser la distribution normale pour obtenir une valeur p, facilitant ainsi l’interprétation statistique
différence entre le test de la somme des rangs de Wilcoxon et le test des rangs pour échantillons pairés de Wilcoxon
premier compare deux échantillons indépendants, tandis que le second compare deux mesures appariées ou sur les mêmes sujets