semaines 1 à 5 Flashcards
Qu’est-ce qu’une population?
C’est l’ensemble de tous les événements ou objets qui possèdent une ou plusieurs caractéristiques communes sur lesquels l’étude porte son intérêt.
Qu’est-ce qu’un échantillon?
C’est un sous-ensemble d’une population.
Quel est l’objectif principal lorsque l’on forme un échantillon?
Qu’il soit représentatif de la population à l’étude.
Qu’est-ce qui peut faire baisser la validité externe?
La non-représentativité de l’échantillon.
Qu’est-ce que la validité externe?
La capacité de généralisation à d’autres évènements ou objets.
Qu’est-ce que l’échantillonnage?
Pour obtenir l’échantillon le plus représentatif possible, l’échantillonnage doit idéalement être probabiliste (ou aléatoire) : Chaque membre de la population doit avoir une chance égale d’être sélectionné dans l’échantillon.
Qu’est-ce que l’assignation?
Répartition des sujets dans les groupes de l’expérience. Aléatoire quand c’est possible…
Qu’est-ce que la validité interne?
Est-ce nos résultats signifient bien ce que nous pensons qu’ils signifient?
Si l’assignation n’est pas aléatoire, quelle en sera la conséquence?
Baisse de la validité interne
Qu’est-ce qu’un paramètre?
Une mesure calculée sur la population. Représentée par une lettre grecque. En général, on ne peut pas connaître la valeur du paramètre, on doit l’estimer à l’aide d’échantillons.
Qu’est-ce qu’une statistique?
Une mesure calculée sur l’échantillon. Représentée par une lettre standard.
Qu’est-ce qu’une statistique descriptive?
Vise à résumer l’information d’un ensemble de données à l’aide d’indices numériques et graphiques. ex. : la moyenne, l’écart-type, l’étendue, la médiane…
Qu’est-ce qu’une statistique inférentielle?
Vise à tirer des conclusions sur l’ensemble de la population à l’étude à partir de statistiques calculées sur un ou plusieurs échantillons. Utilisation de l’échantillon = facilité, économie, efficacité
Qu’est-ce qu’une variable indépendante?
Ce qui est manipulé par le chercheur ou la chercheuse dans une expérience.
Qu’est-ce qu’une variable dépendante?
Ce qui est mesuré dans l’expérience.
Nomme la différence entre une variable discrète et continue.
Discrète: prend un nombre limité de valeurs. Continue: prend n’importe quelle valeur sur un continuum d’une échelle ex: taille de qqun
Quelles sont les 4 catégories d’échelles de mesure?
Nominale, ordinale, d’intervalle, de rapport (ratio)
Décrire les 4 types d’échelles de mesures.
L’échelle nominale: étiquette sans ordre particulier (division en catégories). Seules les fréquences sont possibles
L’échelle ordinale: les valeurs sont classées suivant un continuum ordonné (rang)
L’échelle d’intervalle: les valeurs sont ordonnées et réparties en intervalles égaux (la distance entre les rangs est constante). Ne permet pas de faire de ratio ou rapport (40°C ≠ 2 ×20°C), car il n’y a pas de zéro absolu (c.-à-d. que le zéro ne correspond pas à l’absence de la caractéristique mesurée)
L’échelle de ratio (ou de rapport) possède les caractéristiques de l’échelle d’intervalle, avec en plus le zéro absolu, toutes les opérations mathématiques sont permises
Les variables indépendantes sont généralement calculées sur quels type d’échelles de mesure?
Nominale ou ordinale
Les variables dépendantes sont généralement calculées sur quels types d’échelle de mesure?
Toutes, mais on privilégie de ratio ou d’intervalle.
Quels sont les avantages du diagramme en boîte et moustache? (3)
1- permet d’identifier rapidement si la distribution est symétrique
2-permet d’identifier rapidement la présence de données extrêmes
3-Ne présente généralement pas les valeurs individuelles
Savoir ce qu’est la “voussure” d’une distribution:
Mésocurtique, leptocurtique et platocurtique.
Selon leur degré de symétrie, les distributions peuvent être…
Normale, bimodale, asymétrique négative (droite) et positive (gauche)
Une lettre majuscule représente…
Une variable.
Une lettre minuscule représente…
Une unité d’observation de la variable.
Quelles sont les trois règles de la sommation?
1- La sommation d’une constante pour ide 1 jusqu’à n est égale à n fois la constante.
2- La sommation d’une constante multipliée par une variable est égale à la constante multipliée par la sommation de la variable.
3- La sommation d’une somme de plusieurs quantités est égale à la somme des sommations.
Quels sont les trois types de mesure de tendance centrale?
Moyenne, médiane et mode
Si on a deux modes adjacents, est-ce unimodal ou bimodal?
Unimodal, on doit faire la moyenne des deux valeurs.
Qu’est-ce que la médiane?
Le point sur l’échelle des données ordonnées numériquement au-dessous duquel se situent 50% des cas.
Quelle opération simple utilise-t-on pour calculer la médiane?
(n+1) /2
Vrai ou faux? La médiane est affectée par les données extrêmes.
Faux, la médiane n’est pas affectée par les données extrêmes.
Quels sont les 3 mesures de dispersion?
L’étendue, la variance et l’écart-type
Nommer les 3 propriétés de l’étendue.
Ignore presque toute la distribution
Calculée à partir des données extrêmes
Utile avec une distribution naturellement bornée (p. ex. l’âge)
Qu’est-ce que l’écart moyen
la moyenne des écarts à la moyenne. Inutile car toujours égal à 0.
Qu’est-ce que l’écart moyen absolu?
Moyenne des écarts en valeur absolue entre chaque donnée et la moyenne. Peu utile car difficilement manipulable algébriquement
Il existe deux formules pour calculer la variance. Quelles sont-elles?
voir diapo 56 de la semaine 2
L’écart-type est la racine carrée de la variance. Vrai ou faux
Vrai
La variance et l’écart-type sont très affectés par les données extrêmes. oui non
Oui
- L’addition d’une constante à chaque donnée de la distribution modifie la
variance (et l’écart-type) de cette distribution
Faux, ni l’un ni l’autre.
- La multiplication d’une constante à chaque donnée de la distribution produit une
nouvelle variance égale à la variance originale multipliée par cette constante au
carré et un nouvel écart-type égal à l’écart-type original multiplié par cette
constante
ouioui baguette
Qu’est-ce qu’un coefficient de variation?
Indice de dispersion qui permet de comparer des écarts-types qui proviennent d’échantillons dont les moyennes ou les échelles de mesure diffèrent.
Que signifient les lettres de la formule de transformation linéaire Y= bX+a
*a et b sont des constantes
X est la variable originale
Y est la variable transformée
où b est la pente et a est l’ordonnée à l’origine
Quels sont les deux indices permettant de déceler la présence d’une transformation linéaire?
- L’équation peut être représentée par une droite de la forme Y= bX+ a. b = ΔY÷ΔX
(pente) où le triangle représente la différence
entre 2 x et a = Y lorsque X= 0
(ordonnée à l’origine) - La variable X doit être de 1er degré. Donc pas d’opération comme X2, X3, log(X)
Nommer les 4 propriétés des transformations linéaires.
- Une transformation linéaire ne modifie pas la forme de la
distribution. - Les distances entre les données demeurent proportionnelles après
une transformation linéaire - La moyenne des données transformées Y est égale à la transformation linéaire de la moyenne originale X.
- La variance des données transformées (s2Y) est égale à la variance des données originales (s2X) multipliée par le carré de la pente.
Qu’est-ce qu’une Inversion d’échelle (ou reflet)?
Les questionnaires basés sur une échelle de type Likert comportent des questions dont l’échelle est inversée afin d’empêcher ou de détecter la présence de biais de réponse.
Comment écrirait on une transformation linéaire pour une échelle en 5 points?
Transformation linéaire pour une échelle en 5 points :
Y = -X + 6 b = -1 et a = 6 (plus grande valeur de l’échelle + 1)
Ou, de façon simplifiée, Y= 6 –X
Qu’est-ce qu’un score de déviation?
Chaque transformation en un score de déviation représente le degré de déviation
d’une donnée par rapport à la moyenne de la distribution : Si le score de déviation est :
- Positif la donnée est supérieure à la moyenne
- Négatif la donnée est inférieure à la moyenne
Exemple si
𝑋= 6 et X1= 3 :
Y1= 3 –6 = -3 (X1 se situe donc à 3 unités sous la moyenne)
Qu’est-ce que le score z?
Score de déviation pondéré selon l’écart type de la distribution. Semaine 3 diapo 14 pour la formule. 𝑏=1/𝑠𝑥
et 𝑎=−𝑋/𝑠𝑥
La transformation en score Z permet elle de normaliser la distribution?
Non, puisqu’elle ne modifie pas la forme de la distribution.
Vrai ou faux? Le score z transforme n’importe quelle distribution en distribution ayant une moyenne de 0 et un écart-type de 1
Vrai
La moyenne et l’écart type des scores T sont toujours égaux à quoi? Séparément
Moyenne: 50
écart type: 10
Quelle est l’équation toujours utilisée pour les scores T?
T= 10Z+ 50
Le score T est avantageux pour quelle principale raison?
Absence de score négatif.
Qu’est-ce qu’une distribution normale asymptotique?
Son y est toujours plus grand que 0.
Le mode, la médiane et la moyenne ne sont pas égaux dans la distribution normale.
Faux, ils sont tous égaux.
Dans une distribution normale, plus X s’éloigne de la moyenne, plus la fréquence d’occurrence de X diminue (c.-à-d., plus Y diminue)
vrai
Quelle est la moyenne et quel est l’écart type d’une distribution dite “centrée réduite”?
moyenne= 0
écart type= 1
Toute distribution (normale ou non) peut devenir centrée réduite à l’aide d’une transformation linéaire.
vrai
Il faut transformer chaque donnée de la distribution en score Z pour la mettre en centrée réduite. Quelle est la formule
Z= (Xi - Xbarre)/Sx
Quelle est la probabilité de trouver une personne ayant un
QI se situant entre 100 et 119 ?
QI (100, 225) N(𝜇, 𝜎2)
𝑍 = (𝑋𝑖 − X)/𝑠𝑥
𝑍 = (119 − 100)/15
= 1.27 à voir dans la table z “ de la moyenne à z”
= 0.3980
Qu’est-ce qu’une distribution normale?
Symétrique: Symétrie = 0
Mésokurtique: Voussure = 0
Asymptotique: Y toujours > 0
Unimodale: Mode = Médiane = Moyenne: La courbe atteint son maximum (sommet) à la moyenne, au mode et à la médiane
Plus X s’éloigne de la moyenne, plus la fréquence d’occurrence de X diminue (c.-à-d., plus Y diminue)
L’aire sous la courbe (la surface) est égale à 1.
Qu’est-ce que le point de vue analytique?
(le plus courant) :
Le calcul de probabilité est basé sur nos connaissances des données et du système à l’étude. Formule générale:
p(A) = A/(A + B) p(A) est la probabilité de l’événement A
Les événements A et B doivent être mutuellement exclusifs.
A et B doivent former la totalité des alternatives possibles.
Expliquer le point de vue fréquentiste.
Contrairement à l’approche analytique, on ne connait pas la totalité du système à l’étude. Le calcul de probabilité est basé sur une approche plus «expérimentale», soit le prélèvement avec remise.
Qu’est-ce que la probabilité subjective?
Croyance d’un individu sur la probabilité d’occurrence d’un événement. Peut s’avérer peu représentative de la probabilité réelle.
Que sont des événements indépendants?
L’occurrence (ou la non-occurrence) d’un événement n’affecte pas l’occurrence (ou la non-occurrence) de l’autre.
Que sont des événements mutuellement exclusifs?
L’occurrence d’un événement exclut l’occurrence de l’autre événement.
P. ex. : La participation à un cours de statistiques le mercredi matin exclut la participation à un cours d’anglais le mercredi matin.
Qu’est-ce que la loi additive?
Si 2 événements (A et B) sont mutuellement exclusifs, la probabilité d’observer A ou
B est égale à la somme de leurs probabilités séparées.
p(A ou B) = p(A) + p(B)
Qu’est-ce que la loi multiplicative?
La probabilité d’observer conjointement plusieurs événements indépendantsest
égale à la multiplication de leurs probabilités (probabilité conjointe). p(A, B) = p(A) ×p(B)
ex.: Quelle est la probabilité d’avoir une chanson francophone (f) suivie d’une chanson anglophone (a) ?
p(f, a) = p(f) ×p(a) = 30/100 ×15/100 = 4.5/100 ou .045
Qu’est-ce que la probabilité conditionnelle?
La probabilité qu’un événement survienne étant donné qu’un autre s’est produit ou p(A|B).
*Événements nécessairement dépendants
Indiquez quelle loi (additive ou multiplicative) devrait être utilisée pour calculer les probabilités suivantes :
*La probabilité que vous buviez du café aujourd’hui et demain
* La probabilité que la prochaine émission que vous regardiez soit une comédie ou un documentaire
- multiplicative
- additive
À quoi sert la statistique descriptive?
Vise à résumer l’information d’un ensemble de données à l’aide d’indices numériques et graphiques.
À quoi sert la statistique inférentielle?
Vise à tirer des conclusions sur l’ensemble de la population à l’étude à partir de statistiques calculées sur un ou plusieurs échantillons.
Quelle est la différence entre une hypothèse nulle et alternative?
Hypothèse nulle (H0): Stipule l’absence de différence (aucun effet du traitement) ou un effet inverse du traitement.
H0: μ1 ≥μ2
H0: μ1= μ2
Hypothèse alternative (H1) : Correspond à ce que le chercheur ou la chercheuse veut démontrer
H1: μ1< μ2
H1: μ1≠ μ2
Le Test de Signification de l’Hypothèse Nulle permet de…?
Le test est effectué sur H0 et l’objectif est de rejeter H0. ON NE PEUT JAMAIS PROUVER À 100% UNE HYPOTHÈSE ALORS ON RÉFUTE H0
Vrai ou faux? Plus l’échantillon (n) est petit, plus la variabilité de la distribution d’échantillonnage est petite.
Faux. Plus l’échantillon (n) est grand, plus la variabilité de la distribution d’échantillonnage est petite. Ainsi, plus l’échantillon (n) est grand, plus l’estimation du paramètre (p. ex. la moyenne) est précise et la conclusion inférentielle est sûre.
À quoi correspond le seuil de signification alpha?
Le seuil de signification alpha (α) correspond à la probabilité à partir de laquelle on juge qu’il est trop peu probable d’observer la statistique calculée sur un échantillon si H0 est vraie. cette probabilité critique est fixée à
aa= .05 ou aa = .01.
Quand rejette t-on l’hypothèse nulle?
Si p ≤ α: Rejet de H0
Si p > α : Non-rejet de H0
Si p > .05 : On ne rejette pas
H0, l’effet est donc dû à…?
L’effet observé était dû au
hasard ou à l’erreur
d’échantillonnage.
Entre le test unilatéral et le bilatéral, lequel est le plus puissant?
Unilatéral
Qu’est-ce que l’erreur de type 1?
Probabilité de rejeter H0 lorsque H0 est vraie
Conclure qu’il y a un effet alors qu’il n’y en a pas
Le niveau α est généralement fixé entre 1% et 5%. ex.: conclure que j’ai une maladie alors que je suis en santé.
Qu’est-ce que l’erreur de type 2?
Probabilité de ne pas rejeter H0 lorsque H0 est fausse
Conclure l’absence d’effet alors qu’il y en a un
Le niveau β souhaité est généralement 20%. Ex.: conclure que je n’ai pas de maladie alors que j’en ai une.
Lorsqu’il est question d’erreurs statistiques, qu’est-ce que la puissance?
Probabilité de rejeter correctement H0
(rejet correct)
Quelles sont les 5 étapes de la démarche inférentielle?
1.Identifier les hypothèses statistiques (H0 et H1)
2.Spécifier le seuil de signification alpha (α) et s’il est uni ou bilatéral
3.Préciser le modèle statistique utilisé et effectuer l’analyse
*Choix du test statistique (p. ex. test t sur un échantillon)
*Conditions d’utilisation du test (p. ex.échelle de mesure de la VD)
*Distribution d’échantillonnage utilisée (p. ex. t de Student)
*Effectuer le test (calculs à la main ou avec SPSS)
4.Décision statistique (rejeter ou non H0)
5.Conclusion selon le contexte
Quel est le but du test inférentiel sur une moyenne?
Vérifier si la moyenne observée sur un échantillon (ഥX) est :
*Identique ou différente de la moyenne connue ou supposée de la population (μμ) (Hypothèse bilatérale)
*Inférieure ou supérieure à la moyenne connue ou supposée de la population (μμ) (Hypothèse unilatérale)
Vous effectuez une étude en nutrition et vous cherchez entre autres à savoir si l’indice de masse corporelle (IMC) des participants de votre échantillon est plus élevée que l’IMC moyenne dans la population à l’étude, qui est de 26 kg/m2. Quelles sont votre hypothèse nulle (H0) et votre hypothèse alternative (H1) ? Pour vous aider à saisir votre réponse, vous pouvez effectuer un copier-coller des symboles pertinents parmi la liste de symboles ci-dessous.
= ≠ < > ≤ ≥ μ x̄ σ s α β Σ
H0 : ____(Zone 1)____
H1 : ____(Zone 2)____
Vous vous intéressez à un nouveau médicament prometteur pour contrer les allergies saisonnières. Vous croyez que votre médicament diminuera les symptômes d’allergies comparativement aux autres médicaments disponibles. Avant de mettre ce nouveau médicament sur le marché, vous souhaitez toutefois vous assurer que la diminution observée des symptômes est réellement due à votre médicament, et non à l’erreur d’échantillonnage. Parmi les deux niveaux α suivants, lequel devriez-vous choisir ?
Vous effectuez une étude dans laquelle vous souhaitez montrer que le nombre moyen de fruits et légumes consommés chaque jour par des participants ayant reçu une formation sur le guide alimentaire canadien est plus élevé que le nombre moyen de fruits et légumes consommés dans la population générale. Vous établissez le risque de commettre une erreur de type I à 5%. À la lumière de ce qui précède, indiquez ci-dessous les informations requises à la deuxième étape de la démarche inférentielle. Pour vous aider à saisir votre réponse, vous pouvez effectuer un copier-coller des symboles pertinents parmi la liste de symboles ci-dessous.
Vous souhaitez vérifier si un groupe de 76 étudiants de premier cycle de l’École de psychologie sont plus ou moins extravertis que le sont les habitants du Québec dans son ensemble. Vous leur faites compléter un questionnaire mesurant l’extraversion, un score plus élevé indiquant un plus haut niveau d’extraversion. Les étudiants obtiennent alors un score moyen de 14/20. Tout ce que vous savez par rapport à la population à l’étude, c’est que le score moyen des Québécois au même questionnaire est de 15/20. Vous tentez de déterminer si ces deux moyennes diffèrent significativement en effectuant les cinq étapes de la démarche inférentielle. Parmi les options ci-dessous, lesquelles devriez-vous indiquer lorsque vous effectuerez la troisième étape de la démarche inférentielle ?
Vous effectuez une étude dans laquelle vous souhaitez vérifier si le QI moyen calculé chez un groupe d’étudiants de 50 étudiants de Harvard (x̄ = 131) est supérieur au QI moyen de la population (μ = 100, σ = 15). Vous tentez de répondre à votre question en effectuant les cinq étapes de la démarche inférentielle. Parmi les options ci-dessous, lesquelles devriez-vous indiquer lorsque vous effectuerez la troisième étape de la démarche inférentielle ?
Vous souhaitez vérifier si le score moyen de 70% obtenu par un groupe de 40 étudiants ayant effectué un test d’anglais est inférieur au score moyen de 80% typiquement observé dans la population. Votre hypothèse nulle postule que le score de 70% obtenu dans votre échantillon est égal ou supérieur à la moyenne de 80% observée dans la population. Votre hypothèse alternative postule quant à elle que le score de 70% obtenu dans votre échantillon est inférieur au score moyen de 80% observé dans la population. Après avoir effectué les calculs d’un test Z, vous obtenez un Z observé de -2.02 pour votre échantillon. En considérant l’hypothèse nulle comme vraie, est-il juste de dire que le score moyen de votre échantillon est observé moins de 1% du temps dans la population à l’étude ?
Quel test prend t-on si o est connu vs inconnu?
Si o est connu, on fait un test z, s’il est inconnu, on fait test t sur un échantillon