Stats bloc 1 Flashcards
Qu’est-ce que la méthode scientifique?
ensemble d’étapes permettant d’acquérir de nouvelles connaissances fiables et objectives
«elle peut être reproduite par quiconque pour arriver aux mêmes résultats
Quelles sont les étapes de la méthode scientifique?
- Identifier la problématique et préciser la question de recherche
- Hypothèse de recherche
- Opérationnaliser les concepts
- Choisir la technique d’observation/collecte et déterminer instruments de mesure
- Effectuer observations/ collecte (recueille données brutes)
- Traiter et organiser les données
- Analyser et interpréter les données
- Diffuser les résultats
Que comprend la 3e étape de la méthode scientifique, soit opérationnaliser les concepts?
Clarifier les termes utilisés dans l’hypothèse de recherche
Raffiner l’hypothèse en précisant le sens du lien présumé entre les variables
Quels symboles représentent la taille d’une population et d’un échantillon?
Taille de la population = N
Taille de l’échantillon = n
Quel symbole représente une variable statistique?
N’importe quelle lettre majuscule
Qu’est-ce qu’une modalité (valeur)?
Un état ou une valeur que peut prendre une variable
Les modalités sont les réponses possibles à un sondage ou un recensement (numérique ou non)
Quels sont les 4 types de variables?
Qualitative nominale. qualitative ordinale, quantitative discrète, quantitative continue
Quelles sont les 4 échelles de mesure?
et les calculs possibles
Échelle nominale (égalités)
Échelle ordinale (égalités et ordonnances) ex: tranches d’âge
Échelle d’intervalle (égalité, ordonnance, somme, différence) → zéro arbitraire ex: météo
Échelle de rapport (égalité, ordonnance, somme, différence, multiplication, division) → zéro = absence
Pourquoi est-il pertinent de faire un sondage plutôt qu’un recensement ? (6)
- Population est trop grande
- Une partie de la population est difficilement accessible
- Recensement est souvent trop long
- Trop coûteux
- Trop de recensement peut devenir un fardeau pour la population
- le méthode peut être destructrice
Quelles sont les 4 méthodes d’échantillonnage aléatoire?
- échantillonnage aléatoire simple
- échantillonnage systématique
- échantillonnage stratifié
- échantillonnage par grappes
Quelles sont les 4 méthodes d’échantillonnage non aléatoire?
- échantillonnage à l’aveuglette
- échantillonnage de volontaires
- échantillonnage par quotas
- échantillonnage au jugé
Quelles méthodes représentent mieux la population entre les méthodes probabilistes (aléatoires) ou les non probabilistes (non aléatoires)?
Les méthodes aléatoire ou probabilistes parce que les autres sont nécessairement un peu biaisées
Comment fonctionne la méthode d’échantillonnage aléatoire simple?
Quels sont les avantages et désavantages?
- avoir une liste de tous les individus de la population
- décider de n (taille de l’échantillon)
- Choisir n nombres entre 1 et N au hasard
- Constituer l’échantillon avec les individus portant les numéros choisis
ex: pige avec remise
Avantages:
- Simple
- Échantillon représentatif de la population
Désavantages:
- Il faut avoir une liste complète de toutes les unités statistiques de la population (à jour)
- Peut être long si c’est pas par ordinateur
Comment fonctionne la méthode d’échantillonnage systématique?
Quels sont les avantages et désavantages?
- Avoir la liste de tous les individus de la population numérotée de 1 à N
- Décider la taille de n
- Calculer le pas de sondage (N/n)
- Choisir au hasard un nombre de départ entre 1 et N
- Parcourir la population et sélectionner systématiquement l’échantillon
Avantages:
- Sélection d’un seul nombre aléatoire
- Rapide
- Bonne répartition de l’échantillonnage dans la base de sondage
Désavantages:
- Il faut avoir une liste complète de toutes les unités statistiques de la population (à jour)
- Fonctionne pas vraiment pour les phénomènes périodiques
Comment fonctionne la méthode d’échantillonnage stratifié?
Quels sont les avantages et désavantages?
- Avoir une liste de tous les individus
- Subdiviser la population en strates pertinentes
- Déterminer le proportion que chaque strate occupe dans la population
- Décider la taille de n
- Déterminer le nombre d’individus de chaque strates dans l’échantillon pour respecter les proportions
- Choisir les individus de chaque strate par échantillonnage aléatoire simple
Avantages:
- L’échantillon représente bien les caractéristiques de la population
Désavantages:
- Il faut connaître chacune des caractéristiques de la population
- Il peut être difficile de rejoindre les individus de certaines strates peu nombreuses
- Souvent très coûteux
Comment fonctionne la méthode d’échantillonnage par grappes?
Quels sont les avantages et désavantages?
- Subdiviser la population en grappes hétérogènes de tailles semblables
- Décider de la taille de n
- Déterminer le nombre de grappes qu’il faudra choisir
- Choisir ce nombre de grappe par échantillonnage aléatoire simple
Avantages:
- Réduit les déplacements et les coûts si la population est sur un grand territoire
Désavantages:
- Si les grappes son constituées d’unités statistiques homogènes, l’échantillon ne représentera pas bien la population
- Fonctionne juste si chaque groupe est aussi diversifié que la population
*Marche mieux pour des éléments pas reliés au milieux ex: les réflexes
Comment fonctionne la méthode d’échantillonnage à l’aveuglette?
Dans quel cas est-ce que c’est pertinent?
Dans quel cas est-ce que les résultats pourraient peut-être être généralisés à la population au complet?
Quand on sélectionne les individus de l’échantillon de façon arbitraire
ex: les gens qui passent à un coin de rue
Bon usage:
- Journalistes qui veulent avoir une idée des différentes opinions sur un sujet d’actualité
Désavantage:
Comme toutes les méthodes non-aléatoire, ça ne peut pas être généralisé à la population
En fait, peut être généralisé si la population est très très homogène
Comment fonctionne la méthode d’échantillonnage de volontaires?
Quand est-ce que cette méthode est pertinente?
Dans quel contexte est-ce que cette méthode est impertinente?
C’est quand on fait appel à des volontaires
Pertinent quand?
- La recherche nécessite beaucoup d’implication de la part des participants
- L’échantillon est très semblable à la population
ex: la réaction du corps à un médicament
Impertinent quand on veut l’avis des gens parce que l’échantillon va être constitué de gens avec juste des avis extrêmes (échantillon d’individus polarisés)
Comment fonctionne la méthode d’échantillonnage par quotas?
Quand est-ce que cette méthode est pertinente/ avantages?
Comme stratifiée, mais on sélectionne de façon non aléatoire les individus dans les strates
Pertinent quand/ avantages:
- Dans les enquêtes d’opinions et les études de marché
- rapide et peu coûteux
Ça peut marcher si les strates choisies sont celles qui ont une influence sur les résultats parce qu’on s’assure que tout le monde est représenté
Risque si la caractéristique des strates est trop différente est qu’on va avoir une homogénéité dans l’échantillon qui n’est pas dans la population
Comment fonctionne la méthode d’échantillonnage au jugé?
Quand est-ce que cette méthode est pertinente?
Dans quel contexte est-ce que cette méthode est impertinente?
Quand on sélectionne les individus d’un échantillon en se basant sur un certain jugement qu’on a au sujet de la composition de la population et en tentant de s’y conformer (strates selon ton jugement?)
DEMANDE L’AVIS D’UN EXPERT pour que ça représente à peu près la population
Pertinent:
- Dans le cadre d’une étude préparatoire comme tests préalables de questionnaires
- rapide et peu coûteux
Résultats valides seulement si la personne qui a constitué l’échantillon a une idée juste et non-biaisé de la population
Quelles sont les informations que l’on doit absolument retrouver dans le titre d’un tableau ou d’un graphique?
Mot clé (ex: distribution/répartition) Qui? (unité statistique, insinuer si échantillon ou population et taille de celui-ci) Où? SELON Quoi? (variable étudiée) Quand?
Que doit-on mettre en plus du titre et du graphique/tableau?
La source (en-bas)
Pour quelle variable est-ce que l’on ne fait jamais de colonne de pourcentage cumulé?
Qualitative nominale parce qu’il n’y a pas d’ordre
placée en ordre alphabétique dans tableau
Comment place-t-on les variables qualitatives nominales dans un tableau?
en ordre alphabétique
Dans quel cas est-ce qu’on fait des classes pour les tableaux?
Quand c’est une variable quantitative discrète et qu’il y a plus de 15 valeurs différentes
Quand c’est une variable quantitative continue
Comment établit-on des classes?
- Calculer l’étendue
- Nombre approximatif de classes selon la règle de Sturges (1 + 3,3log n)
- Largeur des classes (E/nbr de classes)
- Choisir borne inférieure de la première classe
- Construire des belles classes
*S’assurer que toutes les valeurs sont incluses
Combien de classes sont appropriées pour les tableaux?
entre 5 et 15 classes
Quelles sont représentations graphiques possibles pour les variables qualitatives?
Quand est-ce qu’on favorise chacune d’elles?
Diagramme circulaire:
- pour mettre de l’avant les fréquences relatives (%)
- surtout nominales
Diagramme à bandes verticales:
- Bandes larges qui ne se touchent pas
- pas de flèches au bout de l’axe des x si c’est pas des nombres
- Pour les variables ordinales surtout
Quelles sont les représentations graphiques possibles pour les variables quantitatives?
Diagramme à bâtons:
pour les variables quantitatives discrètes à échelle d’intervalle ou de rapport
Histogramme, polygone de fréquences et ogive:
pour variables quantitatives regroupées en classes
*Dans l’histogramme, l’air de la bande = fréquence d’une valeur, pas nécessairement la hauteur
Polygone de fréquence:
- même aire que l’histogramme
- Quand on veut superposer plusieurs distributions (comparer)
Ogive:
- Pour les répartitions cumulées
- Permet d’estimer rapidement des quantiles
Quelles sont les données construites et comment les obtient-on de façon générale ?
On les obtient par des opérations arithmétiques
- proportions
- pourcentages
- taux
- ratios
- indices
Quelles sont les données construites et comment les obtient-on de façon générale ?
On les obtient par des opérations arithmétiques
- proportions et pourcentages
- taux
- ratios (entiers)
- indices
Quelles sont les règles générales des symboles pour les mesures?
lettres grecques quand on parle de la population et des lettres latines quand on parle d’échantillons
Comment calcule-t-on une proportion?
À quoi servent-elles?
p ou pi = taille du sous-ensemble/ taille de l’échantillon ou la population
S’exprime en nombre à virgule ou en pourcentage
Quand on l’interprète, mettre les qui? quoi? quand? ou?
Qu’est-ce qu’un taux?
Comment les calcule-t-on?
Le taux est une un cas particulier des proportions exprimé par rapport à une puissance de 10
taux: taille du sous-ensemble/ taille de l’échantillon ou population *10^… (pour 1, pour 10, pour cent. pour 1000, etc)
Qu’est-ce qu’un ratio entier?
Comment les calcule-t-on?
C’est un rapport entre deux sous-ensemble exprimé avec des nombres entiers
R.E. = taille du sous-ensemble/taille de la pop ou de l’échantillon *k
k est l’entier le plus petit qui permet d’avoir un ratio entier à 0,1 près
Dans quelles situations peut-il être pertinent de prendre les méthodes d’échantillonnage non-aléatoire?
- Études exploratoires (moins cher)
- Quand la population étudiée est homogène
- Quand l’expérimentation comporte des risques pour la santé
- Quand c’est impossible d’avoir une base de sondage (une liste de la population)
Qu’est-ce qu’une variation absolue?
Différence entre deux quantités
A - B
Qu’est-ce qu’une variation absolue?
Différence entre deux quantités
qté B - qté A
Qu’est-ce qu’une variation relative?
Le rapport entre la variation absolue et la quantité initiale
(qté B - qté A)/ qté A *100%
*résultats en pourcentage!!
Toujours mentionner si augmentation ou diminution, lieu, moment, qui, etc.
Qu’est-ce qu’un indice élémentaire?
rapport entre la valeur actuelle d’un bien et la valeur de référence du même bien *100 (pas %)
(2002=100, 2002 = valeur de référence)
comme indice synthétique, mais pour 1 produit/élément
Permet de suivre l’évolution de la valeur d’un bien dans le temps ou selon un lieu de référence
Qu’est-ce qu’un indice synthétique?
indice synthétique = Σ (indice élémentaire * pondération)
ex: indice des prix à la consommation
Supérieur à 100 = augmentation
Quelles sont les mesures de tendance centrales?
- Mode
- Médiane
- Moyenne
Qu’est-ce que le mode?
Comment l’interprète-t-on?
La valeur qui revient le plus souvent
Mo = réponse et les unités
Interprétation: qui? quoi? quand? où? mot clé :
Le plus grand nombre de…
Une pluralité…
Le plus populaire… (si c’est des trucs que les gens aiment/choisissent)
Classe modale si on a juste des données en classes
Quels sont les avantages et désavantages du mode?
Avantages:
- Facile à comprendre/ déterminer/ interpréter
- Pas influencé par données extrêmes
- Significatif quand une valeur ressort vrm
Inconvénients:
- peu significatif quand peu de données
- Peu être influencé par choix des classes quand il y a des classes
- Pas stable d’un échantillon à l’autre
- Pas vraiment une mesure de tendance centrale quand plusieurs modes
Qu’est-ce que la médiane?
Comment se calcule-t-elle avec les classes?
La valeur centrale d’une suite croissante de valeurs
Me = réponse et unités
C’est la (n ou N + 1)/2 e valeur
*placer les valeurs en ordre croissant
fréquence relative cumulée = 50%
Avec classes:
- Trouver la classe médiane
- Me = valeur inférieure de la classe médiane + …
- cbm de % dans la classe?
nbr de % dans la classe/ x = fréquence relative que représente la classe/ étendue de la classe
Quels sont les avantages et désavantages du mode?
Avantages:
- Provient de la notion simple de centre
- Ne dépend pas de la valeur des données, mais de leur position donc pas affectée par les données extrêmes
Quels sont les avantages et désavantages du mode?
Avantages:
- Provient de la notion simple de centre
- Ne dépend pas de la valeur des données, mais de leur position donc pas affectée par les données extrêmes
- Peu influencée par le choix des classes
Inconvénient:
- Ne tient pas compte de la valeur des données
- ne possède aucune propriété algébrique
Qu’est-ce que la moyenne?
C’est la somme de toutes les valeurs/(n ou N)
Symbole: x barre pour échantillon et μ pour la population
Qu’est-ce que la moyenne?
C’est la somme de toutes les valeurs/(n ou N)
Symbole: x barre pour échantillon et μ pour la population
Pour les classes: on substitue les valeurs par la valeurs de milieu de classe
Mot clé: en moyenne
Quels sont les avantages et inconvénients de la moyenne?
Avantages:
- Tient compte de toutes les données et de leurs valeurs
- Bonnes propriétés algébriques
- Valeur relativement stable d’un échantillon à l’autre
Inconvénients:
- Sensible aux valeurs extrêmes
- Difficile à calculer si classes ouvertes
Comment choisit-on la mesure de tendance centrale?
- Premier choix: moyenne
- Si trop de données extrêmes: médiane
- Si une valeur vraiment plus présente : mode
- Si données concernent une variable qualitative à échelle nominale ou ordinale : mode
Quelles sont les mesures de dispersion?
- Étendue
- La variance
- L’écart type
(comment les données sont regroupées autour de la moyenne) - Le coefficient de variation (mesure de dispersion relative à la grandeur de la moyenne
ATTENTION À QUAND ON MET LE = OU LE ≈
- Quand moyenne fait à partir de données de milieu de classe
- Quand pour l’étendue, borne supérieure de la dernière classe - borne inférieurs de la première classe
Quels sont les avantages et inconvénients de l’étendue?
Avantages:
- Facile à calculer et interpréter
- Permet de se faire rapidement une idée de la dispersion des données
Inconvénients:
- Peut varier grandement d’un échantillon à l’autre
- Ne dépend que des deux valeurs extrêmes qui sont souvent des données exceptionnelles
Symbole : E
Qu’est-ce que l’écart-type ?
Racine carré de la variance
Symbole: s (échantillon) ou σ (population)
Sur la calculatrice : sx ou σx (valeur, fréquence data)
Estimer (≈) en remplaçant les valeurs de chaque classe par les milieux de classes au besoin
Qu’est-ce que la variance?
symbole
C’est la moyenne des carrés des écarts à la moyenne (le carré de l’écart type)
Symbole: s2 (échantillon) ou σ2 (population)
Quels sont les avantages et inconvénients de l’écart type?
Avantages:
- Se prête facilement aux opérations algébriques
- Relativement stable d’un échantillon à l’autre
Inconvénients:
- Calcul lourd
- Sensible aux valeurs extrême
- Interprétation non immédiate
- Doit être utilisé avec d’autres mesures pour prendre du sens (relativiser l’écart type)
ex: un écart type de 10 nous dit rien juste comme ça
Il faut savoir si l’examen était sur 10, sur 100, etc
Qu’est-ce que le coefficient de variation?
Permet d’exprimer la grandeur de l’écart type par rapport à la moyenne (en pourcentage)
C.V = σ/μ *100% = s/x barre *100%
Si C.V. ≤ les unités statiques = groupe homogène
Si C.V. > les unités statistiques = groupe hétérogène
Toujours dire si homogène ou hétérogène
*stable = homogène
Que sont les mesures de positions?
À quoi servent-elles?
- Quantiles
- Rangs
- Cote Z
Sert à situer une donnée dans la distribution à laquelle elle appartient
Que sont les quantiles?
Comment s’interprète les quantiles?
Quantiles:
- Quartiles (Q)
- Quintiles (V)
- Déciles (D)
- Centiles (C)
Attention, tout divisé en quarts pour les quartiles
S’interprètent : k % ou au moins k% (mettre ne C, en pourcentages) des unités stats ont … ou moins
Combien y a-t-il de quartiles?
(0 à 25%) Q1 (25% à 50%) Q2 (50% à 75%) Q3 (75% à 100%)
Combien y a-t-il de déciles?
V2 = ?
D1 à D9
D4 = C40
*Si on arrive exactement à 40% dans le pourcentage cumulé, donnée entre celle-ci et la prochaine
Comment calcule-t-on un estimation d’un quantile à partir de classes?
un peu comme la médiane avec les classes
(≈)
Qu’est-ce que la cote Z?
Comment la calcule-t-on?
C’est le nombre d’écart-types qui séparent une valeur de la moyenne (des valeurs de cette même variable)
Z = (x - μ)/σ
*Pas d’unités, bin unités = écarts type
(si Z > 0, plus grand que la moyenne, si Z < 0, plus petit que la moyenne)
Pourquoi la cote Z est utile pour comparer des valeurs de variables différentes?
(son principal avantage)
- Elle n’a pas d’unités
- La moyenne des cotes Z = tjrs 0, peu importe la variables étudiée
- L’écart type des cotes Z = tjrs 1, peu importe la variable étudiée
Quels 2 mots importants trouve-t-on dans le titre d’un tableau conditionnel?
Distribution de … SELON variable 1 PAR RAPPORT à variable 2, date et où
À partir de quoi se fait un tableau de distribution conditionnelle?
À partir d’un tableau de contigence (2 variables)
*Dans un tableau de distribution conditionnelle, toujours des pourcentages
selon Y par rapport à X
Quand est-ce que l’on favorise le coefficient de variation par rapport à l’écart type?
Quand les moyennes sont très différentes ou les unités pas les mêmes
pcq un écart type a des unités (pas la cote Z)!!