Statistiques Flashcards
Qu’est-ce qu’une variable ?
Valeur se mesurant avec instrument mesure
Qu’est-ce qu’une variable quantitative et quelles sont ses caractéristiques ?
Valeur numérique
Discrète : valeurs variables = qté isolées
Continue : infinité valeurs possibles
Qu’est-ce qu’une variable qualitative et quelles sont ses caractéristiques ?
Attributs pas soumis aux lois arithmétiques
Nominales : attributs ne se prêtant pas à mise en rang
Ordinales : ordre naturel entre attribut
Dichotomique : seulement 2 catégories
Polychotomique : pls catégories
Qu’est-ce qu’une statistique descriptive ?
- Ensemble observations de façon concise, extraire faits saillants et exprimé sous forme synthèse
- Décrire observations recueillies par indice numérique ou tableau/graphique
À quoi servent les variables qualitatives dans la statistique descriptive ?
- Rapporter fréquences absolue et relative pr résumer distribution
- Seulement qq valeurs différentes –> fréquences peuvent être rapportées ds un texte
- Peut être représenté par diagramme en bâton
- Peut calculer mode, mais pas moyenne ou médiane
Qu’est-ce que la fréquence absolue ?
Nb observations de cette catégorie
Qu’est-ce que la fréquence relative ?
% ou proportion obtenue par division fréquence absolue par nb total observation
À quoi servent les différents types de variables quantitatives dans la statistique descriptive ?
Discrète : fréquence absolue et relative s’appliquent
Continue
- Regrouper différentes valeurs en classes mutuellement exclusives et idéalement largeur égales
- Tableau fréquence peut faciliter lecture puis présentation par histogramme (contiguïté rectangles pr refléter caractère continu variable)
- Peut être aussi décrite par qq indices numériques donnant + info sur tendance centrale et dispersion
Qu’est-ce que des quartiles ?
Séparation en 4 parties égales quant au nb observations qu’elles contiennent
Qu’est-ce que la tendance centrale et quels sont ses types ?
Tendance à se concentrer
Moyenne arithmétique : centre gravité histogramme
Médiane : valeur sous laquelle on retrouve 50% observations
Mode : correspond au sommet histogramme (unimodale = un seul mode)
Quels sont les distributions possibles d’un histogramme ?
- Symétrique et unimodale –> moyenne = médiane = mode
- distribution est asymétrique, + 3 mesures ont valeurs différentes
- Utilise moyenne qd distribution symétrique et médiane si forte asymétrie
Quelles sont les 3 façons de calculer la dispersion ?
Étendue : différence entre + grande et + petite valeur
Variance : écart données par rapport à moyenne
Écart type : indice de dispersion le + fréquemment utilisé
Comment calcule-t-on la variance ?
n-1
Comment calcule-t-on l’écart-type ?
Racine carré variance (DESCRIPTIVE)
Comment représente-t-on graphiquement la relation entre deux variables quantitatives ?
Diagramme de dispersion (nuage de points) où chaque point correspond à paire résultat observé chez sujet particulier
Qu’est-ce qu’un corrélation?
- Indice numérique permettant quantifier relation linéaire entre 2 variables
- Nb sans unité compris entre -1 et +1
- Négatif si valeurs élevées d’un correspond valeurs basses autre
- Positif si valeurs élevées d’un correspond valeurs élevées autre
- Nulle si valeurs d’un associées à valeurs faibles ET élevées de l’autre
- Reflète force association linéaire entre 2 variables
- Permet pas établir sens association (lien de causalité)
Comment représente-t-on la relation entre deux variables qualitatives ?
Relation présentée à l’aide tableau de contingence
X Y A 34 3 B 10 28 C 2 22
Qu’est-ce que la statistique inférentielle ?
- Émettre conclusion valable pr ensemble pop à partir échantillon représentatif pop
- Repose sur théorie probabilité
Quelles sont les lois de la probabilité ?
Probabilité = nb entre 0 et 1
Règle #1 : probabilité qu’un des 2 évènements mutuellement exclusifs (peuvent pas se produire simultanément) se produise = somme probabilité respectives
Règle #2 : évènement contraire est = 1 - probabilité évènement
Règle #3 : probabilité que 2 évènements indépendants se produisent = produit probabilité respective
Qu’est-ce que la distribution normale ?
- Décrit grand nb phénomène naturel
- Seulement variables quantitatives et continues
- Représentées à aide histogramme
- Variable X suit distribution normale avec moyenne x et ET y (X ~ N (x, y)
- Transformer distributions normales en centrée réduite –> Z = (X- x)/y
Quelle est la forme caractéristique de la distribution normale ?
Symétrique et unimodale
Moyenne, médiane et mode identiques
Aire sous courbe = 1
Qu’est-ce que la distribution normale centrée réduite ?
Moyenne est 0 et ET = 1 –> Z ~ N (0, 1)
Quel est le lien entre la moyenne et l’écart type ?
Moyenne +/- 1ET : comprend 68% aire totale
Moyenne +/- 2ET : comprend 95% aire totale
Moyenne +/- 3ET : comprend 99,8% aire totale
Est-ce qu’une estimation avec un échantillon représentatif donne toujours la valeur réelle ?
Non parce que c’est rare que estimation = valeur réelle paramètre inconnu mm si échantillon représentatif
Qu’est-ce qu’un paramètre ?
Qté qui décrit caractéristique pop
Qu’est-ce qu’une statistique ?
Qté calculée à partir observations sur échantillons pr estimer paramètre
Qu’est-ce qu’une estimation ponctuelle ?
Estimation à partir échantillon que l’on applique à toute pop pr paramètre inconnu (doit tjrs être accompagnée d’un intervalle de confiance)
Qu’est-ce qu’un intervalle de confiance ?
Donne % de certitude donnée mesurée (moyenne, mode, médiane..) à aide erreurs-types (souvent 95%) –> compromis entre niveau confiance et précision
Qu’est-ce que la distribution échantillonale de la moyenne ?
Distribution ensemble moyennes que l’on obtient à partir grand nb échantillons tirés pop à étude
Qu’est-ce que le théorème de la limite centrale ?
- Moyenne distribution échantillonale = moyenne variation ds pop
- ET (erreur-type) donné par moyenne/ racine carré du nb
- Valeur moyenne rarement connue alors si taille échantillon assez grand –> substituer ET avec valeurs échantillons
- Si variable suit courbe N ds pop, elle suit aussi courbe N ds échantillon –> + échantillon est grand, + distribution tend devenir N peu importe distribution variable pop
Qu’est-ce que le test de l’hypothèse ?
- Tout paramètre (moyenne, proportion, messure association) peut devenir objet test hypothèse
- Part postulat que Ho est vraie tant qu’il n’est pas démontré statistiquement qu’elle est peu probable
- Si estimation échantillon et statu quo = faible différence (attribuée au hasard donc statistiquement non significatif)
- Si Ho vraie, quelle est probabilité qu’échantillon pris au hasard soit aussi loin ? Si probabilité petite = rejet hypothèse nulle (statistiquement significatif)
- Décision rejeter ou non Ho après avoir déterminer ds quelle mesure échantillon observé est en conflit avec Ho
- Un mauvais choix test statistique peut invalider conclusions chercheur
Qu’est-ce que l’hypothèse nulle (Ho) ?
Statut quo (absence changement) tjrs défini par une égalité
Qu’est-ce que l’hypothèse alternative (H1) ?
Hypothèse qu’on souhaite démontrer, signe définit selon connaissance chercheur et ce qu’il veut démontrer
Quel est le lien entre le niveau de test et la puissance de l’étude ?
- Si a élevée, B doit être bas pr échantillon de taille donnée
Quels sont les types possibles d’hypothèse alternative ?
Bilatéral : se définit avec signe ‘’ n’égale pas ‘’
Unilatéral : autres cas ( …)
Qu’est-ce que la valeur p ?
Probabilité qu’on peut attribuer au hasard
Si faible –> Ho jugée invraisemblable = rejetée
Qu’est-ce que l’erreur de type 1 ?
Rejet Ho alors qu’elle est vraie
Qu’est-ce que le niveau de test (a) ?
Rejetter Ho si probabilité résultat + extrême que celui observé est <5% (fixer avant de savoir résultat) –> probabilité consenti de commettre erreur type 1
Qu’est-ce que l’erreur de type 2 ?
Ne rejette pas Ho alors qu’elle est fausse (donnée par 1-B)
Qu’est-ce que la puissance de l’étude (B) ?
- Probabilité rejeter Ho quand elle est fausse (acceptable si elle est ~ 80%)
- Puissance étude affectée par taille échantillon (+ grand, + possible rejeter Ho quand elle est fausse = prend bonne décision)
Quand utilise-t-on le théorème de la limite centrale ?
Quand inférentielle –> normalisation courbe –> erreur-type