Stats 2 Flashcards
Une statistique désigne (2)
- Un ensemble de données d’observations
- La science qui consiste en leur recueil, leur traitement et leur interprétation.
Définition statistique descriptive
Partie de la statistique qui consiste à décrire et à résumer l’information contenue dans un ensemble de données, sous forme de tableau, de graphique ou à l’aide de mesures telles que la moyenne ou la variance.
On utilise également le terme “statistique descriptive” pour qualifier ces dernières (la moyenne et l’écart-type sont des statistiques descriptives).
Définition théorie des probabilités
Une branche des mathématiques qui se consacre à l’étude des phénomènes ou expériences aléatoires.
La théorie des probabilités est formée de lois mathématiques qui décrivent le comportement des phénomènes relevant du hasard.
Quel est l’inférence statistique ?
Un ensemble de règles logiques qui permet de tirer des conclusions au sujet d’une hypothèse de recherche ou d’une population à partir d’un échantillon de la population (comprendre les liens entre population et échantillon)
Approfondir la notion de représentativité de l’échantillon.
Sur quoi est basée l’inférence statistique?
Théorie des probabilités.
Ce sont les lois de la probabilité qui permettent de quantifier l’incertitude (ou la certitude) des conclusions obtenues dans un échantillon.
Objectifs de faire des stats (2)
Statistiques descriptives
Inférence statistique
À partir de quoi les statistiques descriptives sont elles produites ?
Échantillon (doit être représentatif de la population)
Quels sont les 2 types de données ?
Quantitative et qualitative
Nommer 2 types de variables/données quantitatives
Continues
Discrètes (# entiers)
Nommer 2 types de variables/données qualitatives
Nominales (pas d’ordre)
Ordinales (ordre)
Vrai ou faux : on peut toujours connaître la distance qui sépare 2 variables quantitatives
Vrai
Vrai ou faux : on ne connaît jamais la distance qui sépare 2 variables ordinales
Faux
Distance parfois pas connue et peut varier
Vrai ou faux : on connaît la distance entre 2 variables nominales
Faux
On ignore la distance
Comment peut-on présenter des données ?
Distribution de fréquence (histogramme, tableau de fréquence)
Peut-on faire un histogramme avec des variables qualitatives ?
Non. Pas de suite entre les variables
Qu’est-ce qu’on peut déterminer avec un histogramme ? (à part constater la distribution des fréquences de façon plus visuelle)
si la distribution suit une loi unimodale ou bimodale
si la distribution est symétrique ou asymétrique
si la distribution possède des valeurs aberrantes
Deux catégories de paramètres qui permettent de caractériser une distribution
Paramètres de position
Paramètres de dispersion
Renseignent sur l’ordre de grandeur des valeurs et les valeurs centrales autour desquelles se regroupent les observations.
Nommer les paramètres de position
Moyenne arithmétique
Médiane
Mode
Nommer les paramètres de dispersion
Étendue
Quartiles
Variance
Écart-types
Quel paramètre de position est largement affecté par les données aberrantes ?
moyenne
Comment détermine-t-on la médiane
On ordonne les valeurs par ordre croissant
Pour un nombre pair d’observations, on fait la moyenne des deux observations centrales
Pour un nombre impair d’observations, la médiane est la valeur centrale
Valeur qui représente le sommet de la courbe
mode
Il y a toujours un mode dans chaque échantillon
Faux, parfois les petits échantillons n’ont pas de mode.
Vrai ou faux : la médiane correspond à la moyenne si la distribution est symétrique
Vrai
Quartile
Valeur des variables qui séparent l’échantillon ordonné en 4 groupes contenant chacun 25% des observations.
Entre quels quartiles retrouve-t-on la majorité de la population
Entre Q1 et Q3 (Q2 = centre)
À quoi servent les quartiles ?
Tracer une boîte à moustaches (box plot)
À quoi sert la boîte à moustaches ? (2)
Résume la série de données à partir de caractéristiques (médiane, 1er et 3e quartiles, valeurs les plus extrêmes dans l’intervalle)
Permet de visualiser les valeurs extrêmes non contenues dans l’intervalle précédent
Formule pour définir les moustaches (intervalle)
[q1 - 1,5 (q3-q1) ; q1 + 1,5(q3-q1) ]
Que représente la ligne dans la boîte à moustache
La médiane
De quoi a-t-on besoin pour calculer un écart-type ?
La variance
(et aussi de la moyenne pour calculer la variance)
Formule pour calculer un écart-type
Racine carré de la variance au carré
Quels paramètres de dispersions sont sensibles aux valeurs aberrantes ou extrêmes ?
Variance et écart-type
Étendue aussi
Définir la variance
Mesure de déviation des observations par rapport à la moyenne des observations
Définition probabilité
Fréquence relative d’un événement particulier après un très grand nombre de répétitions d’une même expérience aléatoire.
La probabilité d’un événement A est dénotée par P(A).
▪ 0 inférieur ou égale P(A) inférieur ou égale 1
▪ P(S)=1
Variable aléatoire (en lien avec probabilité)
Fonction qui assigne un vrai nombre à chaque résultat d’une expérience aléatoire
Les variables aléatoires peuvent être ______ ou ________
discrètes (# entiers)
continues (toutes les valeurs dans un intervalle de # réels)
Distribution de probabilité
Représente les probabilités d’une variable aléatoire x.
Fournie la probabilité d’apparition de toute valeur x.
Comme une distribution de fréquences représente les fréquences observées d’une variable x.
Comment écrit-on « La probabilité que la valeur aléatoire x (discrète) prenne la valeur xi ést égale à p(xi) »
P(X = xi) = p(xi) pour i=1…., k
Comment appelle-t-on le nom d’une distribution de probabilité pour une variable aléatoire discrète ?
Fonction de masse
Objectif distribution binomiale
Traiter les données qualitatives issues d’une population composée de deux catégories d’éléments.
Dénombrement, proportions et pourcentages constituent donc des applications de cette loi.
Fonction de masse la plus utilisée en statistiques appliquées
Distribution binomiale
Comment écrit-on la distribution binomiale (en stats)
B(n,p)
n = échantillon
p = probabilité de l’événement dans la population (prévalence)
Moyenne d’une distribution binnomiale
E(X) = np
Variance d’une distribution binomiale
Var(X) = np(1-p)
1-p = échec
p = réussite
Distribution pour une variable qualitative avec 2 catégories d’événements
Distribution binomiale
Vrai ou faux : avec une variable aléatoire continue, la probabilité d’une valeur très spécifique dans un intervalle est égale à 0
Vrai.
Nombre infini de variables dans un intervalle de variables continues.
Comment appelle-t-on le nom d’une distribution de probabilité pour une variable aléatoire continue ?
Fonction de densité
Qu’est-ce qu’une fonction de densité ?
La fonction de densité d’une v.a. est donc une formule qui définit une courbe.
La probabilité que X soit incluse dans un intervalle particulier est à son tour définie par la surface sous la courbe de la fonction de densité, entre les deux points délimitant l’intervalle.
Distribution des probabilités la plus utilisée
Distribution normale
Par quoi est définie la distribution normale
Moyenne et variance (et donc l’écart-type)
Comment écrit-on la distribution normale
N (u, sigma au carré)
N (moyenne, variance)
Comment se comporte la courbe (distribution normale) si la moyenne change ?
Translation de la courbe
Comment se comporte la courbe (distribution normale) si l’écart-type change
Quand l’écart-type augmente, la courbe s’étire (plus grande dispersion)
Quand l’écart-type diminue, la courbe monte (plus petite dispersion).
Plus la variance est petite ______ est la précision
Plus la variance est petite, meilleure est la précision
Propriété importante de la loi normale
La variable aléatoire (Z) = (x-u)/écart-type suit une loi normale N(0,1)
Vrai ou faux : quand la courbe est symétrique, la médiane, le mode et la moyenne sont confus
Vrai
Vrai ou faux : Les probabilités de Z deviennent de plus en plus faibles au fur et à mesure que z croît en valeur absolue;
Vrai
(courbe en cloche, plus Z augmente, plus l’aire sous la courbe diminue)
Exercice variable normale
Supposons que le taux de glucose (à jeun) chez les diabétiques suit une distribution normale avec une moyenne de 105 mg par 100 ml et une variance de 81 mg2 par 100 ml.
On peut calculer la probabilité qu’un diabétique ait un taux de glucose plus élevé que 110 mg par 100 ml.
P(X > 110)= P( (X-105)/9 > (110-105)/9 ) = P (Z > 0,56), Z est N(0,1)
=0,288 (on trouve dans la table le Z le plus proche de la valeur obtenue pour trouver la probabilité)
9 = écart type
81 = variance