Stat examen Flashcards
Statistique descriptive permet quoi ?
De résumer un ens. de données, dans le but de présenter des faits saillants d’une population ou d’un échantillon.
Définition : population
Ensemble d’éléments ou de personnes qui partagent des caractéristiques communes
Définition échantillon représentatif
Échantillon qui présente des caractéristiques similaires à celles de la population (âge, sexe, etc.).
Qu’est-ce que la mesure de tendance centrale ?
Une façon de résumer des observations qui peuvent être faites dans un échantillon ou dans une population.
Différence impacts données aberrante entre la moyenne & la médiane ?
Les données aberrantes et/ou extrêmes (outliers) ont beaucoup plus d’impact sur la moyenne que sur la médiane.
Comment savoir si une distribution est normale ?
Tests statistiques (ex. Shapiro-Wilk)
Inspection visuelle des données
Comparaison moyenne vs médiane : Si la moyenne et la médiane sont très différentes, la distribution n’est pas normale.
Qu’est-ce qu’une distribution bimodale ?
Lorsque les données sont réparties en 2 groupes (ou plus)
Qu’est-ce que nous permet de savoir la mesure de dispersion ?
Permet de savoir comment les données se répartissent : est-ce qu’elles sont toutes regroupées près de la mesure centrale ou si elles varient beaucoup
Quel sont les 2 types de mesure de dispersion ?
Écart-type & variance
Étendue
Quand utilise-t-on l’écart-type et la variance ?
Utilisé avec la moyenne (pas la médiane), lorsque la distribution est normale
Quand utilise-t-on l’étendue ?
Généralement utilisé avec la médiane, généralement lorsque la distribution est asymétrique
Qu’est-ce que mesure l’écart-type & la variance ?
Mesure de l’écart des données par rapport à la moyenne
Est-ce que les données sont très proches une de l’autre ou très variées
Est-ce que la courbe est plate ou pointue
Quel est le calcul de la variance ?
∑(Xi - moyenne)^2/(n-1)
Qu’est-ce que mesure l’étendue ?
Différence entre valeur min et valeur max
Quels sont les échelles de mesure des variables quantitative (et leurs descriptions) ?
Continue (infinité de valeurs possibles)
Discrète (quantités isolées, dénombrement)
Quels sont les échelles de mesure des variables qualitative (et leurs descriptions) ?
Ordinaire (ordre naturel entre modalités)
Nominale (pas de rang possible)
Présentation numérique des données qualitatives
Tableau de fréquence relative et absolue
Présentation numérique pour les données quantitatives ?
Mesure de tendance centrale & mesure de dispersion
Présentation visuelle pour les qualitatives et quantitative discrète :
Diagramme en bâton
Présentation visuelle pour les données quantitatives continue
Histogramme
Représentation numérique et graphique d’une variable quantitative discrète
Mesure de tendance centrale & mesure de dispersion ?
Médian
Quartiles ou étendues
Diagramme en bâton
Représentation numérique et graphique d’une variable quantitative continue - non normale
Mesure de tendance centrale & mesure de dispersion ?
Médiane
Quartiles ou étendue
Histogramme
Représentation numérique et graphique d’une variable quantitative continue - normale
Mesure de tendance centrale & mesure de dispersion ?
Moyenne
Écart-type
Histogramme
Mesure de dispersion pour
68,3%
95,4%
99,7%
+/- 1 écart-type
+/- 2 écart-type
+/- 3 écart-type
Avec quoi on mesure les probabilités d’une courbe ?
Aire sous la courbe
Intervalle de confiance permet quoi ? dans quels % des valeurs observées
Décrire la répartition des données à l’intérieur de l’échantillon.
95%
Calcul de IC95%
Moyenne + ou - 2s
S = écart-type
Comment faire si on veut calculer la probabilité qui n’est pas dans les écart-types connues ?
Il faut faire une transformation de notre variable en score Z qui suivra une distribution centrée réduite, ce qui signifie que la moyenne sera alors de 0 avec un écart-type de 1.
Statistique inférentielle permet quoi ?
Généraliser un résultat d’un échantillon à une population
Énoncer une conclusion
Théorème central limite (TCL) permet quoi ?
Permet d’expliquer comment les paramètres mesurés dans un échantillon peuvent se rapporter à la population.
Comment on appel l’écart-type de la distribution des échantillons dans le TCL
Peut être estimé à partir de quoi ?
Erreur-type (𝝈∕√𝒏. )
Estimé à partir de 𝒔∕√𝒏
Dans le TCL, qu’est-ce qu’on peut assumer de l’intervalle de confiance ?
Auquel on a raisonnablement confiance de trouver la valeur de la vraie moyenne de la population
Calcul de l’intervalle dans lequel on a 95% de chances de retrouver la vraie moyenne de la population :
µ = moyenne ±𝟐𝐬∕√𝐧
But de l’IC en statistiques descriptives et celle en statistiques inférentielle ?
Permet de décrire un échantillon. Il sera beaucoup plus large pour englober 95% des observations.
Pour but de faire tirer des conclusions sur notre population à partir d’un échantillon, donc d’estimer la vrai moyenne de la population.
Il sera beaucoup plus petit puisque nous utilisons l’erreur-type pour le calculer (𝑠∕√𝑛).
Plus la taille de l’échantillon sera grande (n), plus l’intervalle obtenu sera petit.
IC de la moyenne de la population (inférence)
Applicable quand
Si les données sont distribuées normalement ou peut être acceptable si n > 30
Comment savoir si une différence observée (ex. perte de poids, augmentation de la vitesse de marche, etc.) démontre réellement l’effet d’une intervention/d’un phénomène ?
Il faut faire un test d’hypothèse
Quel est le résultat d’un test d’hypothèse ?
Est la valeur p, qui correspond à la probabilité que les données de recherche aient été obtenues par hasard (i.e., sans qu’ils soient dus à un effet spécifique).
Test d’hypothèse, décrire le principe
Un test d’hypothèse compare l’hypothèse nulle (H0, absence d’effet, statu quo) à une hypothèse alternative (H1, effet que l’on souhaite démontrer).
On considère qu’il n’y a pas d’effet, tant qu’un effet n’a pas été démontré. Autrement dit, on considère d’emblée que H0 est vrai, tant qu’on ne peut pas l’éliminer pour conclure qu’il y a vraiment un effet (donc retenir H1).
Le résultat du test d’hypothèse (valeur p) représente quoi ?
La probabilité que les données de recherche aient été obtenus par hasard, autrement dit c’est la probabilité que l’hypothèse nulle soit vraie.
Que pouvons nous affirmer si le p est assez petit
Qu’une différence existe, et donc rejeter H0 en faveur d’H1
Autre façon de concevoir p est que p =
probabilité d’avoir tort en affirmant qu’une différence existe (i.e. en rejetant H0).
Degré de signification (alpha)
Décrire
Il est primordial de fixer d’avance le seuil à partir duquel on rejettera H0. C’est ce qu’on appelle le seuil α, ou le degré de signification statistique.
Si valeur p est inférieure au niveau du test (p<α), on rejette H0 :
Résultat statistiquement significatif
Si valeur p n’est pas inférieure au niveau du test (p≥α), H0 n’est pas rejetée :
Résultat non-significatif
Généralement fixé à 5% (0,05)
Résultat statistiquement significatif =
Mesure du niveau de certitude avec lequel on peut affirmer que l’effet est réel (et non du au hasard)
Déterminé par la valeur p et le seuil alpha
Résultat cliniquement significatif =
Mesure l’importance de l’effet dans un contexte clinique
Déterminé par consensus scientifique et/ou par expertise clinique et/ou par gros bon sens
3 facteurs affectants le résultat du test statistique :
- % d’écart entre les données comparées
(Probable qu’une petite différence soit due au hasard, mais peu probable qu’une très large différence soit due au hasard) - Taille de l’échantillon
- L’écart-type
Que permet un échantillon de très grande taille ?
Il est possible de mettre en évidences des différences statistiques très minimes qui n’ont pas d’intérêt réel en clinique
Que signifie un très grand écart-type (par rapport au test hypothèse)
Un très grand écart-type indique une très grande variabilité (i.e. la variable à l’étude est influencée par plusieurs facteurs). Plus l’écart-type est large p/r à la différence observée, plus il y a de chances que la différence soit du au hasard ou aux autres facteurs influençant la variable.
Qu’est-ce que la puissance statistique :
Est la probabilité de ne pas commettre une erreur de type 2 (l’hypothèse nulle est acceptée par erreur) : Puissance = 1-β
En général, une puissance de 80% est considérée adéquate
Quand doit-on utilise la puissance statistique ?
Quand le résultat n’est pas statistiquement significatif, on doit évaluer la puissance avant de conclure que l’hypothèse nulle est vraie.
Technique pour tirer des conclusions statistiques
Intervalle de confiance
Test d’hypothèse
De quoi dépend le choix du test statistique ?
- Type de variable
- Nb de groupe
- Gr. dépendants/indépendants
- Type de distribution
Test paramétrique utilisé avec quel type de distribution ?
Distribution normale (et/ou n>30 par groupe)
Test non-paramétrique utilisé avec quel type de distribution ?
Distribution non-normale (et n<30 par groupe)
Normalité
il faut quoi
Pour assumer la normalité, il faut que ce soit mentionné ou qu’il y ait au moins 30 sujets par groupe.
Si le n < 30 par groupe, il ne faut pas assumer nécessairement que la distribution ne sera pas normale. Il est possible que les données soient normalement distribués avec un n < 30 par groupe.
Si le n < 30 par groupe et que la distribution n’est pas mentionnée, on va proposer les 2 tests possible, paramétrique et non-paramétrique.
Corrélation permet d’évaluer quoi ?
Permet d’évaluer l’association entre deux variables quantitatives
Un test statistique de corrélation nous donnera 3 résultats :
Coefficient de corrélation (r)
Équation prédictive
Valeur p
Coefficient de corrélation (r):
-1 < r < 1
Le signe indique la direction de l’association
r > 0 : association positive (les 2 variables augmentent/diminuent ensemble)
r < 0 : association négative (lorsqu’une variable augmente, l’autre diminue)
Valeur du r indique la force de l’association, plus le r est élevé, plus la corrélation est forte
Valeur de la corrélation et son interprétation
0 = aucune
1 ou -1 = parfaite
Entre 0 et 0,3 (0 et -0,3) = faible
Entre 0,3 et 0,7 (-0,3 et -0,7) = modérée
Entre 0,7 et 1 (-0,7 et -1) = forte
Équation prédictive
Possible d’obtenir une équation prédictive qui permet d’estimer quel sera le Y pour un X donné (ou vice-versa) : Y= a + bX
La pente de l’équation (b) a le même signe que r, mais pas la même valeur
NOTE: la force de l’association (r) entre la taille et le poids n’est pas affectée par le choix d’unité, mais l’équation de la droite sera différente si on utilise lbs vs kg.