cours 1 Flashcards
statistique définitions
- Ensemble des méthodes qui ont pour objet la collecte, le traitement, et l’interprétation des données à l’aide des mathématiques appliquées.
- Ensemble des données concernant une catégorie de faits, un phénomène ou un groupe d’individus (ex: le taux de natalité d’une population).
- Variable aléatoire qui est fonction des observations et construite à partir d’un échantillon (ex: paramètre observé mais non contrôlé).
dans quel domaine est ce que les biostatistiques jouent un rôle important
transformer les données numériques en information (moyenne, corrélation);
traiter l’information pour dégager des faits (tests statistiques);
améliorer la compréhension des systèmes (interprétation);
émettre des prédictions et prendre des décisions (modèles).
à quoi servent les stat
À mesurer la variabilité:
Variabilité génétique entre sujets (individus)
Variabilité due au développement (ontogénétique)
Variabilité due au moment (temporelle)
Variabilité stochastique (aléatoire)
Variabilité déterministique (prédictible)
comment étudier la variabilité d’un phénomène
en répétant l’expérience dans les mêmes conditions ou la loi d’un phénomène (relation, tendance) en faisant varier les conditions de l’expérience ou de l’observation.
élément/ unité d’observation
Unité qui compose la population d’intérêt. C’est une entité concrète définie a priori, identifiable sans ambiguïté et dénombrable, sur laquelle on mesure ou observe un ou plusieurs traits.
vrai ou faux
Il peut y avoir des éléments primaires, secondaires, tertiaires si ceux-ci sont imbriqués (emboîtés, hiérarchisés).
vrai
population statistique
Totalité des observations individuelles sur laquelle portent les inférences statistiques et existant n’importe où dans une aire d’échantillonnage aux limites spatiotemporelles clairement spécifiées.
Collection d’éléments possédant au moins une caractéristique commune et exclusive, permettant de la déterminer et de la distinguer sans ambiguïté de tout autre, de laquelle on extrait un échantillon et sur laquelle portent les inférences statistiques.
comment peut être la population statistique
fini ou infinie
à quoi servent les critères d’inclusion/ exclusion
ils permettent de distinguer une population statistique d’une autre.
inférence statistique
opération logique qui consiste à porter un jugement sur un ensemble vaste (la population statistique) à partir d’un sous-ensemble (l’échantillon) en tenant pour acquis la validité d’application de certaines lois de probabilités.
C’est le processus inverse de la déduction, utilisée en statistique descriptive pour connaître les caractéristiques d’un échantillon.
population cible
ensemble sur lequel devraient porter les conclusions de l’étude en l’absence de toute contrainte.
La généralisation des résultats à la population cible fait appel au seul jugement du scientifique.
vrai ou faux
Souvent l’échantillonnage peut couvrir entièrement la population cible.
faux
à quoi fait appel la généralisation des résultats de l’échantillon à la population statistique
à l’inférence statistique.
échantillon
Fragment d’un ensemble prélevé pour juger de cet ensemble.
Collection d’éléments prélevés d’une façon particulière au sein de la population statistique afin de tirer des conclusions sur cette dernière.
Fraction d’une population statistique sur laquelle des mesures (ou observations) sont effectuées dans le but de connaître les propriétés de cette population.
échantillonnage exhaustif
recensement
utile pour les maladies rares
fraction d’échantillonnage
fE = n/N
Effectif de la population statistique (N) : nombre d’éléments total
Effectif de l’échantillon (n) : égal au nombre d’éléments qui constitue l’échantillon
peut aller de 1 à N
tirage aléatoire
Pour généraliser les résultats d’une
étude à la population statistique,
l’échantillon doit être représentatif
de cette population.
échantillon représentatif
échantillon
qui reflète fidèlement la complexité et
la composition de la population statistique.
familles de méthodes qui assurent la représentativité
- Mélange des éléments
- Échantillonnage probabiliste
- Sélection par quota des éléments
échantillonnage probabiliste
échantillonnage dont chaque élément de la population statistique a une probabilité connue et non nulle d’appartenir à l’échantillon.
Donne un échantillon aléatoire.
types d’échantillonnage aléatoire
Aléatoire simple
Systématique
À probabilités inégales
Stratifié
Par degré
échantillonnage aléatoire simple
Prélever au hasard et de façon indépendante n unités d’échantillonnage dans une population de N éléments.
Chaque élément a la même probabilité d’être échantillonné P(n) = n/N
Chacun des échantillons possibles de taille n possède la même probabilité d’être constitué.
variables
Toute caractéristique mesurable ou observable sur un élément d’échantillonnage (variable) ou sur son environnement (variable associée ou covariable).
types de variables
quantitatives et qualitatives
variable qualitative
facteur avec plusieurs niveaux/catégories, ordonnés ou non
variable quantitative
peut être mesuré ou quantifié
variable aléatoire
variable dont la valeur est le résultat d’un processus aléatoire (stochastique). Pour un élément donné, la valeur précise prise par une variable aléatoire n’est pas connue avant qu’une observation n’ait été faite par opposition à variable contrôlée.
variable aléatoire discrète
Ne peut prendre qu’un nombre fini de valeurs.
variable aléatoire continue
Peut prendre toutes les valeurs d’un intervalle fini ou non
échelle de variation
Système de classement de variable
échelle de variation nominale
classement en catégories (qualitatives) collectivement exhaustives et mutuellement exclusives. Sur cette échelle, l’ordre des catégories et les distances existant entre elles sont ignorées.
échelle de variation ordinale
classement en rang ou en catégories ordonnées. La distance entre deux catégories adjacentes n’est pas connue et peut varier.
échelle de variation par intervalle
classement d’une variable quantitative dont la valeur nulle (le 0) est arbitraire. La distance qui sépare deux données ou catégories est connue.
échelle de variation relative
classement d’une variable dont le 0 n’occupe pas une position arbitraire et signifie la nullité ou l’absence. Peut prendre toutes les valeurs d’un intervalle fini ou non.
type de variable qualitative ou catégorielle
Binaires (2 modalités)
Multiples (>2 modalités)
Non-ordonnées (échelle nominale)
Ordonnées (intervalles variables entre les catégories)
type de variable semi quantitative
(échelle ordinale ou de rang)
type de variable quantitative
intervalles connus entre les classes)
discontinue ou continue
variable contrôlée
variable dont la valeur est déterminée par la personne expérimentatrice et connue de façon précise.
variable dépendante ou explicative
variables qui expliquent au moins en partie les variations du phénomène étudié, celles dont on recherche l’influence
variable dépendante ou réponse
variables qu’on cherche à comprendre ou à prévoir les variations ou la réalisation dans le maximum de situations possibles.
plan d’échantillonnage
- FORMULATION DES OBJECTIFS ET DES HYPOTHÈSES
- CHOIX DU TYPE D’ÉTUDE
- CHOIX DE LA POPULATION
- CHOIX DU SCHÉMA
- CHOIX DES VARIABLES ET DES FACTEURS
- CHOIX DU PLAN D’EXPÉRIENCE/ÉCHANTILLONNAGE
- CHOIX DE LA MÉTHODE D’ÉCHANTILLONNAGE
- DISPOSITIFS DE MESURES OU D’ÉVALUATION
- CHOIX DE L’ANALYSE STATISTIQUE – THÈME DE BIO106
- BONNES PRATIQUES STATISTIQUES ET MÉTHODOLOGIQUES
paradoxe de Simpson
lorsque une tendance présente dans différents groupes de données disparait ou même s’inverse lorsque les groupes sont combinés
3 types d’approche
exploratoire
confirmative
pilote
approche exploratoire
pour générer des hypothèses de travail à vérifier plus tard
approche confirmative
pour confirmer une hypothèse ou un concept
approche pilote
(ou étude de validité de concept ou étude méthodologique): vérifier si une idée nouvelle est appuyée par quelques éléments, ou pour préparer le protocole d’une étude confirmative.
étude expérimentale
expérimentation, travailler sur un système simplifié dans lequel on fait varier les niveaux d’une ou quelques variables pour observer les effets sur
des groupes identiques d’unités expérimentales (=éléments primaires).
Excellent pour établir relations de cause à effet (bonne validité interne, faible validité externe ou in Natura)
étude observationnelle
description d’un système en fonction.
Mesurer le phénomène d’intérêt sur des unités d’échantillonnage aléatoires ainsi que l’ensemble des variables décrivant la situation
Difficile de vérifier des relations cause à effet (faible validité interne, mais bonne validité externe ou in Natura)
choix de l’élément
Guidé par la question d’intérêt.
que peut créer l’échantillonnage des éléments
des biais
biais
c’est l’erreur systématique. Il y a biais lorsque les estimations d’un paramètre à partir des différentes combinaisons d’unités d’échantillonnage qu’il est possible de former sont systématiquement au-dessus ou au-dessous de la valeur de la population statistique.
types de biais
Biais de sélection
Erreurs de couverture
Erreurs de réponse
Erreurs de non-réponse
biais de sélection
Résulte d’une sélection non-aléatoire des unités
d’échantillonnage
erreur de couverture
provient d’une mauvaise définition de la pop. statistique
erreur de réponse
causée par une mauvaise mesure des éléments.
erreur de non réponse
résulte de la non-détection d’individus présents au sein d’une unité d’échantillonnage.
erreur de l’échantillonnage
C’est une erreur aléatoire (pas systématique) donc difficile à contrôler
sources d’erreurs d’échantillonnage
temporelle, spatiale, ou due à l’échantillonnage (l’estimation d’un paramètre va varier en fonction de la combinaison des éléments échantillonnés, même si l’échantillon est représentatif).
quand est ce que l’erreur d’échantillonnage est nulle
seulement quand l’échantillonnage est exhaustif (recensement).
précision
quantifie le niveau de variation (dispersion) entre les estimations obtenues suite à plusieurs échantillonnages de la population statistique.
La précision d’une estimation est influencée par les diverses sources d’erreurs d’échantillonnage.
justesse
résulte d’une absence de biais.
exactitude
est à la fois affectée par les biais et les erreurs d’échantillonnage. Exact = juste + précis
pour éviter les biais :
Randomisation: assignation aléatoire d’un traitement antibiotiques à plusieurs groupes de souris.
Réplication: on répète chacun des niveaux du traitement pour avoir plusieurs unités d’échantillonnage soumises aux mêmes conditions.
pour accroître la précision :
Réplication: on répète chacun des niveaux du traitement pour avoir plusieurs unités d’échantillonnage soumises aux mêmes conditions.
Contrôle de la variation (par la stratification, la mesure de covariables)