statistique inférentielles Flashcards
Qu’est-ce qu’une vérification empirique des hypothèses?
Vérifier, au moyen de tests statistiques, des hypothèses au sujet des relations entre variables (tests de liaison) ou de différences entre les groupes (tests de comparaison).
Quels sont les 2 types d’hypothèse que nous formulons au départ?
Hypothèses nulle (H0)
Hypothèse alternative ou hypothèse de recherche (H1)
Quel est la différence entre l’hypothèse nulle et l’hypothèse de recherche?
L’hypothèse nulle (H0) : postule qu’il n’y a pas de relation (liaison) entre les variables ou qu’il n’y a pas de différences entre les groupes. (Comparaison)
L’hypothèse de recherche (H1) : indique les résultats attendus par le chercheur; elle contredit l’hypothèse nulle.
Quelle hypothèse fait l’objet du test statistique?
toujours l’hypothèse nulle, car on veut la rejeter
Donner un exemple pour les 2 hypothèses dans cette situation? “poids des nouveaux-nés est de 3.2 kg, vous vous demandez si le poids des nouveaux-nés de mères fumeuses est identique.”
- H0 : La moyenne des nouveaux-nés mf et des mnf ont le même poids soit = 3.2
- H1 : La moyenne des nouveaux-nés mf est différent des mnf, donc n’égal pas 3.2, (hypothèse non directionnelle ; tests bilatéral, car on n’estime pas la direction de la différence)
Que peut-on affirmer quand on rejette l’hypothèse nulle et que celle-ci est fausse?
Cela veut dire l’acceptation de l’hypothèse de recherche
Quel est l’erreur de type 1 qui est la plus populaire, la plus importante?
on rejette l’hypothèse nulle, mais elle est vraie, donc il n’y a pas de différence et on va conclure à tors notre hypothèse de recherche.
Quand on dit que l’alpha est égale à 5%, qu’est-ce que ça veut dire?
- Le niveau α correspond au niveau de signification.
- Choix du seuil: le seuil universellement admis pour α est de 5%
- Pour un niveau égal à 5%, on accepte de faire une erreur dans 5% des cas.
Quel est l’erreur de type II?
la vraisemblance de ne pas obtenir une différence significative, donc un effet. On l’appelle aussi le manque de puissance, car on conclut à tort qu’il n’y a pas d’effet (peut ne pas l’avoir remarqué)
Le complément à la probabilité d’erreur de type II est _______.
la puissance statistique (1-β)
Quel est la définition de la puissance statistique d’un test?
sa capacité à détecter une différence significative qui existe réellement, ce qui revient à la probabilité de rejeter directement hypothèse nulle.
Quel est la norme d’une bonne puissance statistique?
Une puissance statistique (capacité à détecter un effet quand il y en a un) de 80% (erreur type II = 20%) est la norme
Le nombre de sujet est important pour avoir une puissance de 80% (à voir quand on fait une recherche)
Quels sont les 4 paramètres que nous devons regarder pour le calcul du test statistique?
- Importance de la différence
- Écart-type (variance des distributions)
- taille de l’échantillon (ex : un intervalle de confiance à 95% dépends de la taille de l’échantillon)
- Niveau alpha
Définit ce qu’est une valeur critique?
valeurs au-delà desquelles on rejette H0 (on va conclure qu’il y a un effet)
Qu’est-ce qu’un test bilatéral?
on rejette H0 s’il y a une différence, qu’elle soit positive ou négative.
zone de rejet est 2,5% de côté positif et négatif
Qu’est-ce qu’un test unilatéral?
on rejette H0 en précisant la direction anticipée de la différence. (la zone de rejet est déterminer positivement ou négativement)
Entre les test unilatéral et bilatéral, lequel est le plus puissant?
Le test unilatéral est plus puissant que le test bilatéral et favorise le rejet de H0 (plus grand capacité à voir un effet)
Quel est la différence entre un test paramétrique et un test non paramétrique.
Tests paramétriques : tests basés sur un certain nombre de postulats concernant la distribution des données
Test non paramétriques : ne sont pas basés sur un certain nombre de postulats concernant la distribution des données
Quels sont les particularité d’un test paramétrique?
- Les données doivent suivre une distribution normale
- Tests paramétriques permettent de déceler plus facilement des différences ou des relations, ils sont plus puissants.
Quels sont les particularités d’un test non paramétrique?
- Utilisés pour des données ne satisfaisant pas aux postulats de normalité.
- Utiles pour des données nominales ou ordinales
- Utilisés avec des échantillons de petite taille (˂ 20)
- Sont plus robustes que les tests paramétriques
Vrai ou faux : Les tests paramétriques ont souvent des tests non-paramétriques équivalents. (peut en faire même si la distribution n’est pas normale)
vrai
Que permet un test de liaison?
Permettent de vérifier s’il y a une association entre une ou plusieurs variables.
Comment pouvons-nous dire que deux variables sont liés?
Deux variables sont liées lorsque la variation de l’une entraîne une variation de l’autre (si X bouge, Y va varier)
Est-ce que lorsque 2 variables sont liés, il y une relation de causalité?
La présence d’une association entre deux variables n’implique en aucun cas une relation de causalité (ça demande une étude expérimentale pour avoir une relation de cause à effet)
Quel est le test paramétrique associé aux variables catégorielles?
Test du chi-carrée (x2)
voir exemple : est-ce qu’il y a une association entre le tabagisme et le sexe?
Quel est le test paramétrique associé aux variables quantitatives?
corrélation de Pearson
Que permet de mesurer un tests de corrélation (r de Pearson)?
Permet de mesurer l’association entre deux variables quantitatives
- Vérifie s’il existe une association
- Quantifie la force de l’association
- Indique la direction de l’association.
Que permet de savoir la valeur du r?
la valeur du coefficient de corrélation (le signe désigne la direction) : -1.0 ˂ r ˂ 1.0
Quel est la différence entre une fiable corrélation et une forte corrélation?
faible corrélation : Un r=0.08 (peut élever, car près de zéro)
Un r2=0.0064 (0,64%) ce n’est pas beaucoup
Grande dispersion entre les points
Forte corrélation : Une corrélation significative positive, car presqu’une pente droite (près du 1)
Peut être positive ou négative
Qu’est-ce qu’un test de régression : prédiction?
On veut prédire la variable dépendante à partir d’une variable indépendante.
La régression à 3 fonctions :
- Vérifier l’existence d’une association entre une variable dépendante (Y) et une variable indépendante (X)
- Décrire comment Y est lié à X
- Prédire Y à partir de X
Quel est la différence entre une régression linéaire simple / régression multiple / régression logistique?
régression linéaire simple : Prédit la valeur d’une variable dépendante en se fondant sur la valeur d’une variable indépendante
Régression multiple : Prédit la valeur d’une variable dépendante d’après les valeurs de plusieurs variables indépendantes. (une extension de l’analyse de la régression linéaire). “variable dépendante : quels sont les variables qui ont un impact sur la probabilité d’un événement continue”
Régression logistique : variable nominale
Que permet de comparer un Test t de student?
Sert à comparer les moyennes de deux populations
- Moyenne d’un échantillon à une moyenne théorique
- Les moyennes de 2 échantillons indépendants (sont-ils différents?)
- Les moyennes de 2 échantillons appariées : les données viennent des mêmes sujets (devis avant-après groupe unique.
Quel est le principe du test t de student?
le test consiste à estimer l’écart-type de la différence entre les moyennes (Δ=différence entre les moyennes et ont divisé par l’écart-type), à calculer la valeur : et à comparer cette valeur à la distribution théorique de la loi T de student.
Quel postulat pouvons-nous faire avec le test t student?
- La VD doit avoir une distribution normale (pas besoin qu’elle soit tout à fait normal quand on a beaucoup de monde)
- Les 2 groupes doivent avoir les même variances : homogénéité des variances (variances entre les 2 groupes doivent être comparable)
- Similaire au test z pour des effectifs ≥ 30
Quel est le but du test t student?
Le but est de rejeter l’hypothèse nulle, donc de dépasser le seuil critique pour dire qu’il y a une différence.
Pouvez-vous nommer un autre test de comparaison autre qu’un test t de student?
test de t indépendant
Quel sont les 3 termes (variations) utiliser pour l’analyse de variance ANOVA?
1- variance entre les groupes (moyenne des 3 groupes par rapport à la moyenne générale)
2- variation à l’intérieur des groupes (variance résiduelle soit chaque individu par rapport à la moyenne de son groupe)
3- moyenne générale soit indépendamment du groupe, l’écart de chaque point par rapport à la moyenne.
l’analyse de variance ANOVA permet de comparer les différences entre les 3 groupes ou plus avec quel principe?
Principe : scinder la variation totale (SCET) en deux termes :
- Variation entre les groupes (SCEB)
- Variation à l’intérieur des groupes (SCEW)
Qu’est-ce qu’un effet de co-variables?
Co-variable est susceptible d’influencer mes résultats. Ex : dans l’expérience précédant, je pense que l’âge pourrait avoir un impact et je pourrais retirer son impact pour être indépendant de ma co-variable.