Cours 3 - Données catégorielles et Khi-Carré Flashcards
C’est quoi dans le fond une donnée catégorielle
Une donnée non numérique qui ne peut pas faire de statistique descriptive et qui permet seulement l’analyse des fréquences des catégories (couleur de cheveux, présence d’une pathologie, etc.)
Événement avec les données catégorielles
Une chose arrive va produire un résultat qui vont ensuite former des catégories (succès ou échec par exemple). Si on a plusieurs réponses possibles, on peut s’interroger sur l’indépendance des résultats comparé aux données binomiales
Le Khi-Carré, c’est quoi dans lfond (2)
- Une distribution mathématique permettant de calculer des probabilités (distribution de densité)
- C’est un test statistique qui est basé sur la distribution du khi-carré
C’est quoi la distribution du khi-Carré?
Fait référence au khi carré de pearson, permet d’avoir une densité et de calculer des probabilités. Un seul paramètre ; k (genre les degrés de liberté du test khi-2)
Concrètement, elle permet de trouver une valeur critique associée à une probabilité
C’est quoi la fonction gamma?
Fonction qui permet de calculer l’équivalent des factoriels pour des nombres pas entiers
Valeur de la moyenne et de la variance de la distribution khi carré
Moyenne = k, Variance = 2k
Est-ce que le test khi-carré est non-paramétrique?
Oui, il est non-paramétrique. On a des données catégorielles sans moyenne, c’est donc très difficile de se référer à une distribution normale.
H0 et H1 avec khi-carré = ?
H0 = Aucun lien
H1 = Y’a un lien
Avec le test du khi carré, on va venir voir si la valeur dépasse le khi critique, ce qui confirme H1.
Comment expliquer si H0 est respectée avec khi-carré?
S’il n’y a aucun lien entre les variables (ce que H0 défend), il y a une énorme chance que le Khi-carré calculé soit faible, au point qu’il ne dépasse pas le khi-carré critique
Comment expliquer si H1 est confirmée?
C’est si peu probable que le Khi-carré calculé dépasse le Khi-carré critique que si jamais ça arrive, il doit avoir un lien entre les deux variables
Que permet concrètement le test du Khi-Carré?
Comparer des fréquences théoriques aux fréquences attendues/observées
Deux variables de classification ; quel type de variable sont-elles?
Les deux variables seraient catégorielles, on pose donc la question d’indépendance entre les deux. Est-ce que la distribution de fréquence d’une variable dépend de la distribution des fréquences de l’autre?
Que présente un tableau de contigence?
La distribution des fréquences d’une variable pour chaque niveau d’une autre variable
Comment calculer le khi-carré pour 2 variables?
1 - Calcul de chaque fréquence attendue pour chaque donnée de la table
2 - Calcul du khi-carré = (Obs - Att) au carré / Att
3 - Calcul des dl = (Ligne - 1) * (Colonne - 1)
4 - Trouver la valeur du khi critique selon dl et alpha avec le tableau
5 -Vérifier si le khi calculé est plus grand que le khi critique, si oui on rejette H0
Qu’est-ce que la correction de continuité de Yates?
Réduction de la valeur du test pour obtenir un test plus conservateur car dans les tables 2x2, la valeur du test khi-carré tend à être trop grand (erreur de type 1 plus fréquent)