Cours 3 Khi carré et données catégorielles Flashcards
Quelles sont les caractéristiques des données catégorielles?
- Données non numériques
- Données qualitatives
- Pas de statistiques descriptives ou de variabilité
- Seulement l’analyse des FRÉQUENCES des catégories
Ex: Couleur de cheveux, présence de pathologie
Qu’est-ce qu’un événements?
C’est une chose qui arrive et qui produit un résultat. Ces résultats forment des catégories (succès/échec, choix d’un participant, etc)
Quel est le seul type de statistiques possible lors de données catégorielles?
Le khi carré
Quelles sont les utilités du khi carré?
- Distribution mathématique permettant de calculer des probabilités –> distribution khi carré est une distribution de densité, comme la distribution normales
- Test statistiques qui est basé sur la distribution khi carré
Qu’est-ce que la distribution khi carré?
C’est une distribution mathématique qui donne une densité et permet de calculer des probabilités (aires sont la courbes)
Quel est le seul paramètre qu’utilise la distribution khi carré?
k (degré de liberté) –> correspond au nombre de CATÉGORIE
Qu’est-ce que la fonction gamma?
r(n) = n-1
La fonction gamma permet de calculer l’équivalent des factoriels pour des nombres qui ne sont pas entiers
La distribution khi carré à … paramètre … qui correspond aux … du test khi carré
La distribution khi carré à un seul paramètre k qui correspond aux dl du test khi carré
Qui suis-je?
J’influence la forme de la distribution khi carré. Plus mon nombre est grand, plus la distribution prend la forme d’une normale et plus mon nombre est petit et plus je prend la forme de exponentielle.
Les dl
Quelles la moyenne et la variance de la distribution khi carré? Qu’est-ce qui les différencie de la distribution normale?
Moyenne = k, Variance = 2k
Ces 2 paramètres ne sont pas indépendants comme dans la distribution normales
Que permet la distribution khi carré?
Elle permet de trouver une valeur critique associée à une probabilité
Quels sont les dl pour les tables de contingence?
dl = (L-1) (C-1)
Quels sont les dl pour la classification à un facteur (test d’ajustement)?
dl = C-1
Pour les tables …, la valeur du test khi carré aurait tendance à être trop …, ce qui accroît la probabilité d’erreur de Type …
Pour les tables 2x2, la valeur du test khi carré aurait tendance à être trop grande, ce qui accroît la probabilité d’erreur de Type 1
En quoi consiste la correction de continuité de Yates?
Consiste à réduire la valeur du test et obtenir un test plus conservateurs
En quoi consiste le test exact de Fisher?
Il fournit un test plus conservateur que le khi carré
Qu’est-ce que le rapport de vraisemblance?
- Il fournit une autre façon de calculer un test khi carré
- Fournit un test plus juste pour des échantillons de petites taille
- La vraisemblance est un concept statistique associé à un modèle ou à une hypothèse
- Le rapport de vraisemblance sert à évaluer s’il faut conserver Ho
Les rapports de vraisemblance est une approche alternative visant à analyser les données catégorielles. Les deux test sont équivalents pour les échantillons de grandes tailles, mais pour les échantillons de petites tailles, on pense que le khi carré est mieux approximé par la distribution exacte du khi2 que le khi2 du rapport de vraisemblance.
Quels sont les divers indices d’associations et à quoi servent-ils?
Ils permettent de quantifier la grandeur de l’effet
- La famille des r : tests similaire à un coefficient de corrélation
- La famille des d : permets de calculer des rapports de risques et des tailles d’effet
S’il y a plusieurs résultats possibles, on peut s’interroger sur l’indépendance des résultats. Donnez un exemple.
Je remarque que dans mon groupe, j’ai plus de femme que d’homme. Est-ce le fruit du hasard que j’aille plus de femme que d’homme, ou il y a autre choses qui en est la cause (par exemple : est-ce que mon annonce est genrée ?) –> Le khi carré peut répondre à ces questions
Qui suis-je?
Je suis le seul type de statistique possible lors de données catégorielles.
Les fréquences
Données des exemples d’hypothèse de khi carré.
- Est-ce que la répartition des CATÉGORIES d’emploi (service, vente, santé) est la même pour les hommes et les femmes
- Est-ce qu’il y a un LIEN entre les verdicts des tribunaux et la responsabilité alléguée de la victime
- Les rats dans un labyrinthe choisissent-ils une porte de sortie au hasard?
Quels sont les deux tests que permet le Khi-carré?
- Classification à un facteur –> test khi carré d’ajustement
- Deux variables de classification –> analyse des tables de contingences
Qu’est-ce que le test d’ajustement?
C’est un test qui examine si les données (fréquences observées) et la théorie (fréquence attendues) sont bien ajustées.
Ex: L’expérience de Tolman sur des rats qui trouvent leur chemin dans un labyrinthe
Ce test permet la comparaison entre les fréquences observées et les fréquences attendues.
Dans l’exemple de Tolman, nous obtenons un X2 obs de 9.25 et un X2critique de 7.82. Quelle est la conclusion?
Nous rejetons Ho car X2 crit < X2 obs. Nous en concluons que les valeurs observées DIFFÈRENT des valeurs attendues. Donc, la variation entre les fréquences attendue et observée ne révèle pas du hasard