5. Comparaisons et relations entre variables qualitatives Flashcards
Proportion
Fraction population présente caractéristique particulière
Définit par : p
Propriété : 0 < p < 1
Probabilité échantillonner individu = proportion individu dans population de k groupe
Calcul : p1 + p2 + ⋯ + pk = ∑(k, i=1) pi = 1
p1 = #1 / k
Il est possible à partir d’un échantillon…
- Estimer proportion population
- Calculer intervalle de confiance
- Tester hypothèse statistiques
Loi binomiale
Permet estimer observations commune ou rare
À partir calcul probabilité d’occurence
Selon loi densité probabilité
Conditions loi binomiale
- Échanitllon aléatoire/indépendant
- Valeurs peut appartenir à 2 catégories
- Nombre n fixe de valeurs (effectif fixe)
- Probabilité appartenir groupe 1 = p
- Probabilité appartenir groupe 2 = 1 - p
- Probabilité appartenir 1 ou 2 même pout tous éléments échantillon
Succès
Observation choisie
Représente individus font partis groupe 1 ou 2
Ex : faire partie groupe 1 = p -> faire partie groupe 2 = 1 - p
ou
faire partie groupe 2 = p -> faire partie groupe 1 = 1 - p
Fonction de masse - Loi binomiale -
Équivaut fonction densité variable continue mais pour variable discrète
Calcul : ℙ [X = k] = Ckn x p^k x (1−p)^(n−k)
Où, X : # k de succès dans n
Ckn : # combinaions permet obtenir k succès dans n
p^k : probabilité obtenir k succès successifs
(1−p)^(n−k) : probabilité obtenir n-k échecs
Multiplie car applique « et »
R : dbinom (k, size = n, prob = p)
Démarche - Loi binomiale -
- Vérifie conditions
- Définit variable aléatoire X (# succès)
- Calcul probabilité (avec loi binomial : ℙ [X = k] = Ckn x p^k x (1−p)^(n−k))
Estimation proportion p
Pour estimer vrai proportion catégorie dans population doit définir ; - Moyenne attendue Calcul : 𝔼[X] = n x p Où, n : effectif p : probabilité - Erreur standard Calcul : SEp = √((p x (1−p))/ n)
Plus n augmente = plus distirbution resserre autour moyenne (p) -> plus estimation précise
Dû SEp diminue proportionnellement √n
Intervalle de confiance p
Pour conclure intervelle confiance autour vrai p population
Diminue avec augmentation de n
Intervalle de confiance de Wald
Calcul : p − Z(α/2) x √(p x (1−p)/n) ≤ p attendue ≤ p + Z(α/2) x √(p x (1−p)/n)
Où, p : proportion
α : seuil de significativité
Existe d’autres
Test binomial
Permet appliquer proriétés distirbution binomiale pour tester significativité proportion
Significativité proportion : différence par rapport hasard
Doit avoir juste 2 valeurs possibles : Succès ou Échec
Cherche déterminer si fréquence relative (p) succès conforme nulle (p0)
Procédure Test hypothèse - Loi binomiale -
- Définir résultat attendu (ex : gènes S surreprésentés sur X)
Défini variable -> ex : Y = nombre de gènes S sur X - Définir H0/H1 avec traductions mathématiques
- Calcul statistiques du test
Pour test binomial -> nombre de succès - Seuil du test (α=…%)
- Calcul p-value (p−value = ℙ [Y ≥ Yobs])
Selon loi binomiale (ℙ [X = k] = Ckn x p^k x (1−p)^(n−k)))
Avec : dbinom (x = 0: … , size = … , prob = ….) - Conclu (p < a ou non -> rejet/ou non H0)
R : binom.test ()
Propriétés loi du χ^2 (khi-carré ou khi-2)
- Distribution probabilité de somme carré variable aléatoires continues indépendante
suivent loi Normale centrée réduites
Déf : χ^2 = z1^2 + z2^2 - Valeurs toujours positives et fonction densité pas symétrique
- Comporte degré de liberté (v/dl)
Correspond # variables aléatoires continues dont fait somme carré
Mais retire 1 dl + #paramètre estimé : dl = # catégorie - 1 - #paramètre estimé
Fonction densité chenge selon dl
Probabilité de χ^2
Utilise table χ^2 ou R pour trouver probabilité variable aléatoire dans distrubiton χ^2
Table χ^2 : besoin α et dl
R : pchisq ()
Donne valeur type : ℙ [X ≤ χ^2critique]
Utilise lower.tail = FALSE pour ℙ [X > χ^2critique]
χ^2 dit critique si délimite α
Test d’ajustement du χ^2
Extension généralisée test binomial pour comparer proportion si plus de 2 catégories
Utilisé pour variables qualitatives et quantitatives discrètes
Statistique du test pour χ^2
Mesure écart entre fréquences observés (F(obs)) et fréquences attendues (F(att)) selon modèle nul pour chaque catégorie (i)
Calcul : (F^i(obs) − F^i(att))^2 / F^i(att)
Remarque
- Possible différences entre fréquences réparties autour 0 -> suit loi normale
- Juste positif dû carré -> évite +/- annulent
Donc statisitque du test χ^2 -> valeur de χ^2
Calcul ; χ^2(dl=k−1) = ∑(k, i=1) (F^i(obs) − F^i(att))^2 / F^i(att)
Où, k : # catégories
Démarche - Test d’ajustement du χ^2 à loi binomiale -
- Définit résultat attendu
Ex : si naissance arrive hasard durant semaine, p naissance par jour = p jour semaine
(modèle proportionnel) - Définir H0/H1 avec mathématiques
Selon mp, H0 : p même et H1 : p pas même - Calcul statistique du test (χ^2(dl=k−1) = ∑(k, i=1) (F^i(obs) − F^i(att))^2 / F^i(att))
Présente F(obs), p0, F(att) et carré écart dans tableau - Seuil du test (α)
- Calcul p-value (ℙ[χ^2(dl=6) > χ^2calculée] )
Utilise R : pchisq ()
Peut estimer avec table χ^2 selon valeur de χ^2calculée - Conclu
χ^2calculée > χ^2critque alors p < α - > rejette H0
R : chisq.test ()
Conditions test d’ajustement χ^2
- Échantillonnage aléatoire et indépendant
- Aucune catégories fréquence attendue < 1
- Max 20% catégories fréquence attendue < 5
Test binomial vs test χ^2
Test binomial : compare 1 échantillon à proportion
Test χ^2 : compare nombreux échantillons à distribution de probabilité
Test binomial : définit p a priori
Test χ^2 : définit p selon données
Distribution de poisson
Permet décrire comportement nombr évènement sur intervalle temps/espace fixé
Évènement indépendant homogène dans temps/espace -> même chance produire
Calcul : ℙ [X = k] = (e^(−λ) x λ^x) / k!
Où, λ : moyenne variable X -> soit # succès
Peut calculer variance pour mesurer dispersion
Variance = λ
Si variance < λ -> surdispersés
Si variance > λ -> regroupés
Démarche - Test d’ajustement du χ^2 à loi Poisson -
- Définir résultats attendu
Défini variable aléatoire (ex : X = # extinction par unité de temps) - Définir H0/H1
Ex : H0 = X suit Poisson, H1 = X suit pas Poisson - Calcul statistiques du test
a) Calcul moyenne pondérée λ
b) Calcul fréquence attendue (F(att) = ℙ[X = k] x n)
Où, n : unité de temps/espace
ℙ[X = k] : loi poisson
c) Calcul statistiques du test χ^2 (χ^2 calculée)
Si correspond pas conditions χ^2 -> combine catégories - Fixe seuil significativité (α)
- Identifie valeur critique (χ^2 critique)
Selon α et dl - Conclu caractère aléatoire de X
Tableau de contingence
Permet évaluer/détecter dépendance entre 2 variables qualitatives binaires
Toujour 2 facteurs avec 2 options
Toujours total pour colonnes et lignes
Test d’indépendance du χ^2
Utiliser souvent pour tester relations entre 2 variable qualitatives/quentitatives discrètes
Similaire test ajustement χ^2 -> juste cas spécial
Peut être utiliser pour plus de 2 valeurs
Démarche - Test d’indépendance du χ^2 -
- Définir résultat attendu
- Définir H0/H1
- Calcul statistique du test
Besoin 2 tableaux : fréquence observé + fréquence attendue
a) Calcul fréquence attendue -> à partir données
Calcul : F(att, [i,j]) = ℙ[ligne i] × ℙ[colonne j] × Total
Soit (Total ligne i × Total colonne j)/Total
b) Calcul statistique de test χ^2 (χ^2 calculée) - Seuil de significativité (α)
- Identifie valeur critique χ^2critique
- Conclu caractère aléatoire de X
Contribution relative de chaque écart
Permet déterminer quel catégorie est responsable manque d’indépendance
Calcul : Contribution = χ^2 calculée v1 / χ^2 calculée tot x 100
Calcul du coefficient de contingence
Quantifie force relation entre 2 facteurs
Varie entre 0 et 1
Plus relation forte = plus proche de 1
Calcul : coefficient = √(χ2calculée / (χ2calculée + n))