5. Comparaisons et relations entre variables qualitatives Flashcards
Proportion
Fraction population présente caractéristique particulière
Définit par : p
Propriété : 0 < p < 1
Probabilité échantillonner individu = proportion individu dans population de k groupe
Calcul : p1 + p2 + ⋯ + pk = ∑(k, i=1) pi = 1
p1 = #1 / k
Il est possible à partir d’un échantillon…
- Estimer proportion population
- Calculer intervalle de confiance
- Tester hypothèse statistiques
Loi binomiale
Permet estimer observations commune ou rare
À partir calcul probabilité d’occurence
Selon loi densité probabilité
Conditions loi binomiale
- Échanitllon aléatoire/indépendant
- Valeurs peut appartenir à 2 catégories
- Nombre n fixe de valeurs (effectif fixe)
- Probabilité appartenir groupe 1 = p
- Probabilité appartenir groupe 2 = 1 - p
- Probabilité appartenir 1 ou 2 même pout tous éléments échantillon
Succès
Observation choisie
Représente individus font partis groupe 1 ou 2
Ex : faire partie groupe 1 = p -> faire partie groupe 2 = 1 - p
ou
faire partie groupe 2 = p -> faire partie groupe 1 = 1 - p
Fonction de masse - Loi binomiale -
Équivaut fonction densité variable continue mais pour variable discrète
Calcul : ℙ [X = k] = Ckn x p^k x (1−p)^(n−k)
Où, X : # k de succès dans n
Ckn : # combinaions permet obtenir k succès dans n
p^k : probabilité obtenir k succès successifs
(1−p)^(n−k) : probabilité obtenir n-k échecs
Multiplie car applique « et »
R : dbinom (k, size = n, prob = p)
Démarche - Loi binomiale -
- Vérifie conditions
- Définit variable aléatoire X (# succès)
- Calcul probabilité (avec loi binomial : ℙ [X = k] = Ckn x p^k x (1−p)^(n−k))
Estimation proportion p
Pour estimer vrai proportion catégorie dans population doit définir ; - Moyenne attendue Calcul : 𝔼[X] = n x p Où, n : effectif p : probabilité - Erreur standard Calcul : SEp = √((p x (1−p))/ n)
Plus n augmente = plus distirbution resserre autour moyenne (p) -> plus estimation précise
Dû SEp diminue proportionnellement √n
Intervalle de confiance p
Pour conclure intervelle confiance autour vrai p population
Diminue avec augmentation de n
Intervalle de confiance de Wald
Calcul : p − Z(α/2) x √(p x (1−p)/n) ≤ p attendue ≤ p + Z(α/2) x √(p x (1−p)/n)
Où, p : proportion
α : seuil de significativité
Existe d’autres
Test binomial
Permet appliquer proriétés distirbution binomiale pour tester significativité proportion
Significativité proportion : différence par rapport hasard
Doit avoir juste 2 valeurs possibles : Succès ou Échec
Cherche déterminer si fréquence relative (p) succès conforme nulle (p0)
Procédure Test hypothèse - Loi binomiale -
- Définir résultat attendu (ex : gènes S surreprésentés sur X)
Défini variable -> ex : Y = nombre de gènes S sur X - Définir H0/H1 avec traductions mathématiques
- Calcul statistiques du test
Pour test binomial -> nombre de succès - Seuil du test (α=…%)
- Calcul p-value (p−value = ℙ [Y ≥ Yobs])
Selon loi binomiale (ℙ [X = k] = Ckn x p^k x (1−p)^(n−k)))
Avec : dbinom (x = 0: … , size = … , prob = ….) - Conclu (p < a ou non -> rejet/ou non H0)
R : binom.test ()
Propriétés loi du χ^2 (khi-carré ou khi-2)
- Distribution probabilité de somme carré variable aléatoires continues indépendante
suivent loi Normale centrée réduites
Déf : χ^2 = z1^2 + z2^2 - Valeurs toujours positives et fonction densité pas symétrique
- Comporte degré de liberté (v/dl)
Correspond # variables aléatoires continues dont fait somme carré
Mais retire 1 dl + #paramètre estimé : dl = # catégorie - 1 - #paramètre estimé
Fonction densité chenge selon dl
Probabilité de χ^2
Utilise table χ^2 ou R pour trouver probabilité variable aléatoire dans distrubiton χ^2
Table χ^2 : besoin α et dl
R : pchisq ()
Donne valeur type : ℙ [X ≤ χ^2critique]
Utilise lower.tail = FALSE pour ℙ [X > χ^2critique]
χ^2 dit critique si délimite α
Test d’ajustement du χ^2
Extension généralisée test binomial pour comparer proportion si plus de 2 catégories
Utilisé pour variables qualitatives et quantitatives discrètes
Statistique du test pour χ^2
Mesure écart entre fréquences observés (F(obs)) et fréquences attendues (F(att)) selon modèle nul pour chaque catégorie (i)
Calcul : (F^i(obs) − F^i(att))^2 / F^i(att)
Remarque
- Possible différences entre fréquences réparties autour 0 -> suit loi normale
- Juste positif dû carré -> évite +/- annulent
Donc statisitque du test χ^2 -> valeur de χ^2
Calcul ; χ^2(dl=k−1) = ∑(k, i=1) (F^i(obs) − F^i(att))^2 / F^i(att)
Où, k : # catégories