Cours 12 Flashcards
Qu’est-ce que la distribution d’échantillonnage?
La distribution des valeurs résultant du calcul d’une statistique sur un grand nombre d’échantillons d’une grandeur donnée (N)
La plupart des tests statistiques assument que la distribution […] suit une courbe normal - C’est la base de la statistique inférentielle
La plupart des tests statistiques assument que la distribution d’échantillonnage suit une courbe normal - C’est la base de la statistique inférentielle
VRAI ou FAUX
Le plus souvent, les paramètres de la distribution d’échantillonnage sont connus.
FAUX
Le plus souvent, les paramètres de la distribution d’échantillonnage sont inconnus, mais peuvent être estimés à partir d’un échantillon
Nos hypothèses sont toujours en fonction de la variabilité de l’[…], variabilité du […], variabilité caractéristique de la distribution d’échantillonnage.
Nos hypothèses sont toujours en fonction de la variabilité de l’erreur, variabilité du hasard, variabilité caractéristique de la distribution d’échantillonnage.
Même si on ne connaît pas les paramêtres de la distribution d’échantillonnage, pourquoi peut-on faire des statistiques inférentielles avec cette distribution?
Car on connaît la forme de la distribution normale.
Puisque les phénomènes naturels se déplacent selon une loi normale, on assume que la distribution d’échantillonnage respecte la normalité.
Le calcul différentiel et les lois statistiques nous permettent d’affirmer plusieurs choses dont le fait que la […] et l’[…] de la distribution d’échantillonnage est la même que la population.
Le calcul différentiel et les lois statistiques nous permettent d’affirmer plusieurs choses dont le fait que la moyenne et l’écart-type de la distribution d’échantillonnage est la même que la population.
VRAI ou FAUX
La distribution d’échantillonage a toujours les mêmes modalités
VRAI
Plus l’échantillon (N) est grand, plus la variance de la distribution d’échantillonnage est […]
Plus l’échantillon (N) est grand, plus la variance de la distribution d’échantillonnage est petite
Que permet l’erreur-type?
L’erreur-type permet de quantifier la variabilité interéchantillonnale, c’est-à-dire la variabilité naturelle observée entre les échantillons
Lorsque nous faisons un test d’hypothèse paramétrique, nous utilisons (généralement) la distribution […] pour caractériser la variabilité interéchantillonnale
Lorsque nous faisons un test d’hypothèse paramétrique, nous utilisons (généralement) la distribution normale pour caractériser la variabilité interéchantillonnale
Pourquoi on n’utilisait pas les statistiques baysiennes avant les dernières années?
Pas d’ordinateur suffisamment puissant pour faire les calculs requis
Quel est le désavantage des tests non paramétriques?
Ils sont beaucoup moins puissant (erreur de type 1: 1-b)
-> Puisqu’on ne connaît pas la distribution d’échantillonnage, on prend des tests ultra conservateurs pour éviter l’erreur
Quand on utilise pas la distribution normale, on utilise des tests […]
Quand on utilise pas la distribution normale, on utilise des tests non paramétriques
Qu’est-ce que les tests paramétriques?
Tests statistiques permettant de faire des inférences sur la population lorsque les caractéristiques de la distribution d’échantillonnage sont connues (généralement une
distribution normale)
Pour utiliser les tests paramétriques, nous devons connaître l’[…] de la distribution […] (l’erreur-type) ou du moins être capable de l’estimer à partir des données d’échantillonnage
Pour utiliser les tests paramétriques, nous devons connaître l’écart-type de la distribution d’échantillonnage (l’erreur-type) ou du moins être capable de l’estimer à partir des données d’échantillonnage
Les tests paramétriques fonctionnent grâce au théorème de la […]
Les tests paramétriques fonctionnent grâce au théorème de la limite centrale
Que postule le théorème de la limite centrale?
1) Plus N (taille de l’échantillon) est grand et plus la distribution d’échantillonnage se rapproche d’une distribution normale
2) Plus N est grand et plus la variabilité de la distribution d’échantillonnage (erreur-type) est petite
* * L’erreur-type est l’écart-type de la distribution normale/la racine carré de la taille de l’échantillon
Qu’est-ce que les tests non paramétriques?
Tests statistiques qui ne demandent pas que la forme et les paramètres de la distribution d’échantillonnage soient connus
-> Nous parlons de tests indépendants de toute
distribution
VRAI ou FAUX
Les tests non paramétriques sont moins puissants (1-B), la probabilité de conserver erronément l’hypothèse null
FAUX
Les tests non paramétriques sont moins puissants (1-B), donc diminue la probabilité de conclure correctement sur l’hypothèse alternative (ce que je veux démontrer)
On fait des tests non paramétriques seulement lorsqu’on ne peut pas assumer que la distribution d’échantillonnage est […] ou qu’elle est complètement […]
On fait des tests non paramétriques seulement lorsqu’on ne peut pas assumer que la distribution d’échantillonnage est normale ou qu’elle est complètement inconnue
Qu’est-ce que le ré-échantillonnage de Effron?
Technique computationnelle qui permet d’estimer la forme et les caractéristiques de la distribution d’échantillonnage sans postuler une distribution particulière
-> Il s’agit d’estimer le paramètre qui nous intéresse un grand nombre de fois à partir de tirages répétés d’un grand nombre « d’échantillons »
VRAI ou FAUX
Avec le ré-échantillonnage, nous ne disposons que d’un seul échantillon représentatif de la population
VRAI
Que vise la procédure de ré-échantillonnage?
Vise à créer un grand nombre de “nouveaux” échantillons en faisant des tirages aléatoires avec remise à partir de notre échantillon
Avec le ré-échantillonnage, notre échantillon forme une […]
Avec le ré-échantillonnage, notre échantillon forme une pseudo-population
Avec le ré-échantillonnage, en faisant des tirages […], nous créons un grand nombre de pseudo-échantillons qui permettent d’estimer la statistique un grand nombre de fois et de reproduire la distribution d’[…]
Avec le ré-échantillonnage, en faisant des tirages avec remise, nous créons un grand nombre de pseudo-échantillons qui permettent d’estimer la statistique un grand nombre de fois et de reproduire la distribution d’échantillonnage
VRAI ou FAUX
Avec le ré-échantillonnage, la variabilité entre mes pseudos échantillons va être comparable à celle entre des échantillons complètement différent.
VRAI
Avec le ré-échantillonnage, la distribution de mes échantillons pseudo va ressembler à la distribution […].
Avec le ré-échantillon, la distribution de mes échantillons pseudo va ressembler à la distribution normale.
Avec le ré-échantillonnage, la variabilité entre mes pseudos échantillonnale va correspondre à ma variabilité interéchantillonnale. Pourquoi?
La variabilité interéchantillonnale est reproduite, car ce ne sont pas les mêmes unités d’observation qui constituent chacun des pseudo-échantillons (à cause des remises)
Avec le ré-échantillonnage, il faut que notre échantillon soit très bon et très […] de la population. Pourquoi
Avec le ré-échantillonnage, il faut que notre échantillon soit très bon et très représentatif de la population
-> Mais, chaque fois que l’on pige une unité, nous puisons dans un sous ensemble représentatif de la population, de ce fait les pseudo-échantillons sont représentatifs de la population
Ré-échantillonnage
Les […] de la distribution de ré-échantillonnage permettent de calculer des intervalles de confiance et de faire des tests statistiques
Les percentiles de la distribution de ré-échantillonnage permettent de calculer des intervalles de confiance et de faire des tests statistiques
Pourquoi la méthode de ré-échantillonnage utilise les percentiles?
Quand on faisait les tests T, on prenait le niveau alpha.
-> On se demandait si notre valeur de notre test était plus grand que le t critique (et donc plus petit que l’alpha prédéterminé).
Les percentiles me permettent de trouver la valeur à un certain percentile pour trouver les valeurs critiques de mon test car si on classe les résultats en ordre, on peut le situer clairement.
-> Pas besoin d’estimer comme avec les tests t.
Pour calculer l’intervalle de confiance avec un niveau alpha de 5% dans une distribution bilatérale, nous utilisons les percentiles: [ […] - […] ]
Pour calculer l’intervalle de confiance avec un niveau alpha de 5% dans une distribution bilatérale, nous utilisons les percentiles: [ 2.5% - 97.5% ]
VRAI ou FAUX
L’écart-type de l’approche bootstrap est généralement très près de celle de l’approche paramétrique
VRAI
En général, lorsque l’on compare les valeurs d’un test paramétrique et bootstrap, on a presque les même valeurs
-> MAIS seulement lorsque l’échantillon est normal que ça se ressemble! Sinon, on est tout simplement pas capable de faire les tests paramétriques pour les comparer
Quels sont les hypothèses statistiques de l’approche bootstrap avec une régression simple?
H0: r =0
-> La corrélation observée est égale à zéro et donc dû au hasard
H1: r =/= 0
-> La corrélation observée n’est pas égale à zéro et donc elle n’est pas dû au hasard. C’est une vraie corrélation dans la population/échantillon
VRAI ou FAUX
L’approche bootstrap peut être utilisée dans un grand nombre de techniques statistiques et notamment la régression multiple
VRAI
VRAI ou FAUX
L’approche bootstrap est généralement plus puissante (probabilité de démontrer ce que l’on veut démontrer) que les tests non paramétriques “classiques”
VRAI
Quels sont les inconvénients de l’approche bootstrap? (3+1)
1) Nécessite un échantillon pleinement représentatif (idéalement probabiliste)
2) Différents essais peuvent donner des résultats différents et (donc) parfois ambigus)
a) Les pseudos échantillon ne sont pas identiques.Donc quand les bootstrap ne fonctionnent pas, certains recommencent jusqu’à ce qu’on est un effet. Parfois, on peut tricher. On devrait peut-être se donner des niveaux alpha plus petits pour éviter ce problème.
3) Ne s’applique pas aux méthodes statistiques plus complexes
Quand utilise-t-on des tests non paramétriques?
Lorsque les données ne forment pas une distribution normale ou connue.
ex:
1) Des temps de réponses biaisés
2) Des mesures avec un plafond
3) Une échelle de mesure où une valeur particulière est nettement plus fréquente
Les tests non paramétriques s’utilisent avec des variables qui prennent un nombre […] de valeurs […] (1. 2. 3. etc)
Les tests non paramétriques s’utilisent avec des variables qui prennent un nombre limité de valeurs ordinales (1. 2. 3. etc)
Donnez des exemples de tests non paramétriques (3)
1) Test de Wilcoxon
2) Test du signe
3) ANOVA de Kruskal-Wallis
Qu’est-ce que le Test de Wilcoxon?
Équivalent non paramétrique du test-t:
- > Pour échantillons indépendants
- > Pour échantillons pariés
Qu’est-ce que le test du signe?
Équivalent non paramétrique du test-t, mais encore moins puissant que le test de Wilcoxon
-> Basée sur la loi binomiale
Qu’est-ce que l’ANOVA de Kruskal-Wallis?
Équivalent non paramétrique de l’ANOVA à un facteur de classification
Le khi-carré est un test […].
-> C’est le test […] le plus […]
Le khi-carré est un test non paramétrique.
- > C’est le test non paramétrique le plus simple
- > C’est le test qu’on fait quand on ne sait pas quoi faire d’autre.