COURS 1 Flashcards

1
Q

Quelles sont les composantes de l’épine dorsale des analyses statistiques ? (5)

A
  1. Estimation des paramètres
  2. Paramètres
  3. Intervalle de confiance
  4. Test statistique de l’hypothèse Nule
  5. Erreur Type
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelle est la fonction d’un paramètre ? Nommer un exemple de paramètre.

A

Un paramètre est utilisée pour caractériser une population

Ex. Modèle (b0 mais pas b^0 car il n’appartient pas à la population (échantillon))

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Définissez la population.

A

Ensemble des individus visés par une question de recherche, infinité d’éléments

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Définissez l’hypothèse. Donnez un exemple.

A

Conception abstraite

Ex. Les étudiants n’ont aucune compréhension des statistiques

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Définissez la prédiction. Donnez un exemple.

A

Opérationnalisation concrète
Ex. Les étudiants auront 5 (seuil de la chance) bonnes réponses sur 10 dans des questions vrai/faux en statistiques au début du cours PSY3204

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Définissez les données.

A

La vraie valeur qu’on obtiendrait en mesurant un membre de la population.

Ex. Yi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Définissez le modèle. Quel est le but d’un modèle ? Donner des exemples.

A

Notre prédiction de la donnée (qui reflète notre hypothèse), estimation des données
But : Minimiser l’erreur

Ex. b0, b^0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Définissez l’erreur.

A

Différence entre notre prédiction et la vraie donnée, epsilon (erreur réelle de la population), e (pour échantillon), SC

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelle est l’équation qu’on utilise pour faire une prédiction sur une population ?

A

Donnée = Modèle + Erreur

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Compléter l’énoncé suivant: Un modèle est composé de ___.

A

Paramètres

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Dans le modèle suivant : b0 = 5

Quel est le paramètre? Définissez le.

A

Le paramètre est b0 et c’est une constante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Pourquoi ne peut-on pas déterminer le modèle qui donne la plus petite erreur de prédiction en comparant différents modèles (différentes hypothèses) ?

A

On a généralement pas accès à la population, on a seulement accès à des échantillons (variabilité d’échantillonnage, pas toujours le même échantillon)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

V ou F. b0 et b^0 sont tous deux des modèles et paramètres de la population.

A

FAUX.
Tous 2 sont des modèles, mais
b^0 est un estimateur provenant de l’échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment trouver la “meilleure” valeur de l’estimateur b^0 ? (3)

A
  1. On utilise l’équation pour tenter de minimiser l’erreur de prédiction dans l’échantillon.
  2. On veut trouver la valeur de b^0 qui permettrait de minimiser e_total.
  3. e_total est la somme des erreurs pour toutes les données de l’échantillon.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quelle est l’erreur pour chaque donnée ?

A

Différence entre la vraie donnée de l’échantillon et la valeur prédite (estimée) de la donnée
Calcul : ei = Yi - Y^i

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quel est le calcul pour l’erreur totale de toutes les données de l’échantillon ?

A

*Voir capture d’écran

17
Q

Quel est notre objectif réel ?

A

Rendre notre modèle le plus représentatif possible des données réelles (prédire les données le plus exactement possible à l’aide de notre modèle)

18
Q

Quel est le problème avec l’utilisation de l’équation de la somme de (Yi - Y^i) ?

A

Les erreurs positives et négatives vont s’annuler. Notre modèle paraîtra donc meilleur si les erreurs sont réparties entre les erreurs positives et négatives que si elles sont toutes positives ou toutes négatives.

19
Q

Quelles sont les solutions du problème avec l’utilisation de l’équation de la somme de (Yi - Y^i) ? (2)

A
  1. Utiliser la valeur absolue de l’erreur pour chaque donnée

2. Utiliser le carré de l’erreur

20
Q

Quelle solution choisit-on? Pourquoi ?

A

On sélectionne le carré de l’erreur parce qu’il est mieux adapté à certains calculs mathématiques utilisés entre autres pour optimiser nos estimateurs.

21
Q

Comment se nomme la somme totale des carrés de l’erreur ?

A

La somme des carrés (SC)

22
Q

Quelle est la valeur de l’estimateur qui est la plus représentative de l’échantillon ? (EXAMEN)

A

La moyenne de l’échantillon (TOUJOURS)

23
Q

À quel point la moyenne est représentative de l’échantillon? (2)

A
  1. Plus la SC est faible, plus la moyenne est représentative de l’échantillon.
  2. Toutefois, plus le N est grand, plus la SC est grande et donc plus la moyenne n’est pas représentative de l’échantillon.
24
Q

Pourquoi calcule-t-on le carré moyen de l’erreur (CM) ?

A

Pour avoir une meilleure idée de la représentativité de la moyenne vis à vis de l’échantillon

25
Q

Nommez un synonyme de CM.

A

La variance de l’échantillon (s^2)

26
Q

Que représente la racine carrée de CM?

A

L’écart-type de l’échantillon (s)

27
Q

Pourquoi divise-t-on par N quand on calcule la moyenne et par N-1 lorsqu’on calcule la variance ? EXAMEN

A
  1. Parce que dans tous les cas, nous divisons par le nombre de degrés de libertés.
  2. La moyenne possède N degrés de libertés (toutes les données sont libre de varier, chacune peut prendre n’importe quelle valeur provenant de la population)
  3. Par contre, la variance (puisqu’elle dépend de la moyenne, l’une des données n’est pas libre de varier) possède N-1 degrés de libertés.

Nb de dL = N - Nb de paramètres estimés

28
Q

Quel est le principal avantage de l’écart type sur la variance ?

A

Plus facilement interprétable pour un être humain, car il est dans les mêmes unités que la variable mesurée.

29
Q

Quelle est la représentativité de notre estimateur vis-à-vis la population ? (Quelle est la variabilité de plusieurs échantillons d’une même population?)

A

L’erreur-type (standard error)

30
Q

Comment se nomme la MOYENNE des moyennes d’échantillons ?

A

La moyenne de la population (mu, μ)

31
Q

Comment se nomme l’ÉCART-TYPE des moyennes d’échantillons ?

A

L’erreur-type (𝝈_Ymoy)

32
Q

V ou F. Plus les échantillons sont grands, plus ils sont représentatifs de la population. (5)

A

VRAI,
1. Plus les échantillons sont grands, plus les moyennes des échantillons se ressemblent.

  1. Plus les moyennes des échantillons se ressemblent, plus la variabilité de la distribution des moyennes des échantillons est faible.
  2. Plus la variabilité de la distribution des moyennes des échantillons est faible, plus l’écart-type de la distribution des moyennes des échantillons est faible.
  3. Plus les échantillons sont grands, plus l’écart-type de la distribution des moyennes des échantillons est faible PAR RAPPORT À L’ÉCART-TYPE DES SCORES BRUTES DANS LA POPULATION.
  4. Correction (pour tenir compte de la taille des échantillons) : On divise l’écart-type de l’échantillon par la racine carrée de la taille de l’échantillon (N)
33
Q

Qu’est-ce que le SE (Standard Error) ?

A

Erreur-type

Lorsqu’on divise l’écart-type de l’échantillon par la racine carrée de la taille de l’échantillon (N), on estime l’erreur-type.