Stats 2 Flashcards

1
Q

Une statistique désigne (2)

A
  1. Un ensemble de données d’observations
  2. La science qui consiste en leur recueil, leur traitement et leur interprétation.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Définition statistique descriptive

A

Partie de la statistique qui consiste à décrire et à résumer l’information contenue dans un ensemble de données, sous forme de tableau, de graphique ou à l’aide de mesures telles que la moyenne ou la variance.
On utilise également le terme “statistique descriptive” pour qualifier ces dernières (la moyenne et l’écart-type sont des statistiques descriptives).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Définition théorie des probabilités

A

Une branche des mathématiques qui se consacre à l’étude des phénomènes ou expériences aléatoires.
La théorie des probabilités est formée de lois mathématiques qui décrivent le comportement des phénomènes relevant du hasard.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quel est l’inférence statistique ?

A

Un ensemble de règles logiques qui permet de tirer des conclusions au sujet d’une hypothèse de recherche ou d’une population à partir d’un échantillon de la population (comprendre les liens entre population et échantillon)

Approfondir la notion de représentativité de l’échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Sur quoi est basée l’inférence statistique?

A

Théorie des probabilités.

Ce sont les lois de la probabilité qui permettent de quantifier l’incertitude (ou la certitude) des conclusions obtenues dans un échantillon.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Objectifs de faire des stats (2)

A

Statistiques descriptives

Inférence statistique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

À partir de quoi les statistiques descriptives sont elles produites ?

A

Échantillon (doit être représentatif de la population)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont les 2 types de données ?

A

Quantitative et qualitative

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nommer 2 types de variables/données quantitatives

A

Continues
Discrètes (# entiers)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Nommer 2 types de variables/données qualitatives

A

Nominales (pas d’ordre)
Ordinales (ordre)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vrai ou faux : on peut toujours connaître la distance qui sépare 2 variables quantitatives

A

Vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vrai ou faux : on ne connaît jamais la distance qui sépare 2 variables ordinales

A

Faux
Distance parfois pas connue et peut varier

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vrai ou faux : on connaît la distance entre 2 variables nominales

A

Faux
On ignore la distance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment peut-on présenter des données ?

A

Distribution de fréquence (histogramme, tableau de fréquence)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Peut-on faire un histogramme avec des variables qualitatives ?

A

Non. Pas de suite entre les variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce qu’on peut déterminer avec un histogramme ? (à part constater la distribution des fréquences de façon plus visuelle)

A

si la distribution suit une loi unimodale ou bimodale
si la distribution est symétrique ou asymétrique
si la distribution possède des valeurs aberrantes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Deux catégories de paramètres qui permettent de caractériser une distribution

A

Paramètres de position

Paramètres de dispersion

Renseignent sur l’ordre de grandeur des valeurs et les valeurs centrales autour desquelles se regroupent les observations.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Nommer les paramètres de position

A

Moyenne arithmétique
Médiane
Mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Nommer les paramètres de dispersion

A

Étendue
Quartiles
Variance
Écart-types

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Quel paramètre de position est largement affecté par les données aberrantes ?

A

moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Comment détermine-t-on la médiane

A

On ordonne les valeurs par ordre croissant

Pour un nombre pair d’observations, on fait la moyenne des deux observations centrales

Pour un nombre impair d’observations, la médiane est la valeur centrale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Valeur qui représente le sommet de la courbe

A

mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Il y a toujours un mode dans chaque échantillon

A

Faux, parfois les petits échantillons n’ont pas de mode.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Vrai ou faux : la médiane correspond à la moyenne si la distribution est symétrique

A

Vrai

25
Q

Quartile

A

Valeur des variables qui séparent l’échantillon ordonné en 4 groupes contenant chacun 25% des observations.

26
Q

Entre quels quartiles retrouve-t-on la majorité de la population

A

Entre Q1 et Q3 (Q2 = centre)

27
Q

À quoi servent les quartiles ?

A

Tracer une boîte à moustaches (box plot)

28
Q

À quoi sert la boîte à moustaches ? (2)

A

Résume la série de données à partir de caractéristiques (médiane, 1er et 3e quartiles, valeurs les plus extrêmes dans l’intervalle)

Permet de visualiser les valeurs extrêmes non contenues dans l’intervalle précédent

29
Q

Formule pour définir les moustaches (intervalle)

A

[q1 - 1,5 (q3-q1) ; q1 + 1,5(q3-q1) ]

30
Q

Que représente la ligne dans la boîte à moustache

A

La médiane

31
Q

De quoi a-t-on besoin pour calculer un écart-type ?

A

La variance

(et aussi de la moyenne pour calculer la variance)

32
Q

Formule pour calculer un écart-type

A

Racine carré de la variance au carré

33
Q

Quels paramètres de dispersions sont sensibles aux valeurs aberrantes ou extrêmes ?

A

Variance et écart-type

Étendue aussi

34
Q

Définir la variance

A

Mesure de déviation des observations par rapport à la moyenne des observations

35
Q

Définition probabilité

A

Fréquence relative d’un événement particulier après un très grand nombre de répétitions d’une même expérience aléatoire.
La probabilité d’un événement A est dénotée par P(A).

▪ 0 inférieur ou égale P(A) inférieur ou égale 1
▪ P(S)=1

36
Q

Variable aléatoire (en lien avec probabilité)

A

Fonction qui assigne un vrai nombre à chaque résultat d’une expérience aléatoire

37
Q

Les variables aléatoires peuvent être ______ ou ________

A

discrètes (# entiers)
continues (toutes les valeurs dans un intervalle de # réels)

38
Q

Distribution de probabilité

A

Représente les probabilités d’une variable aléatoire x.

Fournie la probabilité d’apparition de toute valeur x.

Comme une distribution de fréquences représente les fréquences observées d’une variable x.

39
Q

Comment écrit-on « La probabilité que la valeur aléatoire x (discrète) prenne la valeur xi ést égale à p(xi) »

A

P(X = xi) = p(xi) pour i=1…., k

40
Q

Comment appelle-t-on le nom d’une distribution de probabilité pour une variable aléatoire discrète ?

A

Fonction de masse

41
Q

Objectif distribution binomiale

A

Traiter les données qualitatives issues d’une population composée de deux catégories d’éléments.

Dénombrement, proportions et pourcentages constituent donc des applications de cette loi.

42
Q

Fonction de masse la plus utilisée en statistiques appliquées

A

Distribution binomiale

43
Q

Comment écrit-on la distribution binomiale (en stats)

A

B(n,p)

n = échantillon
p = probabilité de l’événement dans la population (prévalence)

44
Q

Moyenne d’une distribution binnomiale

A

E(X) = np

45
Q

Variance d’une distribution binomiale

A

Var(X) = np(1-p)

1-p = échec
p = réussite

46
Q

Distribution pour une variable qualitative avec 2 catégories d’événements

A

Distribution binomiale

47
Q

Vrai ou faux : avec une variable aléatoire continue, la probabilité d’une valeur très spécifique dans un intervalle est égale à 0

A

Vrai.
Nombre infini de variables dans un intervalle de variables continues.

48
Q

Comment appelle-t-on le nom d’une distribution de probabilité pour une variable aléatoire continue ?

A

Fonction de densité

49
Q

Qu’est-ce qu’une fonction de densité ?

A

La fonction de densité d’une v.a. est donc une formule qui définit une courbe.

La probabilité que X soit incluse dans un intervalle particulier est à son tour définie par la surface sous la courbe de la fonction de densité, entre les deux points délimitant l’intervalle.

50
Q

Distribution des probabilités la plus utilisée

A

Distribution normale

51
Q

Par quoi est définie la distribution normale

A

Moyenne et variance (et donc l’écart-type)

52
Q

Comment écrit-on la distribution normale

A

N (u, sigma au carré)
N (moyenne, variance)

53
Q

Comment se comporte la courbe (distribution normale) si la moyenne change ?

A

Translation de la courbe

54
Q

Comment se comporte la courbe (distribution normale) si l’écart-type change

A

Quand l’écart-type augmente, la courbe s’étire (plus grande dispersion)
Quand l’écart-type diminue, la courbe monte (plus petite dispersion).

55
Q

Plus la variance est petite ______ est la précision

A

Plus la variance est petite, meilleure est la précision

56
Q

Propriété importante de la loi normale

A

La variable aléatoire (Z) = (x-u)/écart-type suit une loi normale N(0,1)

57
Q

Vrai ou faux : quand la courbe est symétrique, la médiane, le mode et la moyenne sont confus

A

Vrai

58
Q

Vrai ou faux : Les probabilités de Z deviennent de plus en plus faibles au fur et à mesure que z croît en valeur absolue;

A

Vrai

(courbe en cloche, plus Z augmente, plus l’aire sous la courbe diminue)

59
Q

Exercice variable normale

Supposons que le taux de glucose (à jeun) chez les diabétiques suit une distribution normale avec une moyenne de 105 mg par 100 ml et une variance de 81 mg2 par 100 ml.

On peut calculer la probabilité qu’un diabétique ait un taux de glucose plus élevé que 110 mg par 100 ml.

A

P(X > 110)= P( (X-105)/9 > (110-105)/9 ) = P (Z > 0,56), Z est N(0,1)
=0,288 (on trouve dans la table le Z le plus proche de la valeur obtenue pour trouver la probabilité)

9 = écart type
81 = variance