Visualisation et prétraitement Flashcards

1
Q

Lorsqu’on veut représenter la relation entre deux variables continues, quel type de graphique est le plus approprié?
A.
Un diagramme en pointe de tarte
B.
Un diagramme en boîtes à moustaches
C.
Un histogramme
D.
Un diagramme en nuage de points
E.
Une densité
F.
Un diagramme à bandes

A

Un diagramme en nuage de points

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Lorsqu’on veut représenter une variable continue “Montant” en fonction d’une variable catégorielle “Âge” à 3 niveaux, quels types de graphiques sont appropriés parmi les suivants?
A.
Un nuage de points avec les esthétiques y = Montant et x = Âge
B.
Un diagramme en boîtes à moustaches avec les esthétiques y = Montant et x = Âge
C.
Des densités (estimées par noyau) avec les esthétiques y = Montant et couleur fill = Âge
D.
Des histogrammes avec l’esthétique x = Montant et une facette pour chaque catégorie d’âge
E.
Un diagramme en pointe de tarte avec l’esthétique fill = Montant et une facette pour chaque catégorie d’âge
F.
Un diagramme à bandes avec l’esthétique y = Montant et x = Âge

A

B, C et D

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Placez les repères visuels suivants dans l’ordre du plus clair au moins clair pour l’oeil humain.

A

1- La position sur une même échelle (variable numérique), souvent à l’aide de points ou de boîtes à moustaches.

2- La position sur une échelle identique mais non alignée (variable numérique), par exemple lorsqu’on utilise des facettes.

3- La longueur sur une même échelle (variable numérique), par exemple, dans un diagramme à bande ou un histogramme.

4- L’angle ou la pente (variable numérique), par exemple, en représentant les données sous forme de lignes.

5- La forme des points (variable catégorielle) peut représenter le groupe.

6- L’aire ou le volume (variable numérique), par exemple la taille des points ou les diagrammes en pointe de tarte.

7- La saturation de la couleur (numérique ou catégorielle) peut représenter “à quel point” sur une échelle de clair à foncé.

8- La teinte de couleur (numérique ou catégorielle).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Quels types de graphiques sont appropriés lorsqu’on veut montrer la relation entre une variable discrète, le nombre de visites chez le médecin, et une variable catégorielle, le sexe?

A

Un diagramme à bandes de la fréquence du nombre de visites chez le médecin avec une facette selon le sexe.

Un diagramme à bandes de la fréquence du nombre de visites chez le médecin avec une couleur de remplissage qui varie selon le sexe.

Un diagramme à bandes de la distribution du nombre de visites chez le médecin (c’est-à-dire la proportion pour chaque valeur discrète) avec une facette selon le sexe.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Un échelle de couleur séquentielle est plus appropriée pour des données numériques ou ordinales que pour des données nominales. Vrai ou faux?

A

Vrai.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

De quels types peuvent être les variables d’un jeu de données structurées?

A
  1. Numérique ou quantitative
  2. Catégorielle ou qualitative ou facteur
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Parmi les variables numériques ou quantitatives, quels sont les deux types?

A
  1. Continue
  2. Discrètes
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Parmi les variables catégorielles, qualitatives ou facteur, quels sont les deux types?

A
  1. Nominale (ex : couleur, sexe)
  2. Ordinale (ex : groupes d’âges, petit moyen gros)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

C’est quoi des données non structurées?

A

Du texte libre, des images, des vidéos ou du son.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vrai ou faux : L’ordre alphabétique est un bon ordre pour une variable catégorielle.

A

Faux (mais c’est ce qu’il y a par défaut dans R donc à changer)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles sont les étapes du nettoyage de données?

A
  1. Comprendre la structure des données
  2. Visualiser les données
  3. Mettre en forme les données
  4. Vérifier et corriger les types de variables
  5. Manipuler les chaînes de caractères
  6. Identifier les données aberrantes
  7. Détecter les erreurs flagrantes ou les changements structurels
  8. Augmenter les données (optionnel) à l’aide d’autres sources
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vrai ou faux: On peut changer directement les données originales.

A

Faux.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les 4 différentes formes de biais?

A
  1. Biais d’échantillonnage
  2. Biais de stéréotypes
  3. Biais de mesure
  4. Biais d’un estimateur ou d’un modèle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Explique ce qu’est le biais d’échantillonnage.

A

Création d’échantillons pas représentatifs (ex : utiliser juste des réclamations fermées dans un modèle de réserves)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Explique ce qu’est le biais de stéréotypes.

A

Les données réflètent des stéréotypes (ex : black vs white people)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Explique ce qu’est le biais de mesure.

A

Erreur dans les données genre je me suis trompée dans le questionnaire.

17
Q

Explique ce qu’est le biais d’un estimateur.

A

Des variables significatives ne sont pas considérées ou le modèle n’est pas flexible.

18
Q

Au Québec, peut-on discriminer certaines personnes sur quelques caractéristiques?

A

Toute discrimination est proscrite, sauf en assurance s’il y a :
- usage légitime (sexe, âge, état civil)
- facteur de détermination de risque basé sur des données actuarielles

19
Q

Quel type de variable est :
Niveau de revenu de la maisonnée (0 à 24 999, 25 000 à 49 999, 50 000 à 74 999, plus de 75 000)?

20
Q

Quel type de variable est :
Énergie du véhicule (Électrique, Hybride, Diesel, Gazoline)?

A

Catégorielle

21
Q

Quel type de variable est : Type de véhicule (VUS, pickup, berline, compacte, semi-compacte, convertible, autre)?

A

Catégorielle

22
Q

Quel type de variable est : Valeur à neuf du véhicule?

A

Numérique continue.

23
Q

Quel type de variable est :
Coordonnées GPS de la résidence principale du détenteur de police?

24
Q

Quel type de variable est :
Enregistrement de l’appel pendant lequel la soumission a été effectuée?

A

Non-structurée

25
Q

Quel type de variable est : Émission de la police AAAA-MM-JJ?

A

Temporelle

26
Q

Quel type de variable est :
Nombre de réclamations dans les 5 dernières années?

A

Numérique discrète

27
Q

Quel type de variable est :
Âge du détenteur de police?

A

Numérique discrète

28
Q

L’animateur de radio Eric Duhaime fait un sondage sur sa page Facebook concernant l’appui des résidents de Québec au projet de 3e lien. Son estimation du pourcentage d’appui au projet sera-t-il biaisé et si oui, quel est le type de biais?

A

Biais d’échantillonnage.

29
Q

Un actuaire oeuvrant dans une compagnie d’assurance IARD voudrait créer un modèle pour déterminer la réserve initiale “Case Reserve” pour des sinistres en habitation. Les “Case Reserves” sont présentement établis par des experts en réclamation. Un des experts très souvent appelé à évaluer les sinistres dans la ville de Québec, Robert, a tendance à toujours surestimer les coûts, lorsqu’on compare avec ses collègues.

L’actuaire utilise directement les “Case Reserves” comme variable réponse dans son analyse et se base sur les caractéristiques du sinistre disponible pour faire les prévisions, par exemple la région, la valeur de la demeure et le type de sinistre. Pensez-vous que l’analyse sera biaisée? Cochez la phrase qui est correcte.

A. L’analyse sera sans biais puisque l’actuaire a contrôlé pour les caractéristiques du sinistre en les incluant dans le modèle.
B. Il y aura un biais d’échantillonnage dans cette analyse.
C. L’actuaire surestimera les “Case Reserves” pour les sinistres de la région de Québec, à cause de biais de mesure créé par Robert.
D. L’actuaire sous-estimera les “Case Reserves” pour les sinistres évalués par Robert, à cause de biais d’échantillonnage.
E. Les “Case Reserves” seront sous-estimées pour les sinistres de la région de Québec, à cause du biais de stéréotype dans cette analyse.

30
Q

Marie-Pier voudrait savoir si les étudiants de premier cycle en actuariat sont intéressé par l’intelligence artificielle. Elle fait un sondage parmi les 32 étudiants dans le cours optionnel ACT-3114 et conclut que 90% des 300 étudiants au baccalauréat en actuariat sont intéressés par ce sujet. Quelle phrase suivante s’applique le mieux à la situation?

A. Marie-Pier a raison, ce sujet est vraiment intéressant selon 90% des étudiants de 1er cycle en actuariat.
B. Marie-Pier a besoin de se rappeler de ce qu’est un biais d’échantillonnage: c’est urgent.
C. Il y a un biais de stéréotype dans cette étude puisque seulement 7 femmes ont répondu au sondage et les individus genrés féminin sont bien évidemment moins intéressés par ce sujet.