Chapitre 10: Classification multivariée Flashcards

1
Q

Problème méthodes de classification univariées ?

A
  1. Biais lié à la corrélation entre les variables
  2. Incluent à la fois les effets non-systématiques (bruit) et les effets systématiques (signal)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Raisons derrières l’adoption des méthodes multivariées ? (3)

A
  1. Avancées en informatique
  2. Bases de données plus segmentées disponibles
  3. Compétition
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Bénéfices des méthodes de classification multivariées ? (4)

A
  1. Les méthodes de classification considèrent toutes les variables simultanément et ajustent automatiquement pour la corrélation entre les variables de tarification.
  2. Les méthodes de classification multivariées tentent d’éliminer les effets non-systématiques (le bruit) et de capturer seulement les effets systématiques (signal)
  3. Les méthodes de classification multivariées produisent des diagnostics des modèles (ce qui fournit de l’information additionnelle à propos de la justesse du modèle)
  4. Les méthodes de classifications multivariées permettent d’inclure une considération pour les interactions ou interdépendances entre 2 variables ou +.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Corrélation entre 2 variables ?

A

Distribution des unités d’exposition d’une variable n’est pas la même selon les différents niveaux d’une autre variable de tarification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Interaction entre 2 variables ?

A

Existe lorsque l’effet d’une variable varie selon le niveau d’une autre variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Avantage et désavantage de l’interaction ?

A

Avantage : raffinement du modèle qui peut augmenter significativement le pouvoir prédictif

Désavantage : augmente la complexité d’un modèle et d’un algorithme de tarification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quand ajouter une interaction ?

A

Lorsque le différentiel indiqué selon une variable de tarification est bien différent selon une autre variable de tarification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Variable dépendante (réponse) ?

A

Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Expression de la variable dépendante ?

A

Y = mu + epsilon (terme d’erreur)

Y = (beta1x1 + beta2x2 + beta3x3 + beta4x4) + epsilon

Le terme d’erreur suit une N(0, sigma^2)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Principes d’un GLM?

A
  1. GLM supprime les restrictions de loi normale et de variance constante
  2. Permet une fonction de lien autre que additive entre la variable dépendante et la combinaison linéaires des variables prédictives (exemple : coût des réclamations a souvent une fonction de lien log, qui assume que les variables sont multiplicatives)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Informations nécessaires GLM?

A
  1. Base de données incluant assez de données et contenant l’information de la variable dépendante associées aux variables prédictives à considérer dans le modèle
  2. Fonction de lien pour définir le lien entre les composantes systématiques et aléatoires
  3. Distribution du processus aléatoire sous-jacent (Normal, Poisson, Gamma)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Sur quoi sont faites les GLM?

A

Données de coûts de sinistres
Fréquence et sévérité séparément préférablement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Avantages GLM?

A
  1. Pas besoin de mettre les primes au taux courant (contrairement à la méthode du taux de sinistre)
  2. Permet de valider nos intuitions de fréquence/sévérité, donc permet de mieux distinguer le signal du bruit
  3. Non affectés par les changements de taux/algorithme de tarification (contrairement à la méthode du taux de sinistre)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Tests de diagnostic sur les graphiques?

A
  1. Graphique du calcul de l’écart-type (courbes de l’écart-type suivent la même tendance que la prédiction du GLM et intervalles de confiance serré)
  2. Consistance d’une année à l’autre
  3. Résultat espéré prédit par le modèle vs résultat historique sur un échantillon de validation
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Impact de retenir des variables qui reflètent un effet non-systématique dans le modèle dans le GLM?

A

Les résultats du GLM ne seront pas prédictifs.
Le modèle sera bon sur les données utilisées pour la modélisation, mais sera mauvais sur l’échantillon de validation, car cette échantillon ne contient pas le même bruit (overfitting)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Impact de ne pas retenir de variables importantes dans le GLM?

A

Le modèle va bien prédire les résultats futurs, mais ne pointera pas vers les variables qui impactent les coûts (underfitting).

Le cas extrême serait un modèle sans aucune variable qui prédit toujours la moyenne.

17
Q

Test diagnostic avec test statique?

A

Chi-square (regarder l’augmentation de la précision du modèle versus la complexité d’avoir ajouter un paramètre supplémentaire à estimer)

  1. Construire un modèle sans la variable et un avec la variable
  2. Fixer l’hypothèse nulle, soit que les deux modèles sont égaux
  3. Conclusions du test
    Chi-Sqare < 5% : rejeter hypothèse nulle et utiliser le modèle avec un paramètre supplémentaire
    Chi-Square > 30% : ne pas jeter l’hypothèse nulle et comme les deux modèles sont égaux, choisir celui qui n’inclut pas le paramètre supplémentaire
    5% < Chi-Square < 30% : non-concluant
18
Q

Rôle de l’actuaire avec les GLM?

A
  1. S’assurer que les données sont adéquates pour le niveau de détails de l’analyse de tarification
  2. Identifier lorsque des résultats irréguliers nécessitent une explication supplémentaire
  3. Revoir le modèle en ayant en tête les considérations statistiques et l’application pour la compagnie
  4. Développer des méthodes de communication des résultat appropriées en terme d’objectifs de tarification de la compagnie (dislocation, compétitivité, etc.)