Chapitre 10: Classification multivariée Flashcards
Problème méthodes de classification univariées ?
- Biais lié à la corrélation entre les variables
- Incluent à la fois les effets non-systématiques (bruit) et les effets systématiques (signal)
Raisons derrières l’adoption des méthodes multivariées ? (3)
- Avancées en informatique
- Bases de données plus segmentées disponibles
- Compétition
Bénéfices des méthodes de classification multivariées ? (4)
- Les méthodes de classification considèrent toutes les variables simultanément et ajustent automatiquement pour la corrélation entre les variables de tarification.
- Les méthodes de classification multivariées tentent d’éliminer les effets non-systématiques (le bruit) et de capturer seulement les effets systématiques (signal)
- Les méthodes de classification multivariées produisent des diagnostics des modèles (ce qui fournit de l’information additionnelle à propos de la justesse du modèle)
- Les méthodes de classifications multivariées permettent d’inclure une considération pour les interactions ou interdépendances entre 2 variables ou +.
Corrélation entre 2 variables ?
Distribution des unités d’exposition d’une variable n’est pas la même selon les différents niveaux d’une autre variable de tarification
Interaction entre 2 variables ?
Existe lorsque l’effet d’une variable varie selon le niveau d’une autre variable
Avantage et désavantage de l’interaction ?
Avantage : raffinement du modèle qui peut augmenter significativement le pouvoir prédictif
Désavantage : augmente la complexité d’un modèle et d’un algorithme de tarification
Quand ajouter une interaction ?
Lorsque le différentiel indiqué selon une variable de tarification est bien différent selon une autre variable de tarification
Variable dépendante (réponse) ?
Y
Expression de la variable dépendante ?
Y = mu + epsilon (terme d’erreur)
Y = (beta1x1 + beta2x2 + beta3x3 + beta4x4) + epsilon
Le terme d’erreur suit une N(0, sigma^2)
Principes d’un GLM?
- GLM supprime les restrictions de loi normale et de variance constante
- Permet une fonction de lien autre que additive entre la variable dépendante et la combinaison linéaires des variables prédictives (exemple : coût des réclamations a souvent une fonction de lien log, qui assume que les variables sont multiplicatives)
Informations nécessaires GLM?
- Base de données incluant assez de données et contenant l’information de la variable dépendante associées aux variables prédictives à considérer dans le modèle
- Fonction de lien pour définir le lien entre les composantes systématiques et aléatoires
- Distribution du processus aléatoire sous-jacent (Normal, Poisson, Gamma)
Sur quoi sont faites les GLM?
Données de coûts de sinistres
Fréquence et sévérité séparément préférablement
Avantages GLM?
- Pas besoin de mettre les primes au taux courant (contrairement à la méthode du taux de sinistre)
- Permet de valider nos intuitions de fréquence/sévérité, donc permet de mieux distinguer le signal du bruit
- Non affectés par les changements de taux/algorithme de tarification (contrairement à la méthode du taux de sinistre)
Tests de diagnostic sur les graphiques?
- Graphique du calcul de l’écart-type (courbes de l’écart-type suivent la même tendance que la prédiction du GLM et intervalles de confiance serré)
- Consistance d’une année à l’autre
- Résultat espéré prédit par le modèle vs résultat historique sur un échantillon de validation
Impact de retenir des variables qui reflètent un effet non-systématique dans le modèle dans le GLM?
Les résultats du GLM ne seront pas prédictifs.
Le modèle sera bon sur les données utilisées pour la modélisation, mais sera mauvais sur l’échantillon de validation, car cette échantillon ne contient pas le même bruit (overfitting)