Chapitre 10 - Classification multivariée Flashcards
Est-ce que les méthodes de classification univariées (celles vues plus tôt) tiennent compte de l’effet des autres variables de tarification?
Non, ou si oui, seulement en partie.
Qu’est-ce qui peut poser problème si on utilise la méthode de la prime pure pour calculer un différentiel indiqué par âge du véhicule sans tenir compte de l’âge des assurés?
Il peut y avoir une défaillance illogique où le différentiel est plus élevé pour un véhicule âgé (sinistres espérés pour un véhicule récent sont inférieurs à ceux du véhicule âgé).
Comment peut-on corriger le problème de défaillance de la méthode de la prime pure univariée pour calculer le différentiel indiqué?
Utiliser la méthode de la prime pure bivariée donc ajouter une classe “âge de l’assuré”.
Pourquoi la méthode de la prime pure univariée est biaisée?
Parce que les véhicules âgés sont souvent conduits par des assurés plus jeunes, qui eux tendent à avoir une fréquence de sinistres plus élevée.
Expliquez le problème de défaillance de la méthode de la prime pure univariée.
La méthode de la prime pure univariée ne considère pas la corrélation entre les variables dans les unités d’exposition.
Expliquez le problème de défaillance de la méthode du taux de sinistre.
La méthode du taux de sinistre tient compte partiellement de la distribution du portefeuille puisque la prime varie selon les
différentes variables de tarification, mais la prime chargée n’est qu’un estimé et dévie bien souvent de la vraie espérance de
perte.
Expliquez le problème de défaillance de la méthode de la prime pure ajustée.
La méthode de la prime pure ajustée, elle aussi, ne tient compte que partiellement de la distribution du portefeuille en multipliant
les unités d’exposition par les différentiels actuels.
Quelles sont les 3 circonstances qui ont conduit à l’adoption des méthodes de classification multivariées?
- Avancées en informatique
- Bases de données plus segmentées disponibles
- Compétition
Quels sont les 4 bénéfices des méthodes de classification multivariées?
- Elles considèrent toutes les variables simultanément et ajustent automatiquement pour la corrélation entre les variables de tarification.
- Elles tentent d’éliminer les effets non-systématiques (le bruit) et de capturer seulement les effets systématiques (le signal).
- Elles produisent des diagnostics des modèles.
- Elles permettent d’inclure une considération pour les interactions ou
interdépendances entre deux variables ou plus.
Quelle est la différence entre une interaction entre deux variables et une corrélation entre deux variables?
Une corrélation entre deux variables signifie que la distribution des unités
d’exposition d’une variable n’est pas la même selon les différents niveaux
d’une autre variable de tarification.
Une interaction existe lorsque l’effet d’une variable varie selon le niveau
d’une autre variable. Par exemple, l’effet de l’âge de l’assuré en assurance
automobile peut varier selon le sexe de l’assuré.
Qu’est-ce qui peut augmenter significativement le pouvoir prédictif d’un modèle? Mais quel est le problème résultant?
L’ajout d’interactions dans un modèle est un raffinement qui augmente le pouvoir prédictif, mais elles augmentent aussi la complexité.
Comment exprime-t-on Y dans un modèle linéaire?
Y = mu + epsilon
où mu : moyenne
epsilon : terme d’erreur
Mais Y est une combinaison linéaire de variables prédictives, par exemple :
Y = B1 * X1 + B2 * X2 + B3 * X3 + epsilon
où epsilon suit une normale(0, sig2)
Que supprime les GLM si on les compare aux modèles linéaires?
Les GLM suppriment les restrictions de loi normale et de variance constante.
Que permet le GLM?
Une fonction de lien (« link function ») autre que additive entre la variable dépendante et la combinaison linéaire des variables prédictives.
Que signifie le choix de différentes fonctions de lien?
Que les variables prédictives n’ont pas nécessairement à être additives comme avec les modèles linéaires. Par exemple, des GLMs pour prédire les coûts des réclamations en assurance spécifient souvent une fonction de lien logarithmique qui assume que les variables sont multiplicatives.
Qu’a-t-on besoin pour résoudre un GLM?
- Base de données incluant suffisamment de données et contenant l’information de la variable dépendante associées aux variables prédictives à considérer dans le modèle.
- Sélectionner une fonction de lien pour définir le lien entre les composantes systématiques et aléatoires.
- Sélectionner la distribution du processus aléatoire sous-jacent (ex: Normal, Poisson, Gamma, …).
Est-ce qu’on doit mettre les primes au taux courant pour utiliser les GLM?
Non.
Est-ce que les GLM sont affectés par les changements de taux/algorithme de tarification?
Non, contrairement à la méthode du taux de sinistre.
Dans quelle situation le GLM sera mauvais?
Si des variables qui reflètent un effet non-systématique (du bruit) sont retenues dans le modèle, les résultats du GLM ne seront pas prédictifs. Le modèle sera mauvais sur l’échantillon de validation car celui-ci ne contient pas le même bruit.
Si des variables importantes ont été oubliées dans le modèle, que va-t-il se produire?
Le modèle va bien prédire les résultats futurs, mais ne pointera pas vers les variables qui impactent les coûts. Le cas extrême serait un modèle sans aucune variable qui prédit toujours la moyenne.
Comment peut-on calculer le pouvoir prédictif d’un GLM?
En utilisant des tests statistiques comme le calcul de déviance (ex : Chi Carré).
Comment fait-on un test Chi-Carré?
On fait un modèle avec la variable et un modèle sans la variable. On regarde
l’augmentation de précision du modèle versus la complexité d’avoir un
paramètre supplémentaire à estimer. L’hypothèse nulle est que les deux modèles
sont égaux.
Un % de Chi-Carré inférieur à 5% indique quoi?
Que l’hypothèse nulle doit être rejetée et donc utiliser le modèle avec un paramètre
supplémentaire.
Un % de Chi-Carré supérieur à 30% indique quoi?
Que l’hypothèse nulle ne doit pas être rejetée (i.e. les deux modèles sont égaux).
Comme les deux modèles sont égaux, l’actuaire devrait choisir celui qui n’inclut
pas la variable additionnelle.
Si le % de Chi-Carré est entre 5% et 30%, que conclut-on?
On considère le test non concluant.
Quel est le rôle de l’actuaire en ce qui concerne les GLMs?
- S’assurer que les données sont adéquates pour le niveau de détails de
l’analyse de tarification (« Garbage in = Garbage out »). - Identifier lorsque des résultats irréguliers nécessitent une explication
supplémentaire. - Revoir le modèle en ayant en tête les considérations statistiques et
l’application pour la compagnie. - Développer des méthodes de communication des résultats appropriées
en terme d’objectifs de tarification de la compagnie (dislocation, compétitivité, …).