6. Segmentation Flashcards

1
Q

Nommer les objectifs d’un système de classification des risques?

A

Créer une bonne segmentation des risques pour :
- être compétitif sur le marché
- éviter l’anti-sélection
- améliorer la stabilité financière

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Nommer 6 caractéristiques de classification désirables

A
  • Causalité entre la caractéristique de risque et les sinistres espérés
  • Objectivité
  • Pratique (mesurable et facile à vérifier)
  • Applicable selon la loi
  • Éthique
  • Selon les pratiques de l’industrie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Donner une définition de la sélection adverse et comment un assureur peut être victime de sélection adverse.

A

La sélection adverse se produit lorsque des actions sont entreprises par une partie ayant plus d’information dans le but de créer un avantage financier.

Les assureurs peuvent être victimes de sélection adverse si leur système de classification des risques n’est pas à point. Les “mauvais” risques achèteront de l’assurance et les “bons” risques iront ailleurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

On vous demande de juger la pertinence d’une certaine classe de risque. Par exemple, les homme de 78 ans ayant eu 2 accidents dans la dernière année. Nommer 4 critères sur lesquels vous pourriez baser votre analyse de classe de risque.

A
  • Crédibilité : pas un groupe très crédible
  • Homogénéité : Probablement très homogène
  • Stabilité : Peu stable d’année en année
  • Réactivité : Trop …
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dans un GLM, on assume que la variable réponse suit une distribution. Quelles sont les distributions possible? Des exemples?

A

Une distribution qui fait partie de la famille exponentielle. Normale, Gamma, log-normale, binomiale, binomiale négative, Poisson, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quel est le lien entre la distribution de la variable réponse et la prédiction du modèle?

A

La prédiction du GLM sera l’espérance de la distribution pour une certaine observation. On peut ensuite s’attendre à ce que l’observation suive la distribution avec l’espérance donnée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que le prédicteur linéaire?

A

g(u) = B_0 + B_1 * x_1 + B_2 * X_2 + …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que la fonction de lien?

A

C’est la fonction qui fait le lien entre le prédicteur linéaire et la moyenne (u) de la distribution : la prédiction.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quel est l’intérêt principal de la fonction de lien?

A

Borner le domaine de la prédiction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pourquoi la fonction de lien log est-elle aussi populaire?

A

Elle produit un modèle multiplicatif.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Comment retrouve-t-on la variance de la distribution que suit la variable réponse?

A

En multipliant le paramètre de dispersion avec la fonction de variance V(u)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Définir l’écart-type associé à un coefficient beta qui est produit avec le modèle.

A

Un coefficient est le résultat d’un processus aléatoire. Si ce processus était répété un grand nombre de fois, l’écart-type du coefficient serait de tant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Définir une p-value et son utilité

A

Puisqu’un coefficient est obtenu d’un processus aléatoire, il est possible que sa véritable valeur soit de 0, mais qu’on ait obtenu une valeur différente simplement par chance. La p-value quantifie la probabilité que la valeur du coefficient soit 0 et que la valeur obtenue ne soit qu’un résultat aléatoire. Elle permet donc d’identifier les variables significatives dans un modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce qu’un interval de confiance ?

A

Interval de confiance : Plage de valeurs du coefficients pour lesquelles, l’hypothèse nulle avec un seuil de valeur p ne serait pas rejetée.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pourquoi prendre le logarithme d’une variable explicative est-il parfois désirable lorsqu’on travaille avec la fonction de lien log?

A

En prenant le logarithme de la variable explicative, on se retrouve à avoir une relation linéaire en la variable réponse et la variable explicative.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Dans un GLM utilisant la fonction de lien logarithmique, vous avec la variable AOI, et vous utilisez le logarithme de cette variable dans le modèle. Si le coefficient de cette variable est 0.8, quel est l’effet de double le montant d’assurance? De le quadrupler?

A

Doubler : 2^0.8 = 1.74 fois plus grand
Quadrupler : 4^0.8 = 3.03 fois plus grand

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Comment traiter une variable catégorielle? Comment interpréter un coefficient de 0.34 si la fonction de lien est logarithmique?

A

l’interprétation des résultats pour les variables catégorielles est toujours relatif au niveau de base (qui n’a pas de coefficient).

Un coefficient de 0.34, donne une prédiction de exp(0.34) = 1,405. Donc, une augmentation de 40,5% de la _____ (fréquence, sévérité) (1,405 - exp(0) (niveau de base)/100) relatif au niveau de base.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quand on travaille avec une variable catégorielle, la sélection du niveau de base a-t-il un impact?

A

Oui!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Comment traiter les poids dans un GLM? Quel est l’impact d’inclure ceux-ci et quand veut-on les inclure?

A

Inclure les poids, impact la variance de la distribution choisie (Y_i).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Comment traiter un offset dans un GLM? Quel est l’impact d’inclure celui-ci et quand veut-on l’inclure?

A

Impacte la moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Décrire les options de distribution pour un GLM pour modéliser une variable continue et dans quelles situations sont-elles les meilleures

A

Gamma, inverse Gaullienne. Modéliser le montant de réclamations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Décrire les options de distribution pour un GLM pour modéliser une variable de fréquence et des exemples de situation où elle sont appropriées

A

Les distributions de fréquence sont : Poisson, Binomiale négative. Modéliser le nombre de réclamations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Décrire les options de distribution pour un GLM logistique et des exemples de situation où elle sont appropriées

A

Binomiale avec fonction de lien logis/logistique.

24
Q

C’est les odds pour un modèle logistique ?

A

Les ods = U/(1-U),

La fonction de lien pour un modèle logistique est

ln [U/(1-U)] = B_0 + B_1 *X_1 + B_2 * X_2 + …

les ods = exp(B_0 + B_1 *X_1 + B_2 * X_2 + …_

25
Q

Est-ce problématique d’inclure des variables corrélées dans un GLM?

A

Un GLM peut gérer des corrélations entre certaines variables, c’est même sa force par rapport aux techniques univariées. Cependant, si la corrélation est trop forte, il aura de la difficulté et pourrait devenir instable.

26
Q

Qu’est-ce que la multicolinéarité?

A

La multicolinéarité désigne une situation où deux ou plusieurs prédicteurs dans un modèle sont fortement prédictifs d’un troisième, entraînant une instabilité dans le modèle, même si ces prédicteurs ne sont pas fortement corrélés individuellement, ce qui complique leur détection à l’aide d’une matrice de corrélation.

Statistique pour déterminer la multicolinéarité est : VIF (variance inflation factor)

27
Q

Qu’est-ce que le VIF?

A

Le VIF (facteur d’inflation de la variance) est une statistique utilisée pour détecter la multicolinéarité, mesurant l’augmentation de l’erreur standard d’un prédicteur due à la collinéarité avec d’autres prédicteurs. Un VIF supérieur à 10 est généralement considéré comme élevé, nécessitant une analyse approfondie de la structure de collinéarité pour décider comment gérer ce problème dans le modèle.

28
Q

Nommer 2 limitations des GLM

A
  • Ils assignent une pleine crédibilité aux données
  • Ils assument que la composante aléatoire d’une observation est indépendante de la composante aléatoire des autres observations (violer quand il y a plusieurs instances de la même police dans les données ou un évènement qui a affecté plusieurs risques)
29
Q

La construction d’un modèle peut être divisées en 9 étapes, en nommer au moins 5.

A
  1. Déterminer les objectifs
  2. Communiquer avec les parties prenantes
  3. Collecte et traitement des données
  4. Analyse exploratoire des données
  5. Spécifier la forme du modèle
  6. Évaluer l’extrant du modèle
  7. Valider le modèle
  8. Transformer le modèle en produit
  9. Réévaluer le modèle et le reconstruire
30
Q

Décrire les données nécessaire pour construire un modèle de classification des risques (p.e. GLM)

A

Les données de réclamation doivent être sur une base individuelle.
Il doit être possible d’associer la perte à une police : il faut les informations de police qui sont associées à la réclamation.

31
Q

Votre gestionnaire vous demande s’il serait préférable de construire un modèle pour la sévérité et un modèle pour la fréquence ou tout simplement un seul modèle pour la prime pure. Quelles seraient les différentes choses à considérer dans votre réponse?

A
  • Il est possible que les données pour construire des modèles freq/sev ne soient pas disponibles
  • Construire et entretenir deux modèles prend plus de temps et d’énergie
  • Il est possible que certains signaux dans les données soient mieux captés par la stratégie à deux modèles
  • Les modèles freq/sev sont généralement plus stables
  • Un modèle de prime pure a parfois tendance à “overfit” les données quand une variable est significative pour la fréquence, mais pas la sévérité (ou vice-versa)
  • La distribution tweedie assume que la sévérité et la fréquence vont dans la même direction, ce qui n’est pas toujours vrai.
32
Q

Il est généralement conseiller de construire un modèle de fréquence et un modèle de sévérité. Quelle autre considération pourrait pousser votre compagnie à construire plusieurs modèles de classification?

A

Il peut être désirable d’avoir un modèle par type de risque : responsabilité civile, bâtiment, contenu.

Il peut même être désirable d’avoir un modèle par péril : (par exemple, feu, eau, vent pour le type de risque “bâtiment”)

33
Q

On vous fourni des données de réclamations pour les années 2020-2023. Les pertes ont été développées, projetées et les primes sont projetées et à niveau. Quelles autres transformations (2) sur votre variable cible pourraient être considérées avant de construire un modèle?

A
  • Capper les réclamations (enlever les pertes majeures)
  • Enlever les catastrophes et les traiter d’une autre façon
34
Q

Nommer 3 façons de gérer la non-linéarité entre la variable réponse et une des variables explicatives d’un GLM. Nommer une limite de chaque méthode

A
  1. Regrouper la variable continue (traiter la variable continue comme une variable catégorielle, de cette façon un coefficient va être estimé pour chaque niveau)
    • N’assure pas la continuité (reversal) (les coefficients de chaque niveau sont estimés indépendamment des autres)
  2. Utiliser des termes polynomiaux
    • Perte d’interprétabilité
    • Comportement erratique dans les extrêmes
  3. Utiliser une fonction linéaire par morceaux
    • Les “breakpoints” doivent être sélectionnés manuellement
35
Q

Nommer deux statistiques qui permettent d’évaluer l’ajustement d’un GLM sur les données d’entrainement et une petite définition.

A
  1. Log-vraisemblance
  2. Déviance
    • Deux fois la différence entre la log-vraisemblance du modèle et du modèle saturé
36
Q

Pour faire une étude des résidus, plutôt que d’observer les résidus brutes du GLM, nommer deux autres options et une brève description de celles-ci.

A
  1. Résidus de déviance
    • Résidus ajustés pour la distr. du GLM
  2. Résidus de travail
    • (y - u) * g’(u) : permet de les regrouper
37
Q

On vous demande de comparer deux modèles non-emboîtés, quel test pourriez-vous utiliser?

A

AIC et BIC. Le but est d’avoir le plus petit indice possible.

38
Q

L’étude des résidus d’un GLM peut permettre d’identifier quoi?

A

Du signal dans les données qui n’est pas capté par le modèle. C’est le cas quand les résidus ne semblent pas aléatoires. Il est alors possible de considérer un changement de distribution ou de nouvelles variables.

39
Q

Il peut être possible de “plot” les résidus d’un GLM en fonction de 3 éléments différents. Nommer les et ce qu’on peut observer en les utilisant.

A
  • Prédicteur linéaire
  • Les valeurs d’une variable du GLM
  • Le poids
40
Q

Nommer 3 des 6 critiques des GLM en assurance

A
  • Pleine crédibilité aux données
  • Prédiction d’un risque dépend des données dans différents segments
  • Les prédictions dépendent de la mixture de paramètres dans les données
  • L’estimé du maximum de vraisemblance est plus bas que la moyenne
  • Fonction de lien peut biaiser les extrêmes
  • Les diagnostiques de modèle sont seulement valides dans les segments utilisés
41
Q

Nommer 3 méthodes de régularisation utilisées avec les GLM’s et une brève description de leur utilité

A

Lasso, Ridge et Elastic net
Ces méthodes de régularisation remplacent la fonction de pénalité utilisée dans l’optimisation des paramètres pour une formule qui pénalise les modèles avec un plus grand nombre de paramètres ou les coefficients les plus élevés. LASSO et Elastic Net peuvent même permettre de faire de la sélection de variable en réduisant les coefficient à 0. L’objectif principal d’utiliser la régularisation est d’éviter le surajustement.

42
Q

Nommer les limites des modèles CART

A
  • Arbre instable avec peu de puissance prédictive en dehors des données d’entrainement
  • Manque de “smoothness”
43
Q

Quelle est la différence entre le bagging de modèles CART et les forêts aléatoires?

A

Il y a une restriction sur les variables utilisables à chaque arbre pour les forêts aléatoires

44
Q

Décrire en quelques mots ce qu’un GBM fait de différent par rapport à une forêt aléatoire

A

Les arbres sont séquentiels et s’entraînent sur des résidus ajustés. Les résidus ajustés sont les résidus initials soustraient des prédictions de tous les arbres précédents.

45
Q

Les modèles comprenant plusieurs arbres sont plutôt difficiles à interpréter, comment est-ce possible d’avoir une idée des meilleures variables?

A

La feature importance se retrouve en additionnant la contribution de chaque variable à la prédiction et en comparant les variables entre elles pour lesquelles contribuent le plus à la prédiction finale

46
Q

Nomme 2 problèmes de la classification à 1 variable

A
  • On ne peut pas ajuster les données pour le biais de distribution
  • On ne peut pas ajuster les données pour la dépense entre les variables
47
Q

Qu’est-ce que le biais de distribution?

A

Biais distributionnel : Quand la distribution en exposition des classes d’une caractéristique est différente pour les classes d’une autre variable.

Conducteurs Homme Femme
Jeune 700 300
Vieux 500 500

Sans ajustement, un biais distributionnel mènera à un double-compte avec l’analyse simple par tableau. Il est possible d’utiliser la procédure du biais minimum.

48
Q

Qu’est-ce que la dépendance?

A

Dépendance : Quand savoir la classe de risque d’une autre caractéristique influence la relativité d’une autre caractéristique de risque. Par exemple, si un jeune conducteur coûte 20% plus cher que le conducteur moyen, mais qu’un jeune homme coûte 30% plus cher que le conducteur moyen, il y a dépendance.

49
Q

Lequel des 2 problème est géré par l’approche du minimum biais ?

A

La procédure du biais minimum ne permet pas de gérer la dépendance. Plus il y aura de variables, plus il sera difficile de gérer les dépendances.

50
Q

Est-il possible de comparer 2 modèles par log-vraisemblance ou déviance qui n’ont pas exactement le même jeu de données ?

A

Non, pour utiliser le log-vraisemblance ou la déviance comme statistique de comparaison il faut que les données utilisées pour construire les 2 modèles soient identiques

51
Q

Quel test statistique est effectué pour comparer 2 modèles emboités ?

A

Le test F

52
Q

Ajouter une variable prédictive à un GLM va augmenter ou diminuer la déviance du nouveau modèle?

A

Diminuer la déviance, le modèle sera plus raffiné, donc la nouvelle déviance se rapprochera davantage de la déviance du modèle saturé (modèle avec toutes les variables explicatives)

53
Q

Quel est l’équation de l’AIC et BIC

A

AIC = -2 * log-vraisemblance + 2 * P
BIC = -2 * log-vraisemblance + p * ln(n)

54
Q

Lors de l’analyse graphique des résidus de déviance, quels éléments indique que le modèle est bien ajusté?

A
  1. Les résidus sont aléatoire (y’a rien de prédictble, pas de pattern)
  2. Les résidus sont normalement distribués (homoscedasticité)
55
Q

Explique ce que sont les quantiles plots

A
  • Quantile plots sont utilisés pour visualiser la capacité des modèles à différencier les meilleurs et les pires risques.
  • Étapes pour créer les quantile plots :
    1. Trier les données selon les prédictions du modèle A.
    2. Diviser les données en quantiles égaux (ex : quintiles, déciles).
    3. Calculer les primes pures moyennes prédites et réelles dans chaque quantile.
    4. Tracer ces primes pour le modèle A.
    5. Répéter pour le modèle B.
  • Critères d’évaluation :
    1. Précision prédictive : Comparer la prime prédite avec la prime réelle.
    2. Monotonie : Les primes devraient augmenter progressivement entre les quantiles.
    3. Lift (distance verticale) : Un grand écart entre les quantiles extrêmes montre une meilleure distinction entre les bons et mauvais risques.

Ces critères aident à identifier quel modèle offre la meilleure différenciation des risques.

56
Q

Explique ce que sont les loss ratio chart

A

Exactement la même chose que les quantiles plots, mais c’est des loss ratio au lieu des primes

57
Q

Qu’est-ce que la sensivité et donne un exemple ou on veut la maximiser?

Qu’est-ce que la Spécificité et donne un exemple ou on veut la maximiser?

A

Sensitivité = vrai positifs/tous les positifs

Spécifité = vrai négatifs/tous les négatifs

  • Sensibilité (ou taux de vrais positifs ) : Mesure la capacité du modèle à détecter correctement les événements positifs (ex : identifier les fraudes). Plus le seuil de discrimination est bas, plus la sensibilité est élevée. Par exemple, un seuil à 25% augmente la détection des fraudes, mais génère plus de faux positifs.
  • Spécificité (ou taux de vrais négatifs) : Mesure la capacité du modèle à identifier correctement les événements négatifs (ex : non-fraudes). Un seuil plus élevé maximise la spécificité, en limitant les faux positifs, mais risque de manquer des cas de fraude (faux négatifs).
  • Trade-off entre sensibilité et spécificité : Abaisser le seuil augmente la détection des fraudes (sensibilité) mais augmente aussi les faux positifs. Inversement, augmenter le seuil améliore la spécificité mais diminue la détection des fraudes.