GLM Flashcards

1
Q

GLM définition

A

Les GLM relient la moyenne de la variable target linéairement à un ensemble de variables prédictives via une fonction lien. La variable target n’est pas transformée en soi. Le résultat du GLM est une équation qui démontre comment la moyenne prédite de la variable target dépend des variables prédictives

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

5 Avantages GLM

A
  1. Accomode une variété de distributions
  2. Facile à interpréter
  3. Permet de retirer les variables qui ont une faible valeur prédictive.
  4. Indique l’impact et la direction des changement dans chaque variable retenue
  5. Moins tendance à overfit que Decision tree
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

6 Désavantages GLM

A
  1. Assume que les effets directionnels sont monotones (Augmente ou diminue seulement)
  2. Ne capture pas les relations non-linéaires ( interactions et corrélation)
  3. Les variables prédictives doivent être non corrélées
  4. Sensible aux valeurs extrêmes
  5. Peu prédictif
  6. Ne choisit pas les features sans stepwise selection.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Ordinary linear model

definition

A

Combinaison linéaire d’un ensemble de coefficients et de variables explicatives, dont la valeur est utilisée pour prédire le outcome d’une variable dépendante.
* Special case GLM Normal with identity link

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

3 OLS key assumptions

A
  1. Moyenne symétrique
  2. Continue
  3. Assume des valeurs positives et négatives
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

4 Assumptions pour les résidus de OLS

A
  1. Distribution normale
  2. Moyenne à 0
  3. Variance Constante (Homoscedacité …voir Validation plots)
  4. Résidus et prédicteurs non corrélés.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

OLS vs GLM

A

Linéaire : changement prévu dans la réponse du changement d’unité dans le prédicteur correspondant.
Chaque observation suit une distribution normale qui a une moyenne égale au prédicteur linéaire
GLMs: Si log link fonction, changement prévu dans la réponse est multiplicative par facteur de , e-β.. Autres fonctions de lien, pas aussi simple.
Chaque observation suit une distribution exponentielle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Interprétation Normal lien identité pour la variable Latitude
Nb de médailles = -54 + 0.523* (Latitude) + 0,003(élévation)

A

Pour chaque degré de latitude, le nombre de médaille moyen augmente par 0,523 en moyenne, tout étant égal par ailleurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Canonical link

A

Résultats plus rapidement et plus probable de converger

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Offset

A

Hypothèses :
1. Poisson
2. Log(canonical)
3. Offset : Exposure (policy period nombre de jours)
C’est une variable qui sert à tenir compte des différentes périodes d’exposition de différentes observations pour avoir une prédiction plus précise

Coefficient de 1
La valeur de la Target variable est le nombre total de claim en $

La prédiction est de 0.0035 par assuré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Offset

A

Hypothèses :
1. Poisson
2. Log(canonical)
3. Offset : Exposure (policy period nombre de jours)
C’est une variable qui sert à tenir compte des différentes périodes d’exposition de différentes observations pour avoir une prédiction plus précise

Coefficient de 1
La valeur de la Target variable est le nombre total de claim en $

La prédiction est de 0.0035 par assuré

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Weight

A

Donne de l’information sur la crédibilité de chaque observation.
Une observation peut avoir en moyenne 10 chauffeurs et une autre en moyenne 100 chauffeurs

Target variable: ratio (par exposition) (façon de traiter les données)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly