GLM Flashcards
GLM définition
Les GLM relient la moyenne de la variable target linéairement à un ensemble de variables prédictives via une fonction lien. La variable target n’est pas transformée en soi. Le résultat du GLM est une équation qui démontre comment la moyenne prédite de la variable target dépend des variables prédictives
5 Avantages GLM
- Accomode une variété de distributions
- Facile à interpréter
- Permet de retirer les variables qui ont une faible valeur prédictive.
- Indique l’impact et la direction des changement dans chaque variable retenue
- Moins tendance à overfit que Decision tree
6 Désavantages GLM
- Assume que les effets directionnels sont monotones (Augmente ou diminue seulement)
- Ne capture pas les relations non-linéaires ( interactions et corrélation)
- Les variables prédictives doivent être non corrélées
- Sensible aux valeurs extrêmes
- Peu prédictif
- Ne choisit pas les features sans stepwise selection.
Ordinary linear model
definition
Combinaison linéaire d’un ensemble de coefficients et de variables explicatives, dont la valeur est utilisée pour prédire le outcome d’une variable dépendante.
* Special case GLM Normal with identity link
3 OLS key assumptions
- Moyenne symétrique
- Continue
- Assume des valeurs positives et négatives
4 Assumptions pour les résidus de OLS
- Distribution normale
- Moyenne à 0
- Variance Constante (Homoscedacité …voir Validation plots)
- Résidus et prédicteurs non corrélés.
OLS vs GLM
Linéaire : changement prévu dans la réponse du changement d’unité dans le prédicteur correspondant.
Chaque observation suit une distribution normale qui a une moyenne égale au prédicteur linéaire
GLMs: Si log link fonction, changement prévu dans la réponse est multiplicative par facteur de , e-β.. Autres fonctions de lien, pas aussi simple.
Chaque observation suit une distribution exponentielle
Interprétation Normal lien identité pour la variable Latitude
Nb de médailles = -54 + 0.523* (Latitude) + 0,003(élévation)
Pour chaque degré de latitude, le nombre de médaille moyen augmente par 0,523 en moyenne, tout étant égal par ailleurs.
Canonical link
Résultats plus rapidement et plus probable de converger
Offset
Hypothèses :
1. Poisson
2. Log(canonical)
3. Offset : Exposure (policy period nombre de jours)
C’est une variable qui sert à tenir compte des différentes périodes d’exposition de différentes observations pour avoir une prédiction plus précise
Coefficient de 1
La valeur de la Target variable est le nombre total de claim en $
La prédiction est de 0.0035 par assuré
Offset
Hypothèses :
1. Poisson
2. Log(canonical)
3. Offset : Exposure (policy period nombre de jours)
C’est une variable qui sert à tenir compte des différentes périodes d’exposition de différentes observations pour avoir une prédiction plus précise
Coefficient de 1
La valeur de la Target variable est le nombre total de claim en $
La prédiction est de 0.0035 par assuré
Weight
Donne de l’information sur la crédibilité de chaque observation.
Une observation peut avoir en moyenne 10 chauffeurs et une autre en moyenne 100 chauffeurs
Target variable: ratio (par exposition) (façon de traiter les données)