Règles d'association Flashcards

1
Q

Introduction - Règles d’association

A

Règles d’association : Une des principales catégories de connaissances

Objectif : Trouver des associations ou structures causales entre des ensembles d’items (d’attributs)

Algorithme le plus connu : Apriori
- Extraire l’ensemble des itemsets fréquents
- Générer les règles à partir des itemsets fréquents

Applications typiques :
- Analyse du comportement des clients et recommandation
- Analyse médicale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Définitions - Règles d’association

A

Base : Table de données

O : Ensemble d’objets (ex.: clients, transactions)

I : Ensemble d’items (produits)

X, Y et Z : itemsets (sous-ensembles de I)

Support absolu de Z : Nombre de transactions ayant tous les items de Z

Support relatif de Z : Proportion des transactions ayant tous les items de Z

Itemset fréquent : Itemset dont le support dépasse un seul minimum minsup

k-itemset : itemset de k éléments

Règle X -> Y (s, c)
- X et Y sont des itemsets
- X union Y = ensemble vide
- s est le support de la règle = Prob(X et Y)
- c est la confiance = Prob(Y sachant X)
- Règle fort si s >= minsup(support minimum) et c >= minconf(confiance minimum)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Algorithme Apriori

A

Principe:
- Extraction des itemsets fréquents et leur support
- Génération des règles d’association et leur confiance

Deux propriétés :
- Tous les sur-ensembles d’un itemset infréquent sont infréquents
- Tous les sous-ensembles d’un itemset fréquent sont fréquents

Limites d’Apriori :
- Génération d’un trop grand nombre d’itemsets fréquents et de règles parfois redondantes. Solutions : itemsets fermés fréquents en AFC, etc.

Deux étapes dans le calcul des itemsets fréquents :
- Parcourir la base (table) pour générer les 1-itemsets et leur support. Garder uniquement les itemsets fréquents
- Étape 1 d’auto-jointure (self-join) : Générer les candidats (k+1)-itemsets à partir des k-itemsets fréquents
- Étape 2 d’élagage (pruning) : Élaguer les itemsets non fréquents
- Arrêt : Quand aucun nouvel itemset fréquent ne peut être généré

Génération des itemsets fréquents :
- Génération des itemsets candidats à l’itération k+1
– Étape 1 : Auto-jointure des éléments de l’ensemble Lk des itemsets produits ç l’itérations k
– Étape 2 : Élagage
** Si un nouvel ensemble contient un élément (sous-ensemble) qui n’est pas fréquent, alors il faut l’élaguer

Méthode naïve de génération des règles :
- Pour chaque itemset fréquent Z, créer r : X -> Y (s, c) tel que
– X n’est pas l’ensemble vide et X fait partie de Z
– Y = Z \ X
– X union Y = ensemble vide
– s est le support relatif de l’itemset Z
– c est la confiance de la règle r = support / prob(X)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Mesures de qualité des règles d’association

A

Support : La règle A -> B a pour support p (en %) si p des objets de l’ensemble O contiennent A et B
- Support de A -> B = Prob(A et B)

Confiance : La règle A -> B a pour confiance c si c% des objets de l’ensemble O ayant A ont également B
- Confiance de A -> B = Prob(B/A) = Prob(A et B)/Prob(A)

Attention! La confiance peut induire en erreur
La règle “jouer au basketball -> manger des céréales (40%, 67%)” induit en erreur car déjà 75% (>67%) des étudiants mangent des céréales

Mesure d’intérêt :
- Prob(A et B)/(Prob(A) * Prob(B))
- Tient compte de P(A) et P(B) à la fois
- Prob(A et B) = Prob(B)*Prob(A) si A et B sont indépendants
- A et B sont corrélés négativement si la mesure d’intérêt est inférieure à 1 et corrélés positivement si la mesure dépasse 1
- Nous permet de mesurer l’important d’une règle d’association en terme de causes à effets

How well did you know this?
1
Not at all
2
3
4
5
Perfectly