Prétraitement de données Flashcards

1
Q

Quelle est la raison d’être du prétraitement?

A

Données réelles fréquemment :
- Incomplètes : valeurs manquantes, attributs manquants, données simplifiées
- Bruitées : erronées ou aberrantes
- Incohérentes : Ex. âge = 16 ans et étudiant de doctorat

Garbage in, garbage out!
- La qualité de la fouille et de l’exploration de données dépend de la qualité des données
* Ex., des données incohérentes peuvent aboutir à des
résultats erronés ou trompeurs

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les étapes du prétraitement de données?

A
  1. Épuration (ou nettoyage)
  2. Intégration
  3. Transformation
  4. Réduction
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les tâches du prétraitement?

A

Prétraitement
- Représente une grande part du processus de construction d’un entrepôt de données et de préparation pour la fouille de données
- Plusieurs tâches : extraction, épuration, intégration, transformation, réduction et discrétisation de données

Épuration de données
- Gérer les valeurs manquantes et les incohérences, lisser les données “bruitées”, identifier ou éliminer les exceptions, etc.

Intégration de données
- Intégration de plusieurs fichiers et bases de données

Transformation de données
- Normalisation, agrégation, etc.

Réduction de données
- Réduire le volume des données tout en obtenant des résultats analytiques similaires ou identiques
- Discrétiser les données numériques (ex. salaire en tranches de salaire), génération de hiérarchies de concepts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce que l’épuration des données?

A

Tâches d’épuration
- Compléter les valeurs manquantes (ex. salaire d’un employé)
- Identifier les valeurs aberrantes et lisser les données bruitées (noisy/dirty data)
- Corriger les données incohérentes
- Résoudre les redondances et les incohérences survenues suite à l’intégration de données provenant de diverses sources

Les données sont souvent :
- Incomplètes : valeurs manquantes (ex. fonction inconnue d’un employé), attributs pertinents manquants, présence de données agrégées et non détaillées
- Bruitées : contenant des erreurs et des aberrations (ex. âge d’un employé = 8 ans)
- Incohérentes : comportant des incohérences entre des valeurs d’attributs
* Ex. âge = 25 ans et ancienneté = 20 ans
* Écart entre les valeurs de deux enregistrements se rapportant à une même entité (ex. âge=20 et âge= 35 ans)

Données manquantes
- Aucune valeur ne s’applique (ex. salaire d’un chômeur)
- Problèmes humains, logiciels ou matériels

Données erronées (bruitées) à cause
- d’instruments défaillants de collecte de données
- d’erreurs humaines/logicielles
- d’erreurs de transmission de données

Données incohérentes dues
- à diverses sources de données et règles conflictuelles
- à une violation des contraintes d’intégrité sémantique (ex. dépendance fonctionnelle, intégrité référentielle)

Détection des écarts entre les données
- Utiliser les métadonnées (ex. domaine de valeurs, dépendances, distribution de données) et des programmes faits sur mesure
- Utiliser des outils commerciaux
* Correcteurs, outils ETL (extraction, transformation & loading) comme SSIS, outils statistiques comme Excel, SPSS, …
* Analyser les données pour découvrir celles qui ne vérifient pas des règles de gestion ou des associations (ex. analyse de corrélation et regroupement pour déceler des exceptions)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Comment gérer les valeurs manquantes?

A

Ignorer l’enregistrement
- Solution peu efficace quand le pourcentage de valeurs manquantes par attribut varie considérablement

Compléter manuellement les valeurs manquantes
- fastidieux et parfois non faisable

Compléter automatiquement avec
- Une constante : ex. “inconnu”
- La moyenne de l’attribut (ex. salaire moyen des employés)
- La moyenne de l’attribut pour un groupe d’entités (ex. salaire moyen des analystes)
- La valeur la plus probable : basée sur l’inférence à partir d’arbres de décision ou de réseaux Bayésiens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment gérer les données erronées?

A

Technique de Binning (partitionnement)
- Trier les données et partitionner en blocs (bins) d’égale fréquence
- Lisser par calcul de la moyenne, la médiane, etc.

Régression
- Lisser en ajustant les données par des fonctions de régression

Regroupement (cluster analysis)
- Détecter et éliminer les exceptions

Vérification informatique et humaine
- Détecter les valeurs suspicieuses et faire vérifier par un spécialiste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que le binning?

A

Partitions de largeur égale (distance)
- Diviser l’étendue des valeurs en N intervalles de même largeur
- Si A et B sont la plus faible et la plus élevée valeur de l’attribut, la largeur des intervalles est : L = (B –A)/N.
- Les données biaisées ne sont pas gérées correctement

Partitions d’égale profondeur (fréquence)
- Diviser l’étendue des valeurs en N intervalles contenant approximativement le même nombre d’éléments
- Bonne mise à l’échelle
- Difficulté de gérer des valeurs nominales (ex. couleur)

Exemple
4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Partitions d’égale fréquence:
- Bin 1 : 4, 8, 9, 15
- Bin 2 : 21, 21, 24, 25
- Bin 3 : 26, 28, 29, 34
Lissage par la moyenne des blocs (bins):
- Bin 1 : 9, 9, 9, 9
- Bin 2 : 23, 23, 23, 23
- Bin 3 : 29, 29, 29, 29

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce que la régression?

A

Relation entre des valeurs explicatives et une variable expliquée exprimée par une fonction de régression.
La qualité de la régression est estimée par un coefficient (R2).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce que l’intégration de données?

A

Objectif
- Combiner des données de diverses sources dans une base

Intégration de schémas
- Ex. A.idClient ≡ B.Client#

Intégration des métadonnées (ex. règles de gestion)

Problème d’identification d’entité
- Identifier les entités équivalentes
- Ex. Bill Clinton = William Clinton

Détection et résolution des valeurs conflictuelles
- Pour une même entité (ex. étudiant), les valeurs d’un attribut varient selon la source (ex. âge)
- Raisons possibles : représentations/échelles différentes (ex. poids en kg vs lb), etc.

Redondance
- Synonymie : le même objet/attribut peut avoir divers noms dans diverses sources de données
- Homonymie (fausse redondance) : deux entités/attributs portent le même nom mais n’ont pas la même signification
- Dérivation : un attribut peut être obtenu par calcul sur d’autres attributs (ex. âge, ancienneté)

Migration et intégration de données
- Outils commerciaux ou programmes faits sur mesure
- Itération et interaction

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que la transformation de données?

A

Définition
- Fonction qui transforme l’ensemble des valeurs d’un attribut en un nouvel ensemble de valeurs (ex. passage d’un salaire précis à des tranches de salaire)

Méthodes
- Lissage : enlever le bruit
- Agrégation: récapitulation, construction de cubes de données
- Généralisation
* Parcours vers le haut d’une hiérarchie de concepts
- Normalisation: réduction de l’échelle des valeurs
* min-max, note Z (Z-score), etc…
- Ajout de nouveaux attributs
* Ex. Rapport entre le revenu et l’épargne d’une famille

Normalisation min-max de la valeur v en v’
- Intervalle initial des valeurs de l’attribut A : [minA, maxA]
- Nouvel intervalle: [new_minA, new_maxA]
- v’ = ((v - minA) / (maxA - minA)) (new_maxA - new_minA) + ne3w_minA
- Ex. Intervalle des salaires [12,000, 98,000] normalisé en [0.0, 1.0]. La valeur 73,600 devient ((73,600 - 12,000) / (98,000 - 12,000)) (1,0 - 0) + 0 = 0.716

Normalisation note Z (μ: moyenne, σ: écart-type) :
- v’ = (v - μA) / σA
- Ex. Soit μ = 54,000, σ = 16,000, alors 73,600 devient : (73,600 - 54,000) / 16,000 = 1.225

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que la réduction de données?

A

Pourquoi ?
- Volume trop important de données
- Analyse et fouille de données longues et coûteuses

Objectif
- Obtenir une représentation réduite des données qui produit presque les mêmes résultats analytiques que l’ensemble initial de données

Stratégies
- Réduction de la dimensionnalité, échantillonnage
- Agrégation et compression
- Régression et modélisation log-linéaire
- Discrétisation et génération de hiérarchies de concepts, ..

Réduction de la dimensionnalité
- Analyse en composantes principales
* Résumer un tableau de n objets et de m variables à l’aide d’un nombre réduit de p (< m) facteurs
* Visualiser le positionnement des objets les uns par rapport aux autres.
* Visualiser les corrélations entre les variables
* Interpréter les facteurs
- Techniques de sélection d’attributs pertinents
* Ex. Dimension fractale

Échantillonnage
- Sélectionner un échantillon représentatif d’une population

Régression et modélisation log-linéaire
- Régression
* Modélisation des données par une fonction (ex. linéaire, exponentielle)
* Mesure de la qualité d’ajustement
- Modélisation log-linéaire
* Approximation d’un tableau multidimensionnel (cube de données) par un modèle dont le nombre de paramètres est plus réduit que le nombre de cellules du tableau

Discrétisation
- Diviser l’étendue d’un attribut en intervalles et associer un label à chaque intervalle
- Réduire la taille des données
- Préparer les données pour des analyses diverses
- Obéir à des contraintes de certains algorithmes qui utilisent des données discrètes seulement
- Exemple
* Tranches d’âge : [20-30[, [30-40[, [40-60[, [60-90[, …

Formation de hiérarchies de concepts
- Réduire récursivement les données en remplaçant les concepts de bas niveau (ex. âge = 20 ans) par des concepts plus généraux (ex. Jeune, vieux, …)
- Techniques
* Binning
* Analyse d’histogrammes
* Entropie, segmentation, etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quels sont les types possibles d’une donnée?

A

Deux grandes catégories
- Quantitatif (ex. poids) versus qualitatif (ex. couleur)

Principaux types
- Nominal (qualitatif)
* Ex. profession, couleur, statut
- Ordinal
* Ex. grade dans l’armée, note d’évaluation
- Continu vs discret
* Ex. taille et nombre d’enfants

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les différentes entre un attribut continu vs discret?

A

Attribut
- Variable

Attribut discret
- Possède un ensemble de valeurs
- Ex. nombre d’enfants
- Attribut binaire : un cas spécial

Attribut continu
- Possède des valeurs réelles dans un intervalle donné
- Ex. salaire, taille, poids

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Qu’est-ce qu’une statistique descriptive?

A

Objectif
- Mieux comprendre les données : tendance centrale (moyenne, mode et médiane), dispersion (variance et quartiles) et étendue (= valeur max – valeur min)

Dispersion des données
- Médiane, max, min, quantiles, variance, exceptions, etc.
- Dispersion de données analysée selon divers niveaux de précision
- Boîte à moustache (Boxplot) ou analyse de quantiles sur des intervalles triés

Moyenne d’une série statistique
- Pondérée ou non
- moyenne = ∑wx / ∑ w

Médiane d’une série
- partage une série numérique en deux parties de même nombre d’éléments
- Valeur à la position (N+1)/2 si un nombre impair N d’éléments. Ex. 1 5 [9] 21 28
- Moyenne des valeurs des éléments aux positions N/2 et (N+1)/2 si N est pair Ex. 1 5 9 [] 21 28 44

Mode d’une série statistique
- Valeur ayant le plus grand effectif

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que la dispersion des données?

A

Quartiles et exceptions
- Un quartile est chacune des trois valeurs qui divisent les données triées en quatre parts égales
- Quartiles : Q1 (25ème centile), Q2 (médiane) et Q3 (75ème centile)
- Écart interquartile : EIQ = Q3 – Q1
- Cinq mesures : min, Q1, Q2, Q3, max
- Exception : une valeur se trouvant à 1.5 x EIQ au-dessus de Q3 ou à 1.5 x EIQ en-dessous de Q1

Analyse de quantiles
- Cinq mesures d’une distribution
* Minimum, Q1, Q2, Q3, Maximum
- Boîte à moustache (Boxplot)
* Données résumées dans une boîte
* Les extrêmités de la boîte représentent Q1 et Q3
* La médiane Q2 est marquée par une ligne
* Favoris (Whiskers): deux lignes extérieures à la boîte dont les extrêmités sont le minimum et le maximum (à condition que la valeur ne soit pas une exception)

Variance
- Caractériser la dispersion d’une distribution ou d’un échantillon = moyenne des carrés – carré de la moyenne
- σ^2 = (1/N) ∑(x-μ)^2
- N : nombre d’observations, xi : une valeur donnée
- µ : moyenne des valeurs
Exemple
- Valeurs : 1, 3, 7 et 9
- µ = 20/4 = 5
- σ^2 = (1+9+49+81)/4 -25 = 10

Écart-type
- Racine carrée de σ^2

Similarité et dissimilarité :
- Similarité
* Mesure numérique indiquant le degré de ressemblance entre deux objets
* Valeur dans l’intervalle [0,1] où 1 représente une similarité totale
- Dissimilarité (distance)
* Mesure numérique indiquant le degré de dissimilarité entre deux objets
* Une forte valeur indique une forte dissimilarité
- Matrice de données
* n lignes (objets) et p colonnes (dimensions)
- Matrice de dissimilarité
* n lignes mais juste des distances
* Matrice triangulaire

Distance de Minkowski : mesure de distance connue

Propriétés
- Séparation : d(i, j) = 0 ⇔ i=j
- Symétrie : d(i, j) = d(j, i)
- Inégalité triangulaire : d(i, j) ≤ d(i, k) + d(k, j)
- Métrique : distance vérifiant ces trois propriétés

Coefficient de corrélation
- Si rp,q > 0, p et q sont positivement corrélés. Une grande valeur indique une forte corrélation.
- r p,q = 0: indépendance; rpq < 0: corrélation négative

Analyse d’indépendance
- Test du Χ2 (chi-deux)
- Permet de contrôler l’indépendance de deux variables A et B dans une population donnée
- On cherche la valeur critique X2α dans la table de la loi du chi-deux à (L-1)×(C-1) degrés de liberté où L est le nombre de lignes et C le nombre de colonnes de la table de
données et pour un seuil de rejet α (ex. 1% ou 5%)
- Si X2 calculé < X2α, on accepte l’hypothèse d’indépendance, sinon on la rejette

How well did you know this?
1
Not at all
2
3
4
5
Perfectly