Exam 12/11/2021 Flashcards
6 étapes de démarche pour améliorer la qualité des données (DEAAIC)
Définition, Évaluation, Analyse, Amélioration, Implémentation, Contrôle
3 Types de structuration de données
Struc. : données relationnelles
Semi-Struc. : struc. flexible (XML)
Non-Struc. : langage naturel
4 Types “secondaires” de classification de données
Élémentaires : âge, s*xe, …
Agrégées : obtenus par agrégation (revenu annuel)
Fédérées : de sourcés hétérogènes
Web : du web + temporelles
précision syntaxique
Nombre de modif qu’il faut pour avoir la bonne valeur (ex Didir -> Didier => 1)
Complétude
Vérifie l’ampleur, profondeur et portée (APP) de données pour vérifier si suffiant pour accomplir la tâche
Complétude de schéma
degré auquel les concepts et leurs propriétés manquent du schéma
Complétude de colonne
Mesure des valeurs manquantes pour une propriété ou une colonne
Complétude de population
Evalue les valeurs manquantes par rapport à une population
Complétude des données relationnelles
La présence/absence et le sens des valeur « null »
Open World Assumption
Ce n’est pas parce qu’on ne connaît pas une information que cette information est fausse
Closed World Assumption
Ce qui n’est pas vrai est faux
Currency
Rapidité avec laquelle les données sont mises à jour
Volatility
Fréquence avec laquelle les données varient (ex: température forte volatility)
Timeliness
Si les données du jour arrivent assez vite pour s’en occuper
= MAX(0; 1 - (currency/volatility))
5 Activités pour QD (LCNIA)
Localisation d’erreurs : mise en place de règles et regarder quel tuple ne les suit pas
Correction d’erreur : corriger les erreurs suite à la mise en place de règles
Normalisation : suivre une norme définie pour les données
Identification objet : <=> déduplication
Activité : traitement d’anomalies rares