Modélisation et conception d'un entrepôt de données Flashcards
Entrepôt de données
Entrepôt de données :
- Vue matérialisée de bases de données (BD)
- BD orientée sujet, intégrée et non volatile de données temporeles pour de multiples usagers
- Système informationnel contenant aussi bien des données agrégées (pour les besoins immédiats) que détaillées (pour d’éventuels besoins futurs)
Orientation sujet :
- Organisation autour de sujets majeurs (ex. inventaire, ventes)
- Accent sur l’analyse et la modélisation des données pour les décideurs
- Vue simple et concise sur un sujet en écartant les données inutiles
Données intégrées :
- L’ED est construit par une intégration de données provenant de sources multiples et hétérogènes (bases de données, fichiers)
Données temporelles :
- La dimension “temps” est fondamentale
- Perspective historique (ex.: ventes entre 2000 et 2003)
Données non volatiles :
- Conservation des données historiques
- Opérations de recherche et d’actualisation d’informations mais pas de mise à jour
Magasin de données opérationnelles (operational data store - ODS) - Entrepôt de données
Système opérationnel orienté sujet, intégré, volatile, contenant des données détaillées
Objectifs : offrir des données courantes et détaillées pour le support à la décision; étape préliminaire à l’entreposage de données
À mi-chemin entre une BD et un ED
Magasin de données (data mart) - Entrepôt de données
Collection de données logiquement apparentées répondant aux besoins d’un groupe spécifique d’usagers et d’une unité administrative
Souvent un sous-ensemble de l’entrepôt
Phases de construction d’un ED
Acquisition : phase majeure et coûteuse
- Extraction : identification des données utiles à partir des bases de données opérationnelles
- Transformation : intégration de données de diverses sources, mise en correspondance des formats de données, épuration, reformulation et agrégation
- Chargement puis actualisation périodiquement
Outils ETL : Extraction, Transformation and Loading
Stockage : Assuré principalement par un SGBD
Accès
Qu’est-ce que le référentiel dans un entrepôt de données?
Référentiel (repository) :
- Collection de métadonnées contenant des informations décrivant l’ED et les processus associés
Contenu du référentiel :
- Définition des éléments de données et des schémas, y compris des données sources
- Qualité des données
- Définition des règles de gestion, de calcul, d’agrégation et de sécurité
- Description des étapes d’acquisition (extraction, transformation, épuration et chargement)
- Description des processus d’actualisation et d’archivage
Taxonomie des métadonnées :
- Description de la structure de l’entrepôt
– Schéma, vues, dimensions, hiérarchies, définition des données dérivées et consolidées, localisation et contenu des magasins de données
- Métadonnées opérationnelles
– Historique des données migrées et processus de transformation, statut des données (actives, archivées, ou éliminées), information de contrôle (statistiques d’accès, rapports d’erreurs, vérification)
- Passage de l’environnement opérationnel à celui informationnel
- Données relatives aux affaires : terminologie et définitions
Qu’est-ce qu’un cube de données?
Cube ou hypercube :
- Représentation de données multidimensionnelles en utilisant des tables et dimension et une table de faits
- Tables de dimension : Ex. Produit, lieu, temps (attention aux dimensions choisies)
- Table de faits : Ex. de mesure : ventes
- Cube : Ex.: Ventes par produit, ville et trimestre
Qu’est-ce que la modélisation multidimensionnelle?
Objectif :
- Modéliser les données dans un espace à n dimensions
- Visualiser des cubes
Notions :
- Grain : niveau atomique des données
- Dimension : axe d’analyse
- Attributs et hiérarchie de dimension
- Membre : instance d’une dimension
- Fait : lien entre les tables de dimension
- Mesure (ou indicateur) associée à un fait
Étapes :
1. Choisir le processus d’affaires à modéliser (ex. ventes)
2. Identifier les tables de faits et les mesures d’intérêt (ex. la table des ventes avec le nombre d’unités vendues et le montant des ventes)
3. Identifier les dimensions et leurs attributs (ex. Commande, expédition, ville, produit)
4. Choisir le grain pour chacune des dimensions
5. Identifier les hiérarchies de dimensions : Héritage simple (arbre) ou multiple (treillis) (ex. La date est exprimée en jour, semaine, …)
Table de faits :
- Sert à relier des tables de dimension
- Clé de la table de faits : ensemble de pointeurs logiques (clés) vers les tables de dimension
- Mesure : attribut numérique d’un fait qui varie selon une ou plusieurs dimensions. Ex. montant des ventes
- Possibilité d’avoir plus d’une table de faits (ex. modèle en galaxie)
Types de mesures :
- Additives : ajout des mesures sur toutes les dimensions (ex. montant des ventes, coût, profit)
- Semi-additives : ajout des mesures sur un sous-ensemble de dimensions seulement (ex. le niveau d’inventaire est additif sur le produit et le magasin, mais pas sur le temps)
- Non additives : aucune sommation (ex. ratio, pourcentage, taux de change, température, …)
- Distributives : définies par une fonction d’agrégation distributive (COUNT, SUM, MIN et MAX sont distributives)
- Algébriques : définies par une fontion scalaire de fonctions distributives (ex. la moyenne est obtenue par le rapport entre SUM et COUNT)
- Holistiques : ne peuvent être calculées par d’autres fonctions (ex. médiane, mode et rang)
Quels sont les modèles de modélisation multidimensionnelle?
Modèle en étoile :
- Autant de tables de dimension qu’il existe de dimensions (ex. temps, lieu, produit)
- Une table de faits contenant la clé de chaque dimension et des mesures (ex. montant en dollars, nombre d’unités vendues)
- Inconvénient : possibilité de redondance car les tables de dimension ne sont pas nécessairement normalisées
Modèle en flocon de neige :
- Variante du modèle en étoile
- Quelques tables de dimension sont normalisées
- Réduction de la redondance mais exécution parfois plus lente des requêtes (jointure de tables)
Modèle en galaxie :
- Utilisé pour des applications sophistiquées
- Il y a plus d’une table de faits pour relier les tables de dimensions
- Les tables de faits peuvent avoir le même ensemble de clés (ex. ventes mensuelles vs hebdmadaires)
- Les tables de faits peuvent être distinctes
- Schéma perçu comme une superposition de schémas en étoile ou flocon de neige
Quelles sont les règles de normalisation de schémas de modélisation multidimensionnelle?
Quatre règles :
- Absence de dépendance fonctionnelle entre deux dimensions distinctes
- Toutes les mesures de la table de faits doivent être cohérentes (avoir un sens) pour toutes les combinaisons possibles de dimensions
- Toute mesure de la table de faits doit être définie pour le grain de chacune des dimensions
– Le grain est le niveau le plus fin possible de cette dimension (ex. jour pour la dimension temps)
- Le graphe de chaque dimension doit être acyclique
Quelles sont les stratégies de conception de la modélisation multidimensionnelle?
Descendante (top-down) :
- Décomposer récursivement les domaines en sous-domaines et produire les schémas correspondants. Cela correspond à la construction de data marts.
Ascendante (bottom-up) :
- Partir des éléments de base (dimensions et faits) pour construire progressivement le schéma global
- Procéder par prototypage
Mixte (intégration de vues) :
- Construire le schéma correspondant à chaque vue
- Faire la fusion des schémas obtenus
Quelles sont les approches de modélisation multidimensionnelle?
Approche basée sur les requêtes :
- Identifier les requêtes à soumettre à l’entrepôt
Approche basée sur les affaires :
- Identifier le domaine d’affaires de l’organisation
Approche basée sur les sources de données :
- Identifier les sources de données à partir desquelles l’entrepôt va être construit