Modélisation et conception d'un entrepôt de données Flashcards

1
Q

Entrepôt de données

A

Entrepôt de données :
- Vue matérialisée de bases de données (BD)
- BD orientée sujet, intégrée et non volatile de données temporeles pour de multiples usagers
- Système informationnel contenant aussi bien des données agrégées (pour les besoins immédiats) que détaillées (pour d’éventuels besoins futurs)

Orientation sujet :
- Organisation autour de sujets majeurs (ex. inventaire, ventes)
- Accent sur l’analyse et la modélisation des données pour les décideurs
- Vue simple et concise sur un sujet en écartant les données inutiles

Données intégrées :
- L’ED est construit par une intégration de données provenant de sources multiples et hétérogènes (bases de données, fichiers)

Données temporelles :
- La dimension “temps” est fondamentale
- Perspective historique (ex.: ventes entre 2000 et 2003)

Données non volatiles :
- Conservation des données historiques
- Opérations de recherche et d’actualisation d’informations mais pas de mise à jour

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Magasin de données opérationnelles (operational data store - ODS) - Entrepôt de données

A

Système opérationnel orienté sujet, intégré, volatile, contenant des données détaillées

Objectifs : offrir des données courantes et détaillées pour le support à la décision; étape préliminaire à l’entreposage de données

À mi-chemin entre une BD et un ED

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Magasin de données (data mart) - Entrepôt de données

A

Collection de données logiquement apparentées répondant aux besoins d’un groupe spécifique d’usagers et d’une unité administrative

Souvent un sous-ensemble de l’entrepôt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Phases de construction d’un ED

A

Acquisition : phase majeure et coûteuse
- Extraction : identification des données utiles à partir des bases de données opérationnelles
- Transformation : intégration de données de diverses sources, mise en correspondance des formats de données, épuration, reformulation et agrégation
- Chargement puis actualisation périodiquement

Outils ETL : Extraction, Transformation and Loading

Stockage : Assuré principalement par un SGBD

Accès

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est-ce que le référentiel dans un entrepôt de données?

A

Référentiel (repository) :
- Collection de métadonnées contenant des informations décrivant l’ED et les processus associés

Contenu du référentiel :
- Définition des éléments de données et des schémas, y compris des données sources
- Qualité des données
- Définition des règles de gestion, de calcul, d’agrégation et de sécurité
- Description des étapes d’acquisition (extraction, transformation, épuration et chargement)
- Description des processus d’actualisation et d’archivage

Taxonomie des métadonnées :
- Description de la structure de l’entrepôt
– Schéma, vues, dimensions, hiérarchies, définition des données dérivées et consolidées, localisation et contenu des magasins de données
- Métadonnées opérationnelles
– Historique des données migrées et processus de transformation, statut des données (actives, archivées, ou éliminées), information de contrôle (statistiques d’accès, rapports d’erreurs, vérification)
- Passage de l’environnement opérationnel à celui informationnel
- Données relatives aux affaires : terminologie et définitions

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce qu’un cube de données?

A

Cube ou hypercube :
- Représentation de données multidimensionnelles en utilisant des tables et dimension et une table de faits
- Tables de dimension : Ex. Produit, lieu, temps (attention aux dimensions choisies)
- Table de faits : Ex. de mesure : ventes
- Cube : Ex.: Ventes par produit, ville et trimestre

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce que la modélisation multidimensionnelle?

A

Objectif :
- Modéliser les données dans un espace à n dimensions
- Visualiser des cubes

Notions :
- Grain : niveau atomique des données
- Dimension : axe d’analyse
- Attributs et hiérarchie de dimension
- Membre : instance d’une dimension
- Fait : lien entre les tables de dimension
- Mesure (ou indicateur) associée à un fait

Étapes :
1. Choisir le processus d’affaires à modéliser (ex. ventes)
2. Identifier les tables de faits et les mesures d’intérêt (ex. la table des ventes avec le nombre d’unités vendues et le montant des ventes)
3. Identifier les dimensions et leurs attributs (ex. Commande, expédition, ville, produit)
4. Choisir le grain pour chacune des dimensions
5. Identifier les hiérarchies de dimensions : Héritage simple (arbre) ou multiple (treillis) (ex. La date est exprimée en jour, semaine, …)

Table de faits :
- Sert à relier des tables de dimension
- Clé de la table de faits : ensemble de pointeurs logiques (clés) vers les tables de dimension
- Mesure : attribut numérique d’un fait qui varie selon une ou plusieurs dimensions. Ex. montant des ventes
- Possibilité d’avoir plus d’une table de faits (ex. modèle en galaxie)

Types de mesures :
- Additives : ajout des mesures sur toutes les dimensions (ex. montant des ventes, coût, profit)
- Semi-additives : ajout des mesures sur un sous-ensemble de dimensions seulement (ex. le niveau d’inventaire est additif sur le produit et le magasin, mais pas sur le temps)
- Non additives : aucune sommation (ex. ratio, pourcentage, taux de change, température, …)
- Distributives : définies par une fonction d’agrégation distributive (COUNT, SUM, MIN et MAX sont distributives)
- Algébriques : définies par une fontion scalaire de fonctions distributives (ex. la moyenne est obtenue par le rapport entre SUM et COUNT)
- Holistiques : ne peuvent être calculées par d’autres fonctions (ex. médiane, mode et rang)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quels sont les modèles de modélisation multidimensionnelle?

A

Modèle en étoile :
- Autant de tables de dimension qu’il existe de dimensions (ex. temps, lieu, produit)
- Une table de faits contenant la clé de chaque dimension et des mesures (ex. montant en dollars, nombre d’unités vendues)
- Inconvénient : possibilité de redondance car les tables de dimension ne sont pas nécessairement normalisées

Modèle en flocon de neige :
- Variante du modèle en étoile
- Quelques tables de dimension sont normalisées
- Réduction de la redondance mais exécution parfois plus lente des requêtes (jointure de tables)

Modèle en galaxie :
- Utilisé pour des applications sophistiquées
- Il y a plus d’une table de faits pour relier les tables de dimensions
- Les tables de faits peuvent avoir le même ensemble de clés (ex. ventes mensuelles vs hebdmadaires)
- Les tables de faits peuvent être distinctes
- Schéma perçu comme une superposition de schémas en étoile ou flocon de neige

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quelles sont les règles de normalisation de schémas de modélisation multidimensionnelle?

A

Quatre règles :
- Absence de dépendance fonctionnelle entre deux dimensions distinctes
- Toutes les mesures de la table de faits doivent être cohérentes (avoir un sens) pour toutes les combinaisons possibles de dimensions
- Toute mesure de la table de faits doit être définie pour le grain de chacune des dimensions
– Le grain est le niveau le plus fin possible de cette dimension (ex. jour pour la dimension temps)
- Le graphe de chaque dimension doit être acyclique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les stratégies de conception de la modélisation multidimensionnelle?

A

Descendante (top-down) :
- Décomposer récursivement les domaines en sous-domaines et produire les schémas correspondants. Cela correspond à la construction de data marts.

Ascendante (bottom-up) :
- Partir des éléments de base (dimensions et faits) pour construire progressivement le schéma global
- Procéder par prototypage

Mixte (intégration de vues) :
- Construire le schéma correspondant à chaque vue
- Faire la fusion des schémas obtenus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelles sont les approches de modélisation multidimensionnelle?

A

Approche basée sur les requêtes :
- Identifier les requêtes à soumettre à l’entrepôt

Approche basée sur les affaires :
- Identifier le domaine d’affaires de l’organisation

Approche basée sur les sources de données :
- Identifier les sources de données à partir desquelles l’entrepôt va être construit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly