Cours 4 - Les bases, les entrepôts et l'exploration de données Flashcards
- Décrire la structure de la base de données relationnelle (modéliser un processus d'affaires simple) - Expliquer la fonction d'un système de gestion de bases de données (SGBD) : Principaux modes d'intégration des données et de l'information provenant des diverses sources de données - Définir les concepts de l'entreposage et l'exploration de données (Expliquer la manière dont ces activités contribuent à la création de valeur)
Stockage des données transactionnelles
DT sont stockées dans les bases de données (BD)
Base de données
Endroit où sont conservées les données sur divers types d’objets, d’événements, de personnes et d’endroits (Gérer d’une manière à assurer l’intégrité et la qualité des données - Les données sont accessibles à une communauté d’utilisateurs pour des fins différentes)
SGBD
Logiciel utilisé pour gérer et interroger un BD (Permet à l’organisation de centraliser les données, les gérer efficacement et d’en permettre l’accès au moyen de programmes d’application)
Types de SGBD
- Modèle relationnel : Toutes les données de la BD sont représentées sous forme de tables bidimensionnelles appelées relations. Exemples : MS Access, SQL server, DB2, Oracle, MySQL)
- BD orientées objet : Données et procédures permettant de les manipuler sont encapsulées sous forme d’objet : Facilitent le stockage et la gestion du contenu multimédia, mais une tendance à être plus lente
- Systèmes de gestion de contenu : pour les données non structurées. ex Lotus Notes
Modèles de BD
- Description structurelles d’une BD : Schéma décrit les objets (données) représentés dans la base de données et les relations entre ces données
- Les modèles sont utilisés par les informaticiens et les programmeurs, ainsi que les utilisateurs des BD : Pour des raisons similaires à celles des processus
BD relationnelles
Chaque table bidimensionnelle est une grille de colonnes et de lignes de données qui contient les données relatives à une entité.
Concepts clés de la BD relationnelle
- Entité : Personne, lieu, objet ou événement au sujet duquel de l’information est conservée
- Attribut : Propriété ou caractéristique qui décrit une entité spécifique (représenté par des colonnes)
- Enregistrement : tous les attributs d’une entité (représenté par les lignes)
Autres concepts (champs et clés)
- Champ clé : champ qui identifie de façon unique un enregistrement (Permet de retrouver, mettre à jour ou trier un enregistrement spécifique parmi tous les enregistrements liés à une entité).
- Clé primaire : champ d’une table utilisé comme champ clé
- Clé étrangère : champ clé d’une autre table liée (utilisée comme lien pour accéder à de l’information connexe dans cette autre table liée)
Intégrité référentielle
- Appliqué par SGBD
- Les règles visant à assurer que les relations entre les tables liées demeurent conforme
- Indiqué dans le diagramme entité-relation (un autre type de modèle)
Relations entre les tables
- 0:1
- 1:1
- 1:0
- Plusieurs à plusieurs
Avantages de la BD relationnelle
- Flexibilité à répondre aux changements des besoins organisationnels
- Extensibilité et performances supérieures
- Minimisation des données redondantes
- Une meilleure intégrité (qualité) de données (intégrité relationnelle et intégrité de règles d’affaires)
- Sécurité des données appliquées par le SGBD (mots de passe et des contrôles d’accès)
Interactions entre la BD et le SGBD
- Indirecte : utilisateur - logiciel - SGBD - BD
- Directe : utilisateur - SGBD - BD
Sites web dynamiques
Site web interactif constamment maintenu à jour qui tient compte des besoins de la clientèle : BD et requêtes
Ex. Moteur de recherche - BD - résultats
Avantages du site web dynamique
- Développement facile
- Meilleure gestion du contenu
- Possibilité d’extension
- Risques d’erreurs humaines réduits
- Coûts de production et de mise à jour réduits
- Efficacité accrue
- Stabilité accrue
Intégration des données (2 modes)
Permet à des systèmes distincts de communiquer ensemble directement
- Intégrations en aval ou en amont
- Création d’un référentiel
Services Web
Répertoire des ressources procédurales et des données qui obéissent à des normes et protocoles communs.
- Permettent aux différentes applications de partager des données et services (efficacité, efficience, agilité, interopérabilité)
- Service web unique = logiciel (réutilisable) qui exécute une tâche précise (événements, services)
Entreposage de données dans un entrepôt (data warehouse)
- Collection logique d’information analytique
- informations proviennent de diverses sources (BD transactionnelles, sources externes)
- Facilite la création de rapports stratégiques destinés à la gestion d’affaires et la prise de décision
- Données sont banalisées (chaque terme est défini, les normes doivent être respectées)
Caractéristiques des données dans un entrepôt de données (voir ppt p.28)
- Thématiques (organisées par sujet plutôt que par fonction)
- Intégrées (collectées de plusieurs sources et réunies dans un ensemble logique et cohérent)
- Délimitées dans le temps (horodatées selon une période précise)
- non volatiles (ne changent jamais dès qu’elles y sont stockées)
Analyse mutlidimensionelle
- Entrepôts sont des BD multidimensionnelles
- Un cube correspond à une information multidimensionnelle
Consolidation et nettoyage de données (2 concepts)
- Extraction, transformation et chargement (ETC)
Processus qui :
- Extrait de l’information des BD internes ou externes.
- Transforme l’information en utilisation en utilisant les définitions de l’entreprise.
- Stocke l’information dans un entrepôt de données - Nettoyage de l’information :
- Processus d’élimination et de correction ou de rejet d’une information incohérente, incorrecte ou incomplète
- Organisations utilisent les outils logiciels spécialisés pour ce processus
- Il faut équilibrer l’exactitude, la complétude et les coûts
Gestion de la qualité des informations (2)
Complétude et précision
Exploration de données
- Forages de données (data mining) : processus d’analyse de données qui vise à créer des informations qui ne sont pas évidentes dans les données brutes
- Outils : outils de requête, création de rapports, analyse multidimensionnelle, outils statistiques, agents intelligents
- 3 types d’analyse importants (analyse par regroupement, détection d’associations, analyse statistique)
Analyse par regroupement (cluster analysis)
- Technique statistique
- Divise un ensemble de groupes mutuellement exclusifs (membres de chaque groupe sont le plus près possible - groupes sont les plus loin possible les uns des autres)
Détection d’association
- Révèle l’ampleur des relations entre des variables, ainsi que la nature et la fréquence de ces relations dans l’ensemble de données
- Générateurs de règles d’association (algorithmes de détection - prédiction des événements d’affaires et leur probabilité d’occurrence)
- Analyse du panier de consommation : utilisée pour mieux comprendre le comportement d’achat des clients et prévoir leurs comportements futurs.
Analyse statistique
- Analyse quantitative des données : corrélations d’information, répartitions, calculs des analyses de variance. (analyses peuvent fournir des explications ou des prévisions)
- Grands fournisseurs offrent des solution complètes pour l’exploration de données.
(technologie n’est pas suffisante, elle exige aussi les expertises et compétences organisationnelles,