Introduction à l'entreposage et à la prospection de données Flashcards
Qu’est-ce que l’intelligence d’affaires?
Business Intelligence (BI)
- Veille économique, informatique décisionnelle, intelligence d’affaires, analytique des affaires (business analytics)
- Méthodologies, procédures, architectures, et technologies de transformation des données brutes en informations et connaissances utiles pour la prise de décision
- Activités :
* Traitement analytique interactif (OLAP) dans les entrepôts de données (ED)
* Fouille de données (FD) dans les bases de données et ED
* Production de rapports et de réponses aux requêtes
* Mécanismes de visualisation
But : Convertir les données en informations et connaissances utiles
Intelligence d’affaires en entreprise:
- SCM (Supply Chain Management) : gestion de la chaîne logistique
- ERP (Enterprise Resource Planning) : progiciel de gestion intégrée
- CRM (Customer Relationship Management) : Gestion de la relation client
Qu’est-ce que la science des données?
Domaine interdisciplinaire visant l’extraction des connaissances et des informations utiles à partir des données
La SD est souvent associée aux données massives et à l’analyse des données
Elle fait appel à des méthodes et processus basés sur diverses disciplines
* les mathématiques, la statistique et la probabilité
* l’informatique (apprentissage machine, fouille et entreposage de données, algorithmes)
* la théorie et les technologies de l’information (calcul à haute performance, reconnaissance de formes, stockage de données, ..)
Qu’est-ce que l’intelligence artificielle?
Techniques et théories permettant de résoudre des problèmes et faire prendre des décisions par des machines comme le ferait un être humain
Plusieurs disciplines
- Apprentissage machine (automatique)
- Raisonnement
- Systèmes à bases de connaissances
- Traitement de la langue naturelle
- Reconnaissance des formes et de la voix, etc.
Quelle est la différence entre la science des données et l’intelligence d’affaires?
La SD gère des données plus dynamiques, plus volumineuses, et plus complexes
Elle met l’accent sur le futur et la planification (contre le passé/présent et le support à la décision pour l’IAF)
Elle est davantage orientée vers les tests d’hypothèse et l’exploration (contre l’analyse descriptive et de tendance)
L’IAF est utilisée pour l’analyse des données d’affaires
La SD nécessite plus d’expertise et de ressources
Qu’est-ce que l’entreposage de données?
Objectifs :
- Offrir un accès à une version agrégée et historique de l’ensemble des données de l’entreprise dans un entrepôt de données
- Offrir des outils d’aide à la décision
Applications possibles :
- Marketing, analyse financière, gestion de la relation client, analyse de profitabilité, analyse de la qualité, gestion des accès au Web, gestion médicale, etc.
Traitements possibles :
- Création et manipulation de cubes de données (OLAP)
- Production de rapports et de graphiques
- Fouille de données (Data mining)
Quelle est la différence entre une base de données et un entrepôt de données?
Pourquoi dissocier une BD d’un ED ?
- Les objectifs de performances dans les BD ne sont pas les mêmes que ceux dans les ED :
* BD : opérations OLTP, méthodes d’accès et d’indexation
* ED : requêtes OLAP souvent complexes
- La nécessité d’intégrer des données provenant de diverses sources, d’effectuer des agrégations dans un ED et d’offrir des vues multidimensionnelles
- Les données d’un ED sont souvent non volatiles et ont donc une plus longue durée de vie que celles d’une BD
Qu’est-ce que la fouille de données?
Data mining
- Fouille, orpaillage, exploration (forage ou prospection) de données
- Recherche de motifs valides, nouveaux, potentiellement utiles, et ultimement compréhensibles par des humains
- Étape du processus de découverte de connaissances (Knowledge discovery)
- Types de connaissances
* Règles d’association, de classification et de discrimination, groupes (clusters), motifs séquentiels, etc.
- Techniques statistiques et/ou d’apprentissage machine
Quel est le processus de découverte de connaissances?
- Données
- Prétraitement :
- Intégration de données
- Normalisation
- Sélection d’attributs
- Réduction des dimensions - Fouille :
- Découverte de motifs
- Association & corrélation
- Classification
- Regroupement
- Détection de cas aberrants - Post-traitement :
- Évaluation
- Sélection
- Interprétation
- Visualisation - Information et connaissance
Pourquoi faire la fouille des données?
Les langages de requêtes ne suffisent pas pour :
- le support à la prise de décision face à un volume de plus en plus important de données
- l’expression de requêtes d’intérêt pour le gestionnaire
* Trouver les cas de fraude et les profils de fraudeurs
* Trouver tous les clients susceptibles d’aller vers un autre fournisseur (attrition)
* Identifier tous les documents pouvant être utiles à la résolution d’un problème technique
Quelles sont les applications de la fouille des données?
Analyse des BD et support à la prise de décision
- Analyse et gestion du marché
* Marketing ciblé, gestion de la relation client (customer relationship management), analyse du panier du consommateur, ventes croisées, segmentation de marché
- Analyse et gestion du risque
* Prévisions financières, contrôle de qualité, analyse concurrentielle
- Détection et gestion de fraude
Autres applications
- Text mining, Web mining, fouille de réseaux sociaux, …
Conclusion de l’introduction.
BI: surtout entreposage et fouille de données
Entreposage de données
- Confluence de plusieurs technologies
* bases de données, analyses statistiques, OLAP, parfois prospection de données, ..
Entrepôt de données
- Système informationnel (par opposition à opérationnel)
Mise en œuvre complexe et longue
Sérieux défis pour l’exploitation des données massives (big data)
Fouille de données
- Découverte de motifs intéressants à partir d’un grand volume de données
Évolution naturelle de la technologie des BD
Plusieurs similarités entre ED et FD
- Prétraitement généralement coûteux de données
- Plusieurs étapes dans le processus d’entreposage de données et celui de la découverte de connaissances
- Support à la prise de décision par la découverte d’information (ED) et de connaissance (FD)
- Besoin grandissant des organisations à faire du BI