Syllabus Flashcards

1
Q

Business intelligence

A
  • Application logiciel qui collecte et traite une grande quantités de données.
  • Permet d’extraire, transformer et charger les données dans un nouvelle environnement.
  • Les données sont representés sous forme de tableau de bords interactif permettant aux utilisateurs de faire des analyses dynamiques et de prendre de décisions plus éclairés.
  • Répond à la question : Quels sont le performances actuelles et passées de mon entreprise ?
  • BI s’applique aux données structurées ou semi-structurées, provenant principalement de bases de données relationnelles.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Data science

A
  • Domaine interdisciplinaire combinant les mathématiques, les statistiques, la programmation spécialisés, le deep learning, le machine learning pour extraire les informations afin de guider la prise de décisions et la planification stratégiques
  • Le data science peut être decriptive, prescriptive ou predictive.
  • S’applique aux données structurées, semi-structurées et non structurées
  • Inclut des informations provenant de bases de données relationnelles et non relationnelles.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quels sont les 3 types de données ?

A
  • Données structurées
  • Données semi structurées
  • Données non structurées
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Il existe quatre types d’échelles pour mesurer une variable :

A
  • Nominal
  • Ordinal
  • Interval
  • Proportionnelle
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est ce qu’une variable nominal ?

A
  • Une variable nominal est une vairable qualitatif mais ne pas pas être classé sous un ordre logique / hiérarchique.
  • Par exemple, on ne peut pas dire que jaune > rouge, ni inversemement.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est ce qu’une variable ordinal ?

A
  • Une variable ordinal est une variable qualitatif qui peut être classé sous un certain ordre logique.
  • Par exemple, Bonne note > moyenne note > mauvaise note
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est ce qu’une variable interval ?

A
  • Une variable interval est une variable quantitatif dont les intervalles entres les valeurs ne sont pas constantes.
  • Exemple: mesure de la temperature - 12/15/2022 13:45:34 7.2 C°; 12/15/2022 13:46:15 7.1C°; 12/15/2022 13:52:55 7.4 C°.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est ce qu’une variable proportionnelle ?

A
  • Une variable quantitative proportionnelle contient des valeurs qui sont caractérisées par des proportions égales entre les valeurs mesurées, de sorte qu’un calcul mathématique direct et constant est possible.
  • Exemple : une personne pesant 90 kg est deux fois plus lourde qu’une personne pesant 45 kg.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quel est la différence entre variable discrète et continus ?

A
  • Une variable continue a un nombre infini ou indéfini de valeurs. Il s’agit de données dont les valeurs appartiennent à un sous-ensemble infini de l’ensemble R. Par exemple, si la température est comprise entre 10 et 12°C, la variable peut prendre l’une des innombrables valeurs existantes et mesurables : 10,007°C, 11,11°C ou 11,9999°. Exception lorsque l’ensemble des valeurs est grand. Par exemple, l’âge : ce n’est pas un nombre infini, mais nous avons plusieurs dizaines de valeurs. La variable est donc considérée comme continue.
  • Une variable discrète a un nombre fini ou dénombrable de valeurs. Exemple : niveau d’éducation, Primaire, secondaire, supérieur, universitaire… Mais il peut aussi s’agir d’une variable quantitative si elle ne prend que des valeurs isolées. Par exemple, un âge, une note arrondie à 0,5, etc. Les variables binaires sont un cas particulier d’attributs discrets.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

La différence entre une base de données relationnelle et une base de données non relationnelle ?

A
  • La différence est le stockage de l’information (stockage sous forme de table ou de clé/valeur).
  • Bien que NoSQL réponds aux problèmes actuels du Big Data, il ne remplace pas la base de données relationnelle, mais la complète. Les données sont en effet regroupées dans un second temps pour être analysées.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Une base de données contient les données de

A
  • Computer application
  • ERP
  • API (application promgramming interface)
  • A data lake
  • Site web, réseau sociaux
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est ce qu’un API ?

A
  • Solution permettant d’accéder à distance aux fonctions ou aux données d’une application.
  • Une requête est envoyée au logiciel cible dans un langage universel qui effectue les actions et délivre le contenu demandé.
  • Grâce à une API, les applications peuvent communiquer entre elles et échanger des services ou des données.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Qu’est ce que data lake ?

A
  • Réservoir de données brute qui alimente un processus décisonnelle.
  • Contrairement a la base de données, les données de data lake ne sont pas modélisées.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Data warehouse, entrepôt de données ?

A
  • Base de données et ses outils qiu sont collecter et stockées dans un entrepôt de données qui regroupes et stocke les données actuelles et historiques.
  • Les données proviennent de plusieurs système opérationnelle et de source externe, chacun avec des modèles de données différents
  • Les données peuvent être consultés mais pas modifiés.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est ce qu’un star shema ?

A
  • Utilisé pour organiser les données dans le datawarehouse, en particulier, pour la couche dataamart.
  • Caractérisé par un table de fait et une table dimensions.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Le but d’un star schéma ?

A

Limiter le nombre de jointure afin d’accélerer l’analyse des données lorsque les utilisateurs font des requêtes dans les différentes vues.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qu’est ce qu’une table de fait ?

A
  • Contient des observations (transactions - mesures numériques) et un ensemble de champs “clé” qui détermine la granularité de la table des faits.
  • Contient une grand nombre de ligne mais un faible nombre de colonne.
18
Q

Qu’est ce qu’une table dimension ?

A
  • Fournit des informations supplémentaires pour les observations.
  • Contient un grand nombre de colonne mais peu de lignes.
  • Les dimensions sont généralments utilisées comme filtres pour les observations.
  • Décrit les entités de l’entreprise : les éléments que vous modélisez. Les entités peuvent inclure des produits, des personnes, des lieux et des concepts, y compris le temps lui-même.
19
Q

Quel est la différence entre normalization et dénormalizations ?

A
  • La normalisation est le processus d’organisation des données pour réduire les répétitions. Elle implique la création de tables qui ne stockent que les valeurs clés, réduisant ainsi la redondance.
  • Un exemple est une table de produits où chaque produit est identifié par une clé unique et où des colonnes séparées détaillent des caractéristiques telles que le nom, la catégorie, la couleur et la taille.
  • Toutefois, si la table contient des détails qui vont au-delà de la clé, elle est considérée comme étant dénormalisée.
20
Q

L’option Cardinalité peut prendre l’une des valeurs suivantes :

A
  • One to many
  • One to one
  • Many to many
21
Q

Qu’est ce que one to many ?

A

Une relation de plusieurs à un est le type de relation par défaut le plus courant. Cela signifie que la colonne d’une table donnée peut avoir plusieurs instances d’une valeur, tandis que la table liée n’a qu’une seule instance d’une valeur.

22
Q

Qu’est ce que one to one ?

A
  • Une colonne de table n’a qu’une seule instance d’une valeur donnée, et la table liée n’a qu’une seule instance d’une valeur donnée.
23
Q

Qu’est ce que many to many ?

A
  • Avec les modèles composites, vous pouvez établir des relations de plusieurs à plusieurs entre les tables, ce qui élimine le besoin de valeurs uniques dans les tables.
24
Q

Qu’est ce qu’une mesure ?

A
  • Une mesure est un champ calculé. Il s’agit le plus souvent d’une fonction d’agrégation appliquée à des données
    considérées comme des faits.
  • SUM, MIN, MAX ou AVERAGE
25
Q

Qu’est ce qu’une dimension ?

A
  • Une dimension est une donnée non numérique qui ne permet PAS d’effectuer des calculs, comme le nom, le jour, le pays, etc,
  • L’exception à la règle : Count, qui permet de mesurer sur la base d’une dimension, et donc d’une variable qualitative Count(distinct ProductName).
26
Q

Qu’est ce que ETL ?

A

Il s’agit du processus d’extraction, de transformation et de chargement des données, dans le but de produire des données propres et faciles d’accès qui peuvent être exploitées efficacement par l’analyse.

  • Extraction : extraire des données brutes à partir de sources multiples.
  • Transformation : application de règles internes aux données brutes pour répondre aux exigences de reporting.
  • Chargement : charger les données extraites et transformées dans leur nouvel environnement.
27
Q

Expliquez l’extraction des données

A

Elle consiste à créer des connexions avec les sources de données. Cette étape s’appuie sur des connecteurs, interfaces préexistantes qui facilitent l’échange d’informations entre l’outil de BI et la base de données initiale. D’une manière générale, les connecteurs nécessitent quelques configuration de base :
- Définition de l’adresse IP (adresse où se trouve le serveur hébergeant la base de données).
- Nom de la base de données.
- Un nom d’utilisateur et un mot de passe avec un accès en lecture à la base de données.
- Le port utilisé pour identifier une application/service spécifique fonctionnant sur le serveur.

28
Q

Expliquez l’étape de transformation

A

Implique de se familiariser avec les données et d’identifier celles qui sont incorrectes pour les traiter ou appliquer des règles commerciales. L’analyse de la distribution des variables, examinée variable par variable, permet de mieux comprendre les données. La représentation graphique aide à identifier le contenu des variables et les transformations nécessaires, telles que les valeurs manquantes et les outliers.

Le traitement des données incorrectes vise à améliorer leur fiabilité en remplaçant ou supprimant les données problématiques.

La deuxième étape concerne la transformation ou l’ajout de données. Deux méthodes principales sont utilisées : transformer les données existantes dans une variable ou créer une nouvelle variable calculée à partir d’autres. Cela peut inclure la définition de nouvelles valeurs de colonnes, la fusion de textes de différentes colonnes, ou le calcul de valeurs numériques à partir d’autres données. Par exemple, combiner des champs Ville et État en un champ unique Emplacement.

29
Q

Expliquez load

A

Les outils de BI stockent généralement les données qu’ils analysent dans la mémoire vive de l’ordinateur (RAM). Cela signifie que ces outils ne travaillent pas directement avec les données originales, mais avec une copie sauvegardée à un moment donné. Cette méthode, appelée mise en cache des données, rend les analyses et les rapports plus rapides et interactifs.

Cependant, quand les données à analyser sont très volumineuses, il n’est pas toujours possible de les stocker entièrement dans la RAM. Dans ce cas, seules certaines parties des données sont mises en cache. Pour le reste, les outils de BI vont interroger directement la source des données. Cette approche peut ralentir les outils

30
Q

Qu’est ce qu’un système informatique ?

A

Ensemble organisé de ressources : matériel, logiciel, personnel, données, procédures… permettant d’acquérir, de traiter, de stocker et de diffuser des informations au sein des organisations et entres elles.

Nous trouvons donc :

  • L’infrastructure - serveurs, stockage, bases de données, réseaux, virtualisation, cloud, Big Data, IoT, sécurité, etc.
  • Les applications - l’ERP est le cœur du SI, auquel s’ajoutent le CRM (clients), le SIRH (Système d’Information de Gestion des Ressources Humaines), le marketing, les secteurs d’activité spécifiques, les développements spécifiques, les services, - - - Les API (Interface de Programmation d’Applications), etc.
  • Les utilisateurs/acteurs - plus spécifiquement, les outils et services allant du bureau à l’environnement mobile.
31
Q

Qu’est ce que le Crisp-Dm model ?

A

Détermine les étapes clés dans le processus de traitement d’un problème d’analyse de données.
Cette méthode identifie 6 étapes clés :
- Compréhension des affaires (business understanding)
- Compréhension des données
- Préparation des données
- Modélisation
- Evalutation
- Déploiement

32
Q

Que doit contenir le rapport « inventaire des source(s) de données » (inventory of data source report) ?

A
  • La quantité de données (volume)
  • Le type de variables (quantitatives ? Qualitatives ? Booléennes ?)
  • Le taux de complétude des informations
  • Les erreurs de données (encodage incorrect)
  • Les valeurs aberrantes
  • Le taux de remplissage, la densité de l’information
33
Q

La préparation des données implique généralement les tâches suivantes :

A
  • Fusionner des ensembles de données et/ou des enregistrements
  • Sélectionner des sous-ensembles de données
  • Agrégation d’enregistrements
  • Création de variables calculées
  • Transformation de variables existantes
  • Trier les données pour la modélisation
  • Supprimer ou remplacer les blancs ou les valeurs manquantes
  • Diviser en sous-ensembles d’apprentissage et de test (science des données)
34
Q

En quoi consiste la phase de modélisation ?

A

La modélisation des données est l’étape où l’on crée une structure organisée pour analyser les données. Cela signifie créer un “schéma en étoile”, une sorte de plan qui montre comment différentes données sont connectées. On utilise des techniques comme la jointure et la concaténation.

35
Q

En quoi consiste l’évaluation ?

A

L’évaluation consiste à partager les résultats du projet avec des utilisateurs importants de l’entreprise pour s’assurer que le travail accompli répond bien aux objectifs fixés au départ et que les informations sont bien présentées, sous forme de tableau de bord.

36
Q

Qu’est ce que la technique descriptives non supervisées ?

A

Sert à découvrir des informations cachées dans de grandes quantités de données. On explore les données sans chercher à prédire une variable spécifique. L’objectif est de laisser les données révéler leurs propres tendances et structures. Ces techniques aident à identifier des modèles ou à établir de nouvelles règles sans avoir été préalablement “formées”.

37
Q

Qu’est ce que la technique prédictives supervisées ?

A

Ces techniques sont utilisées pour faire des prédictions basées sur des données existantes. Elles se divisent en deux sous-catégories :

  • Estimation : On cherche à prédire une valeur numérique (quantitative) en se basant sur d’autres variables. Par exemple, prédire le prix d’une maison en fonction de sa taille, du nombre de chambres, etc.
  • Classement (ranking) : On cherche à prédire une catégorie (qualitative) en utilisant d’autres variables. Par exemple, déterminer si un T-shirt sera un best-seller ou non en se basant sur son prix de vente, les dépenses marketing, et le coût des matières premières.
38
Q

Pour superviser une machine, on partitionne les données :

A
  • Ensemble d’entraînement : Utilisation de 60% des données pour “entraîner” le modèle.
  • Ensemble de validation : Utilisation des 40% restants pour vérifier si le modèle a bien appris. On compare les prédictions du modèle avec les valeurs réelles
39
Q

L’apprentissage des algorithmes se déroule en quatre étapes :

A
  • Apprentissage : Créer une règle basée sur les données d’entraînement où les résultats sont déjà connus. Le modèle apprend la relation entre les variables d’entrée (X) et la variable cible (Y).
  • Test : Tester le modèle sur un nouvel échantillon pour évaluer sa précision.
  • Validation : Vérifier la performance du modèle sur un autre ensemble de données pour s’assurer qu’il peut généraliser ce qu’il a appris à de nouvelles données.
  • Application : Utiliser le modèle sur de nouvelles données pour faire des prédictions.
40
Q

En quoi consiste ETL ?

A

L’ETL consiste à prendre des données de différentes sources, à les convertir dans un format utilisable, puis à les placer dans une base de données pour analyse.