5 - ETL, source externe et SGBD Flashcards
Que signifie l’acronyme ETL et quelles sont ses étapes principales ?
ETL : Extract, Transform, Load
- Extract : Extraction des données de la source.
- Transform : Transformation (filtrage, modification, nettoyage).
- Load : Chargement des données transformées dans la destination.
Cela résume bien les étapes principales du processus ETL.
Quelles sont les sources de données externes que Pandas peut lire et manipuler ?
Sources de données externes dans Pandas :
- CSV : Fichiers de valeurs séparées par des virgules.
- JSON : Format JavaScript Object Notation.
- Excel : Fichiers Excel (.xls, .xlsx).
- SQLite : Bases de données SQL.
Qu’est-ce qu’un fichier CSV et comment est-il structuré ?
Fichier CSV :
- Structure : Fichier texte avec des lignes séparées par des retours à la ligne. Les colonnes sont séparées par des virgules.
- Exemple :
Name,Email,Phone Number,Address Bob Smith,bob@example.com,123-456-7890,123 Fake Street Mike Jones,mike@example.com,098-765-4321,321 Fake Avenue
Qu’est-ce que le format JSON et comment est-il structuré ?
Format JSON :
- Structure : Format texte pour transmettre des données sous forme de paires clé-valeur, pouvant inclure des objets imbriqués, des tableaux, et des valeurs de différents types (string, number, boolean, null).
- Exemple :
json { "firstName": "John", "lastName": "Smith", "isAlive": true, "age": 27, "address": { "streetAddress": "21 2nd Street", "city": "New York", "state": "NY", "postalCode": "10021-3100" }, "phoneNumbers": ["212 555-1234", "646 555-4567"], "children": [], "spouse": null }
Quels types de données peuvent être contenus dans un fichier SQLite ?
Types de données dans un fichier SQLite :
- NULL : Valeur nulle.
- INTEGER : Entier signé.
- REAL : Valeur flottante.
- TEXT : Texte.
- BLOB : Donnée binaire indéfinie.
Comment Pandas traite-t-il les fichiers Excel pour les données externes ?
Pandas et les fichiers Excel :
- Pandas lit et manipule les fichiers Excel.
- Les données sont organisées en feuilles de calcul, avec des cellules identifiées par des lignes et des colonnes.
Qu’est-ce qu’un fichier SQLite et comment est-il utilisé dans l’ETL ?
SQLite dans l’ETL :
- Un fichier SQLite est une base de données SQL contenue dans un fichier unique.
- Dans un processus ETL, les données peuvent être extraites de SQLite, transformées, puis chargées dans une autre destination.
Quelle est l’importance de la transformation dans le processus ETL ?
Importance de la transformation dans l’ETL :
- La transformation modifie, nettoie, filtre ou enrichit les données extraites.
- Elle garantit la qualité et la pertinence des données avant leur chargement dans la destination pour des analyses futures.
Qu’est-ce qu’une contrainte d’intégrité sémantique dans un SGBD et pouvez-vous donner un exemple ?
Contrainte d’intégrité sémantique :
- Règle qui garantit la validité logique des données.
- Exemple : “Le solde d’un compte ne peut être négatif.”
Qu’est-ce que le contrôle de concurrence dans un SGBD et pourquoi est-il important ?
Contrôle de concurrence dans un SGBD :
- Vise à empêcher les effets indésirables des transactions concurrentes.
- Exemple : Empêcher deux connexions de retirer simultanément de l’argent d’un même compte pour éviter une incohérence de solde.
Quelle est la différence entre fiabilité et sécurité dans un SGBD ?
Différence entre fiabilité et sécurité dans un SGBD :
- Fiabilité : Protection des données contre la corruption et capacité à revenir à un état cohérent après une panne.
- Sécurité : Gestion des utilisateurs, contrôle des droits d’accès et chiffrement des données pour garantir la confidentialité.
Qu’est-ce qu’une transaction dans le contexte d’un SGBD et pourquoi est-elle importante ?
Transaction dans un SGBD :
- Ensemble d’opérations exécutées de manière atomique.
- Garantit la cohérence des modifications et l’intégrité des données.
- Si la transaction échoue, elle est annulée pour maintenir l’état valide de la base de données.
Quelles sont les quatre propriétés ACID des transactions et que signifient-elles ?
Propriétés ACID :
- Atomicité : La transaction est soit entièrement effectuée, soit pas du tout.
- Cohérence : La transaction laisse la base dans un état valide.
- Isolation : Transactions concurrentes ne s’interfèrent pas.
- Durabilité : Une transaction validée persiste même après une panne.
Comment la sécurité dans un SGBD permet-elle de protéger les données sensibles ?
Sécurité dans un SGBD :
- Rôles et permissions : Définissent les droits d’accès aux données.
- Chiffrement : Protège les données sensibles, même en cas de fuite.
Pourquoi la propriété d’isolation est essentielle pour garantir l’intégrité des transactions dans un SGBD ?
Isolation dans les transactions :
- Garantit qu’une transaction n’interfère pas avec une autre.
- Évite les erreurs ou incohérences quand plusieurs transactions modifient les mêmes données simultanément.
Que signifie la durabilité d’une transaction et comment est-elle assurée dans un SGBD ?
Durabilité d’une transaction :
- Une fois validée, une transaction est permanente, même en cas de panne.
- Assurée par des mécanismes de journalisation et de sauvegarde des données avant modification.
Donnez un exemple d’incident où la fiabilité d’un SGBD serait mise en jeu et expliquez comment cela est géré.
Exemple de fiabilité mise en jeu :
- Incident : Panne du serveur pendant une transaction bancaire.
- Gestion : La transaction est annulée, et la base de données revient à un état cohérent pour éviter la corruption des données.
Comment la gestion de transactions dans un SGBD aide-t-elle à maintenir l’intégrité des données ?
Gestion des transactions et intégrité des données :
- Principe : Grouper plusieurs opérations en une seule unité respectant ACID.
- Avantage : En cas d’échec, toute la transaction est annulée, garantissant que la base de données reste cohérente et évitant l’état incohérent des données.