5 - ETL, source externe et SGBD Flashcards

1
Q

Que signifie l’acronyme ETL et quelles sont ses étapes principales ?

A

ETL : Extract, Transform, Load
- Extract : Extraction des données de la source.
- Transform : Transformation (filtrage, modification, nettoyage).
- Load : Chargement des données transformées dans la destination.

Cela résume bien les étapes principales du processus ETL.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les sources de données externes que Pandas peut lire et manipuler ?

A

Sources de données externes dans Pandas :
- CSV : Fichiers de valeurs séparées par des virgules.
- JSON : Format JavaScript Object Notation.
- Excel : Fichiers Excel (.xls, .xlsx).
- SQLite : Bases de données SQL.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce qu’un fichier CSV et comment est-il structuré ?

A

Fichier CSV :
- Structure : Fichier texte avec des lignes séparées par des retours à la ligne. Les colonnes sont séparées par des virgules.
- Exemple :

  Name,Email,Phone Number,Address
  Bob Smith,bob@example.com,123-456-7890,123 Fake Street
  Mike Jones,mike@example.com,098-765-4321,321 Fake Avenue
 
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce que le format JSON et comment est-il structuré ?

A

Format JSON :
- Structure : Format texte pour transmettre des données sous forme de paires clé-valeur, pouvant inclure des objets imbriqués, des tableaux, et des valeurs de différents types (string, number, boolean, null).
- Exemple :

json
  {
    "firstName": "John",
    "lastName": "Smith",
    "isAlive": true,
    "age": 27,
    "address": {
      "streetAddress": "21 2nd Street",
      "city": "New York",
      "state": "NY",
      "postalCode": "10021-3100"
    },
    "phoneNumbers": ["212 555-1234", "646 555-4567"],
    "children": [],
    "spouse": null
  }
 
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quels types de données peuvent être contenus dans un fichier SQLite ?

A

Types de données dans un fichier SQLite :
- NULL : Valeur nulle.
- INTEGER : Entier signé.
- REAL : Valeur flottante.
- TEXT : Texte.
- BLOB : Donnée binaire indéfinie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Comment Pandas traite-t-il les fichiers Excel pour les données externes ?

A

Pandas et les fichiers Excel :
- Pandas lit et manipule les fichiers Excel.
- Les données sont organisées en feuilles de calcul, avec des cellules identifiées par des lignes et des colonnes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Qu’est-ce qu’un fichier SQLite et comment est-il utilisé dans l’ETL ?

A

SQLite dans l’ETL :
- Un fichier SQLite est une base de données SQL contenue dans un fichier unique.
- Dans un processus ETL, les données peuvent être extraites de SQLite, transformées, puis chargées dans une autre destination.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Quelle est l’importance de la transformation dans le processus ETL ?

A

Importance de la transformation dans l’ETL :
- La transformation modifie, nettoie, filtre ou enrichit les données extraites.
- Elle garantit la qualité et la pertinence des données avant leur chargement dans la destination pour des analyses futures.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qu’une contrainte d’intégrité sémantique dans un SGBD et pouvez-vous donner un exemple ?

A

Contrainte d’intégrité sémantique :
- Règle qui garantit la validité logique des données.
- Exemple : “Le solde d’un compte ne peut être négatif.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce que le contrôle de concurrence dans un SGBD et pourquoi est-il important ?

A

Contrôle de concurrence dans un SGBD :
- Vise à empêcher les effets indésirables des transactions concurrentes.
- Exemple : Empêcher deux connexions de retirer simultanément de l’argent d’un même compte pour éviter une incohérence de solde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quelle est la différence entre fiabilité et sécurité dans un SGBD ?

A

Différence entre fiabilité et sécurité dans un SGBD :

  • Fiabilité : Protection des données contre la corruption et capacité à revenir à un état cohérent après une panne.
  • Sécurité : Gestion des utilisateurs, contrôle des droits d’accès et chiffrement des données pour garantir la confidentialité.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce qu’une transaction dans le contexte d’un SGBD et pourquoi est-elle importante ?

A

Transaction dans un SGBD :

  • Ensemble d’opérations exécutées de manière atomique.
  • Garantit la cohérence des modifications et l’intégrité des données.
  • Si la transaction échoue, elle est annulée pour maintenir l’état valide de la base de données.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quelles sont les quatre propriétés ACID des transactions et que signifient-elles ?

A

Propriétés ACID :

  • Atomicité : La transaction est soit entièrement effectuée, soit pas du tout.
  • Cohérence : La transaction laisse la base dans un état valide.
  • Isolation : Transactions concurrentes ne s’interfèrent pas.
  • Durabilité : Une transaction validée persiste même après une panne.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment la sécurité dans un SGBD permet-elle de protéger les données sensibles ?

A

Sécurité dans un SGBD :

  • Rôles et permissions : Définissent les droits d’accès aux données.
  • Chiffrement : Protège les données sensibles, même en cas de fuite.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Pourquoi la propriété d’isolation est essentielle pour garantir l’intégrité des transactions dans un SGBD ?

A

Isolation dans les transactions :

  • Garantit qu’une transaction n’interfère pas avec une autre.
  • Évite les erreurs ou incohérences quand plusieurs transactions modifient les mêmes données simultanément.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Que signifie la durabilité d’une transaction et comment est-elle assurée dans un SGBD ?

A

Durabilité d’une transaction :

  • Une fois validée, une transaction est permanente, même en cas de panne.
  • Assurée par des mécanismes de journalisation et de sauvegarde des données avant modification.
17
Q

Donnez un exemple d’incident où la fiabilité d’un SGBD serait mise en jeu et expliquez comment cela est géré.

A

Exemple de fiabilité mise en jeu :

  • Incident : Panne du serveur pendant une transaction bancaire.
  • Gestion : La transaction est annulée, et la base de données revient à un état cohérent pour éviter la corruption des données.
18
Q

Comment la gestion de transactions dans un SGBD aide-t-elle à maintenir l’intégrité des données ?

A

Gestion des transactions et intégrité des données :

  • Principe : Grouper plusieurs opérations en une seule unité respectant ACID.
  • Avantage : En cas d’échec, toute la transaction est annulée, garantissant que la base de données reste cohérente et évitant l’état incohérent des données.