02-CDI Predefined Tasks and Mass Ingestion Flashcards

1
Q

Caratteristiche del REPLICATION TASK

A

Si tratta del più semplice dei 3 compiti predefiniti per trasferimento dati:

  1. può replicare uno o più oggetti
  2. è possibile applicare filtri per copiare solo un sottoinsieme dei dati
  3. esclude colonne dalla replicazione
  • non ha capacità di trasformazione, MA i dati vengono copiati nel target
  • se ci sono più oggetti da replicare, vengono elaborati in sequenza (sottotask per ogni oggetto)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Che tipo di carichi possono eseguire i REPLICATION TASK?

A
  1. COMPLETI: target di tipo flat file
  2. COMPLETI/INCREMENTALI: target di tipo database (deve avere una chiave primaria per permettere aggiornamenti)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cosa si intende con REPLICAZIONE DELLO SCHEMA riferito alle REPLICATION TASK?

A
  1. quando la tabella di destinazione non esiste, verrà creata dal REPLICATION TASK
  2. utile nei casi di backup (tabelle copiate in uno schema di db vuoto)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

A cosa servono i TARGET PREFIX riferito alle REPLICATION TASK?

A
  1. mantenere più versioni della stessa tabella/file
  2. conservare righe eliminate nella sorgente durante caricamenti incrementali
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

CASI D’USO per REPLICATION TASK

A
  1. backup dati in un momento specifico
  2. archiviazione dei dati
  3. reportistica offline
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Caratteristiche del DATA TRANSFER TASK

A
  1. copia i dati da 1 sistema sorgente a 1 target
  2. elabora tabella/file dove selezionare tutti i dati o un sottoinsieme (con un filtro)
  3. possibile aggiungere 2° sorgente come LOOKUP
  4. mapping dei campi (configurazione destinazione dei campi sorgente)
  5. supporta operazioni di INSERIMENTO, AGGIORNAMENTO, UPSERT, ELIMINAZIONE
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Caratteristiche del SYNCHRONIZATION TASK

A
  1. offre maggiori capacità di trasformazione
  2. 1 oggetto sorgente o JOIN per unire più oggetti
  3. non può creare tabelle di destinazione durante esecuzione, per cui l’oggetto di destinazione deve esistere (a differenza altri 2 tipi di task)
  4. puoi elaborare tutti i dati sorgente, limitare n° righe, aggiungere filtro per dati
  5. mapping dei campi di origine a quelli di destinazione
  6. trasformazioni a livello di colonna
  7. possibile aggiunta LOOKUP ai campi
  8. MAPPLETS: componenti riutilizzabili di logica aziendale (costituiti da 1 o più trasformazioni)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Caratteristiche della scheda FIELD MAPPING

A
  1. scegli se mappare campi manualmente o usare AUTOMAP (funzione)
  2. AUTOMAP: al suo interno puoi mappare campi esatti o usare INTELLIGENT MAPPING (cerca nomi simili)
  3. espressioni per qualsiasi trasformazione necessaria
  4. possibile aggiunta LOOKUP
  5. EDIT TYPES: tasto per cambiare data type
  6. possibile aggiunta MAPPLET (per trasformazioni complesse)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Caratteristiche della MASS INGESTION

A
  1. ingerisce dati da:
    - database
    - applicazioni
    - file
    - fonti di streaming
  2. possibile selezione di 1 o più oggetti da ingerire
  3. subtask per ogni oggetto
  4. attività vengono svolte in parallelo
  5. possibile esecuzione su Secure Agent, Advanced Cluster, Serverless
  6. output file (csv, avro, parquet) o database
  7. possibilità di pianificare mass ingestion
  8. non supporta trasformazioni
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quali tipi di ingestione sono supportati da CLOUD MASS INGESTION?

A
  1. INITIAL INGESTION:
    - full load
    - trasferisce l’intero set di dati nel sistema di destinazione
    - utilizzato per avviare uno scenario CDC (change data capture)
  2. INCREMENTAL INGESTION:
    - si concentra sulle modifiche apportate ai dati nel sistema di origine
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

A cosa serve il CHANGE DATA CAPTURE (CDC)? Com’è strutturato?

A
  1. A COSA SERVE: legge i log del database per catturare le modifiche apportate ai dati originali
  2. ARCHITETTURA:
    - SERVER DATABASE (qui vengono modificati i dati)
    - CLOUD SECURE AGENT (installato sul server del database)
    - SUBTASKS READER & WRITER:
    a. reader = accede ai log del database ed estrae i dati pertinenti, per scriverli in un DATA STORE PERSISTENTE
    b. writer = riceve i dati nel data store, li legge e li scrive verso un sistema di destinazione
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Perché utilizzare un data store intermedio (CDC)?

A
  1. serve a separare il processo di lettura dei log dall’applicazione delle modifiche al sistema di destinazione
  2. questa architettura garantisce un’elaborazione sicura e scalabile, evitando la perdita di informazioni durante il ciclo di vita dei log del database
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quali sono i passaggi di configurazione di un JOB di MASS INGESTION?

A
  1. definizione
  2. selezione delle tabelle sorgenti
  3. specificazione del target
  4. opzioni di runtime
  • completata la configurazione, puoi salvare il job e a questo punto:
    a. DEPLOY (prima dell’esecuzione)
    b. RUN (dalla sezione MY JOBS)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quali sono i passaggi di configurazione di un JOB di MASS INGESTION INCREMENTALE?

A
  1. PAGINA DELLA SORGENTE: scegliere se generare automaticamente gli script per CDC, invece che manualmente.
    Configurazioni di accesso a sorgente =
    - utilizzo filegroup specifico
    - definizione di un gating role
  2. OPZIONI DI RUNTIME:
    schema drift (configura comportamento jobs)
    - replicate
    - stop table
    - stop job
How well did you know this?
1
Not at all
2
3
4
5
Perfectly