02-CDI Predefined Tasks and Mass Ingestion Flashcards

Question 1

Q

Caratteristiche del REPLICATION TASK

Answer

A

Si tratta del più semplice dei 3 compiti predefiniti per trasferimento dati:

può replicare uno o più oggetti
è possibile applicare filtri per copiare solo un sottoinsieme dei dati
esclude colonne dalla replicazione

non ha capacità di trasformazione, MA i dati vengono copiati nel target
se ci sono più oggetti da replicare, vengono elaborati in sequenza (sottotask per ogni oggetto)

Question 2

Q

Che tipo di carichi possono eseguire i REPLICATION TASK?

Answer

A

COMPLETI: target di tipo flat file
COMPLETI/INCREMENTALI: target di tipo database (deve avere una chiave primaria per permettere aggiornamenti)

Question 3

Q

Cosa si intende con REPLICAZIONE DELLO SCHEMA riferito alle REPLICATION TASK?

Answer

A

quando la tabella di destinazione non esiste, verrà creata dal REPLICATION TASK
utile nei casi di backup (tabelle copiate in uno schema di db vuoto)

Question 4

Q

A cosa servono i TARGET PREFIX riferito alle REPLICATION TASK?

Answer

A

mantenere più versioni della stessa tabella/file
conservare righe eliminate nella sorgente durante caricamenti incrementali

Question 5

Q

CASI D’USO per REPLICATION TASK

Answer

A

backup dati in un momento specifico
archiviazione dei dati
reportistica offline

Question 6

Q

Caratteristiche del DATA TRANSFER TASK

Answer

A

copia i dati da 1 sistema sorgente a 1 target
elabora tabella/file dove selezionare tutti i dati o un sottoinsieme (con un filtro)
possibile aggiungere 2° sorgente come LOOKUP
mapping dei campi (configurazione destinazione dei campi sorgente)
supporta operazioni di INSERIMENTO, AGGIORNAMENTO, UPSERT, ELIMINAZIONE

Question 7

Q

Caratteristiche del SYNCHRONIZATION TASK

Answer

A

offre maggiori capacità di trasformazione
1 oggetto sorgente o JOIN per unire più oggetti
non può creare tabelle di destinazione durante esecuzione, per cui l’oggetto di destinazione deve esistere (a differenza altri 2 tipi di task)
puoi elaborare tutti i dati sorgente, limitare n° righe, aggiungere filtro per dati
mapping dei campi di origine a quelli di destinazione
trasformazioni a livello di colonna
possibile aggiunta LOOKUP ai campi
MAPPLETS: componenti riutilizzabili di logica aziendale (costituiti da 1 o più trasformazioni)

Question 8

Q

Caratteristiche della scheda FIELD MAPPING

Answer

A

scegli se mappare campi manualmente o usare AUTOMAP (funzione)
AUTOMAP: al suo interno puoi mappare campi esatti o usare INTELLIGENT MAPPING (cerca nomi simili)
espressioni per qualsiasi trasformazione necessaria
possibile aggiunta LOOKUP
EDIT TYPES: tasto per cambiare data type
possibile aggiunta MAPPLET (per trasformazioni complesse)

Question 9

Q

Caratteristiche della MASS INGESTION

Answer

A

ingerisce dati da:
- database
- applicazioni
- file
- fonti di streaming
possibile selezione di 1 o più oggetti da ingerire
subtask per ogni oggetto
attività vengono svolte in parallelo
possibile esecuzione su Secure Agent, Advanced Cluster, Serverless
output file (csv, avro, parquet) o database
possibilità di pianificare mass ingestion
non supporta trasformazioni

Question 10

Q

Quali tipi di ingestione sono supportati da CLOUD MASS INGESTION?

Answer

A

INITIAL INGESTION:
- full load
- trasferisce l’intero set di dati nel sistema di destinazione
- utilizzato per avviare uno scenario CDC (change data capture)
INCREMENTAL INGESTION:
- si concentra sulle modifiche apportate ai dati nel sistema di origine

Question 11

Q

A cosa serve il CHANGE DATA CAPTURE (CDC)? Com’è strutturato?

Answer

A

A COSA SERVE: legge i log del database per catturare le modifiche apportate ai dati originali
ARCHITETTURA:
- SERVER DATABASE (qui vengono modificati i dati)
- CLOUD SECURE AGENT (installato sul server del database)
- SUBTASKS READER & WRITER:
a. reader = accede ai log del database ed estrae i dati pertinenti, per scriverli in un DATA STORE PERSISTENTE
b. writer = riceve i dati nel data store, li legge e li scrive verso un sistema di destinazione

Question 12

Q

Perché utilizzare un data store intermedio (CDC)?

Answer

A

serve a separare il processo di lettura dei log dall’applicazione delle modifiche al sistema di destinazione
questa architettura garantisce un’elaborazione sicura e scalabile, evitando la perdita di informazioni durante il ciclo di vita dei log del database

Question 13

Q

Quali sono i passaggi di configurazione di un JOB di MASS INGESTION?

Answer

A

definizione
selezione delle tabelle sorgenti
specificazione del target
opzioni di runtime

completata la configurazione, puoi salvare il job e a questo punto:
a. DEPLOY (prima dell’esecuzione)
b. RUN (dalla sezione MY JOBS)

Question 14

Q

Quali sono i passaggi di configurazione di un JOB di MASS INGESTION INCREMENTALE?

Answer

A

PAGINA DELLA SORGENTE: scegliere se generare automaticamente gli script per CDC, invece che manualmente.
Configurazioni di accesso a sorgente =
- utilizzo filegroup specifico
- definizione di un gating role
OPZIONI DI RUNTIME:
schema drift (configura comportamento jobs)
- replicate
- stop table
- stop job