02-CDI Predefined Tasks and Mass Ingestion Flashcards
Caratteristiche del REPLICATION TASK
Si tratta del più semplice dei 3 compiti predefiniti per trasferimento dati:
- può replicare uno o più oggetti
- è possibile applicare filtri per copiare solo un sottoinsieme dei dati
- esclude colonne dalla replicazione
- non ha capacità di trasformazione, MA i dati vengono copiati nel target
- se ci sono più oggetti da replicare, vengono elaborati in sequenza (sottotask per ogni oggetto)
Che tipo di carichi possono eseguire i REPLICATION TASK?
- COMPLETI: target di tipo flat file
- COMPLETI/INCREMENTALI: target di tipo database (deve avere una chiave primaria per permettere aggiornamenti)
Cosa si intende con REPLICAZIONE DELLO SCHEMA riferito alle REPLICATION TASK?
- quando la tabella di destinazione non esiste, verrà creata dal REPLICATION TASK
- utile nei casi di backup (tabelle copiate in uno schema di db vuoto)
A cosa servono i TARGET PREFIX riferito alle REPLICATION TASK?
- mantenere più versioni della stessa tabella/file
- conservare righe eliminate nella sorgente durante caricamenti incrementali
CASI D’USO per REPLICATION TASK
- backup dati in un momento specifico
- archiviazione dei dati
- reportistica offline
Caratteristiche del DATA TRANSFER TASK
- copia i dati da 1 sistema sorgente a 1 target
- elabora tabella/file dove selezionare tutti i dati o un sottoinsieme (con un filtro)
- possibile aggiungere 2° sorgente come LOOKUP
- mapping dei campi (configurazione destinazione dei campi sorgente)
- supporta operazioni di INSERIMENTO, AGGIORNAMENTO, UPSERT, ELIMINAZIONE
Caratteristiche del SYNCHRONIZATION TASK
- offre maggiori capacità di trasformazione
- 1 oggetto sorgente o JOIN per unire più oggetti
- non può creare tabelle di destinazione durante esecuzione, per cui l’oggetto di destinazione deve esistere (a differenza altri 2 tipi di task)
- puoi elaborare tutti i dati sorgente, limitare n° righe, aggiungere filtro per dati
- mapping dei campi di origine a quelli di destinazione
- trasformazioni a livello di colonna
- possibile aggiunta LOOKUP ai campi
- MAPPLETS: componenti riutilizzabili di logica aziendale (costituiti da 1 o più trasformazioni)
Caratteristiche della scheda FIELD MAPPING
- scegli se mappare campi manualmente o usare AUTOMAP (funzione)
- AUTOMAP: al suo interno puoi mappare campi esatti o usare INTELLIGENT MAPPING (cerca nomi simili)
- espressioni per qualsiasi trasformazione necessaria
- possibile aggiunta LOOKUP
- EDIT TYPES: tasto per cambiare data type
- possibile aggiunta MAPPLET (per trasformazioni complesse)
Caratteristiche della MASS INGESTION
- ingerisce dati da:
- database
- applicazioni
- file
- fonti di streaming - possibile selezione di 1 o più oggetti da ingerire
- subtask per ogni oggetto
- attività vengono svolte in parallelo
- possibile esecuzione su Secure Agent, Advanced Cluster, Serverless
- output file (csv, avro, parquet) o database
- possibilità di pianificare mass ingestion
- non supporta trasformazioni
Quali tipi di ingestione sono supportati da CLOUD MASS INGESTION?
- INITIAL INGESTION:
- full load
- trasferisce l’intero set di dati nel sistema di destinazione
- utilizzato per avviare uno scenario CDC (change data capture) - INCREMENTAL INGESTION:
- si concentra sulle modifiche apportate ai dati nel sistema di origine
A cosa serve il CHANGE DATA CAPTURE (CDC)? Com’è strutturato?
- A COSA SERVE: legge i log del database per catturare le modifiche apportate ai dati originali
- ARCHITETTURA:
- SERVER DATABASE (qui vengono modificati i dati)
- CLOUD SECURE AGENT (installato sul server del database)
- SUBTASKS READER & WRITER:
a. reader = accede ai log del database ed estrae i dati pertinenti, per scriverli in un DATA STORE PERSISTENTE
b. writer = riceve i dati nel data store, li legge e li scrive verso un sistema di destinazione
Perché utilizzare un data store intermedio (CDC)?
- serve a separare il processo di lettura dei log dall’applicazione delle modifiche al sistema di destinazione
- questa architettura garantisce un’elaborazione sicura e scalabile, evitando la perdita di informazioni durante il ciclo di vita dei log del database
Quali sono i passaggi di configurazione di un JOB di MASS INGESTION?
- definizione
- selezione delle tabelle sorgenti
- specificazione del target
- opzioni di runtime
- completata la configurazione, puoi salvare il job e a questo punto:
a. DEPLOY (prima dell’esecuzione)
b. RUN (dalla sezione MY JOBS)
Quali sono i passaggi di configurazione di un JOB di MASS INGESTION INCREMENTALE?
- PAGINA DELLA SORGENTE: scegliere se generare automaticamente gli script per CDC, invece che manualmente.
Configurazioni di accesso a sorgente =
- utilizzo filegroup specifico
- definizione di un gating role - OPZIONI DI RUNTIME:
schema drift (configura comportamento jobs)
- replicate
- stop table
- stop job