Capitolo 7 - Integrazione Flashcards

1
Q

Qual è il motivo dietro la necessità della integrazione di basi di dati?

A

Per sviluppare un sistema informativo è necessario un processo di integrazione, pulizia e trasformazione dei dati. Questo processo è di tipo incrementale ed evolutivo e necessita di un lungo periodo di tempo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Cosa si intende con il termine integrazione?

A

Si intende l’insieme delle attività volte a costruire una versione integrata e consistente del sistema informatico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quali sono gli aspetti intensionali e quali quelli estensionali?

A

Gli aspetti intensionali sono l’integrazione degli schemi, con l’obbiettivo di rendere consistenti i diversi moduli.
Gli aspetti estensionali sono la trasformazione e la pulizia dei dati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Descrivi più nel dettaglio la fase di integrazione dello schema

A

I principali processi dell’integrazione sono:
- ANALISI E NORMALIZZAZIONE: si analizzano gli schemi sorgenti per produrre degli schemi sempre locali però più completi e consistenti
- DEFINIZIONE DELLO SCHEMA CONCILIATO: è la fase più delicata dove si fondono gli schemi locali in uno schema globale che comprende le informazioni dei vari schemi sorgenti
- FASE DI MAPPING: si definisce la relazione tra i concetti degli schemi sorgenti e lo schema globale (funzione di mapping).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quali sono le due modalità di visualizzazione dei dati nello schema globale?

A

Lo schema globale può essere:
- VIRTUALE: ovvero che i dati dello schema globale vengono creati solo nel momento in cui sono richiesti, quindi non sono memorizzati, è la soluzione maggiormente utilizzata.
- MATERIALIZZATO: i dati dello schema vengono trasformati e memorizzati (e quindi duplicati).
Bisogna comunque far notare il fatto che non sempre è possibile creare un unico schema globale per via della complessità dei dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Che cos’è l’M.D.M.?

A

Il Master Data Management è l’integrazione limitata ai dati critici dell’azienda

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Parla della fase di analisi e normalizzazione

A

In questa fase gli analisti si devono sforzare a individuare all’interno degli schemi sorgenti eventuali dipendenze funzionali precedentemente tralasciate e individuare nuove associazioni tra entità. In questa fase però non bisogna introdurre nuovi concetti, bensì esplicitare al meglio quelli già esistenti per poter creare uno schema concettuale il più possibile completo. Dove non è presente lo schema concettuale deve essere ricavato tramite il reverse engineering.
Uno dei problemi principali della normalizzazione è il fatto che le diverse organizzazioni all’interno dell’azienda memorizzano i dati attraverso prospettive diverse, equivalenza dei costrutti di modello o incompatibilità delle specifiche. La fase di integrazione deve quindi evidenziare i concetti comuni, ma anche i concetti distinti e memorizzati in diversi schemi che però hanno associazioni attraverso proprietà semantiche (proprietà inter-schema)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Approfondisci meglio i problemi della fase di analisi e normalizzazione

A
  • DIVERSITA’ DI PROSPETTIVA: è chiaramente un problema, soprattutto nel momento in cui nei diversi schemi si ha un diverso livello di approfondimento dell’entità, a seconda dell’importanza che ricopre nello schema
  • EQUIVALENZA DEI COSTRUTTI DI MODELLO: avviene quando lo stesso concetto viene espresso in modi diversi, ma rimane equivalente, in questo caso è necessario identificarlo.
  • INCOMPATIBILITA’ DELLE SPECIFICHE: avviene quando due schemi modellano una stessa porzione di dominio ma con specifiche incompatibili tra di loro.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Parla dei concetti comuni.

A

In fase di analisi è necessario definire il tipo di relazione semantica tra concetti comuni modellati in modo differente nei diversi schemi. Ci sono 4 possibili relazioni differenti tra stessi concetti:
- IDENTITA’: R1 e R2 coincidono, stessi costrutti e sono modellati ugualmente
- EQUIVALENZA: R1 e R2 sono stati modellati con costrutti diversi ma sono equivalenti.
- COMPATIBILITA’: R1 e R2 non sono equivalenti (e quindi neanche identici), però non sono in contrasto tra loro
- INCOMPATIBILITA’: R1 e R2 sono in conflitto a causa di incompatibilità di specifiche
R1 e R2 sono definiti equivalenti se le loro istante possono essere messe in corrispondenza 1:1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Parla dei concetti correlati

A

In alcuni casi è possibile che concetti diversi in schemi diversi abbiano delle correlazioni.
Durante l’analisi le correlazioni devono venire esplicitate e danno vita a nuove relazioni, esse si chiamano proprietà inter-schema

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Parla della fase di integrazione

A

Essendo la fase di integrazione molto complessa necessità di diversi processi. Per far sì che vada tutto a buon fine è conveniente utilizzare una metodologia, le varie presenti concordano tutte su alcune fasi:
- PREINTEGRAZIONE: comprende la fase di analisi e scelta della strategia di integrazione
- COMPARAZIONE DEGLI SCHEMI: gli schemi vengono comparati per individuare eventuali conflitti e correlazioni
- ALLINEAMENTO DEGLI SCHEMI: gli analisti devono risolvere i conflitti precedentemente individuati
- FUSIONE DEGLI SCHEMI: una volta risolti i conflitti gli schemi locali vengono fusi per creare un unico schema globale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Approfondisci la fase di Preintegrazione nell’integrazione degli schemi

A

In questa fase principalmente bisogna decidere la strategia di integrazione, ce ne sono di due tipi:
- Tecniche ennarie: l’integrazione avviene prendendo più di due schemi contemporaneamente
- Tecniche binarie: l’integrazione avviene prendendo due schemi alla volta, lo schema risultato viene poi utilizzato per la seconda fase di integrazione.
Con la tecnica binaria a scala è possibile definire quali sono gli schemi sorgenti da cui iniziare per creare lo schema globale, in questo modo si può dare più importanza agli schemi core.
L’approccio binario rende il singolo passo più semplice, mentre quello ennario necessita di meno passaggi ma più complessi.
Inoltre con l’approccio ennario si riescono a creare schemi avendo a disposizione contemporaneamente di tutte le informazioni che caratterizzano un concetto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Approfondisci la fase di comparazione degli schemi

A

La comparazione degli schemi mira a identificare i possibili conflitti e comparazioni tra i concetti.
Ci sono 4 possibili tipi di conflitti:
- CONFLITTI DI ETEROGENEITA’: discrepanze per l’utilizzo di formalismi diversi (es. UML e E/R)
- CONFLITTI SUI NOMI: omonimie o sinonimie
- CONFLITTI SEMANTICI: si verifica quando due schemi modellano la stessa porzione di mondo reale ma ad un livello diverso di astrazione
- CONFLITTI STRUTTURALI: causati da scelte diverse di modellazione o dall’applicazione di diversi vincoli di integrità, si suddividono in 4 categorie:
- conflitti di tipo: stesso concetto con costrutti diversi
- conflitti di dipendenza: due o più concetti sono correlati con dipendenze diverse in schemi diversi
- conflitti di chiave: uso di identificatori diversi
- conflitti di comportamento: stesso concetto ma comportamento diverso in base allo schema (diverse politiche di cancellazione/modifica)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Approfondisci la fase di allineamento e fusione degli schemi

A

Durante questa fase si procede con l’eliminazione dei conflitti tramite delle trasformazioni e si procede in seguito con la fusione degli schemi. Ci possono essere dei cambi di nomi, cambi dei tipi di attributi, modifica delle dip. funzionali o modifica di vincoli esistenti. In caso di incertezza è buona norma preferire i vincoli presenti sugli schemi ritenuti più “core”.
I principi della fusione sono:
- COMPLETEZZA: dopo la sovrapposizione degli schemi sorgenti saranno evidenti più proprietà inter-schema.
- MINIMALITA’: visto che la sovrapposizione porta ad una ridondanza dei concetti bisogna cercare di rimanere minimalisti
LEGGIBILITA’: cercare di far rimanere lo schema leggibile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Approfondisci la fase di mapping

A

dopo la fase di riconciliazione degli schemi si derivano due elementi:
- lo schema riconciliato
- il Mapping, che sarebbe l’insieme di corrispondenze tra gli elementi presenti negli schemi sorgenti e lo schema globale esse vengono utilizzate ogni volta in cui si interrogano i database locali su dati del database globale
Ci sono due tipi di implementazione del mapping:
- GAV (Global as View) ad ogni concetto dello schema globale deve corrispondere una vista. Questo metodo riduce l’estendibilità dello schema riconciliato poiché ad ogni aggiunta di una nuova sorgente bisogna modificare tutti i concetti che la utilizzano, però facilita le interrogazioni perché è tutto presente nella vista
- LAV (Local as View): lo schema globale viene espresso indipendentemente dalle sorgenti, i cui concetti saranno definiti come viste, richiede trasformazioni complesse ma facilita l’estendibilità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Cosa si intende con pulizia dei dati?

A

La pulizia dei dati è un insieme di operazioni atte a garantire la consistenza e la correttezza dei dati. Le cause principali di inconsistenza dei dati sono:
- ERRORI DI BATTITURA
- DIFFERENZE DI FORMATO DEI VALORI DELLO STESSO CAMPO (es. “I”, “IT”, “Italia”)
- INCONSISTENZA TRA VALORI E DESCRIZIONE DEI CAMPI: si verifica a causa dell’evoluzione nel modo di operare in azienda
- INCONSISTENZA TRA VALORI DI CAMPI CORRELATI: (es. “Bologna”, regione “Lazio”)
- INFORMAZIONI MANCANTI: es. dei campi facoltativi
- INFORMAZIONI DUPLICATE

17
Q

Cosa sono le tecniche basate sui dizionari?

A

Sono tecniche utilizzate per verificare la correttezza dei valori di un campo.
Sono applicabili solo quando il dominio del campo è conosciuto e limitato (es. città).
Queste tecniche possono essere applicate anche a più campi contemporaneamente per evitare inconsistenza tra campi.
In alcuni casi si uniscono record di cui non si sa se siano corrispondenti o meno, esso si chiama “join approssimato”.
Quando due istanze diverse di uno stesso schema devono essere fuse assieme si parla di purge/merge problem. In questo caso i record potrebbero essere stati inseriti più volte.

18
Q

Che cosa sono le tecniche basate sulla similarità tra record

A

Servono sempre per verificare la correttezza dei valori nei campi.
- TECNICHE BASATE SU FUNZIONI DI SIMILARITA’: comparano stringhe di Ai appartenenti ad A e Bi appartenenti a B
- TECNICHE BASATE SU GRUPPI DI REGOLE: vengono valutate caratteristiche particolari, es. edit-distance tra due stringhe o la differenza di valore tra due campi numerici.

19
Q

Che cos’è l’MDM

A

Il Master Data Management è l’insieme di discipline, tecnologie e soluzioni in grado di creare e mantenere consistenti e completi i dati di importanza critica, infatti con “master data” si indica l’insieme dei dati fondamentali per l’azienda.
Ci sono più aree specifiche:
- PIM (Product Information Management): incentrata sui Master Data del prodotto
- CDI (Customer Data Integration) incentrati sui master data dei clienti, fornitori ecc..
Per evitare problemi di inefficienza e di consistenza è buona norma spostare i MD al fuori delle singole applicazioni, e si toccano per alimentare e sfruttare al meglio la nuova base dati “master”.
è importante definire la “ownership” dei MD e dei processi di alimentazione e gestione che li riguardano.

20
Q

Quali sono i tipi di MD(Master Data)?

A
  • NON STRUTTURALI (email, pdf, ecc.)
  • METADATI (descrizione attr, glossario)
  • TRANSAZIONALI (fatture, ordini)
  • GERARCHICI (relazioni tra concetti)
  • MASTER (persone, cose, luoghi)
    Le caratteristiche dei MD:
  • QUANTITA’: la creazione di questa architettura avviene solo per grandi quantità di dati
  • LIFETIME: meno volatili dei normali dati
  • VALORE
  • COMPLESSITA’: se non sono difficili da gestire non serve creare questa architettura
  • RIUSIBILITA’
  • CENTRALITA’
21
Q

Quali sono le fasi di un progetto MDM?

A

L’MDM non può essere considerato una tantum, perché necessita di anche di manutenzione, le sue fasi principali sono:
1) Individuare le sorgenti dati
2) Specificare produttori e consumatori di MD
3) Raccogliere metadati sui MD
4) Identificare gli esperti dei MD: per ogni sorgente si identificano persone in grado di descrivere come i MD debbano essere trasformare
5) Definire il processo di data-governance e il relativo gruppo di lavoro
6) sviluppare un modello di gestione dei MD
7) Scegliere uno strumento/tool
8) Progettare e implementare l’infrastruttura di gestione
9) Generare e testare i master data
10) Modificare le applicazioni produttrici e consumatrici di MD
11) Definire il processo di manutenzioni

22
Q

Quali sono le 4 architetture per l’MDM?

A
  • CONSOLIDAMENTO: l’architettura viene fisicamente instanziata mediante un hub centrale che contiene i “golden record”, i MD sono utilizzati principalmente per le attività di reportistica. I MD possono essere scaricati periodicamente e non sono utilizzati durante le transazioni di sistemi sorgente.
  • A REGISTRO: viene costruito un registro centrale che collega le versioni locali dei dati, le sorgenti pubblicano i dati e l’hub tiene il riferimento, la proprietà rimane alle applicazioni sorgenti. L’hub esegue algoritmi di pulizia dei dati e match tra record e assegna identificazioni univoci, quindi la logica di ricostruzione del dato diventa complessa poiché agisce su più applicazioni.
  • COESISTENZA: viene costruito un hub che tiene una versione aggiornata dei dati che viene in seguito ( non sincrona) riversata sulle sorgenti, quindi l’architettura non garantisce che i dati siano aggiornati e la proprietà rimane alle sorgenti. I MD sono usati per armonizzare il comportamento tra più applicazioni e come punto di riferimento centralizzato.
  • TRANSAZIONE: viene costruito una versione aggiornata in modo sincrono da tutte le applicazioni. La proprietà è trasferita all’hub e i MD sono utilizzati sia nella normale operatività delle applicazioni, sia per armonizzare il comportamento tra più applicazioni
23
Q

Cos’è il data fabric?

A

è un’architettura unificata con un insieme integrato di tecnologie e servizi, progetti per fornire dati integrati e arricchiti a supporto dei carichi di lavoro, sia operativi che analitici.
Il data fabric permette un accesso e una condivisione in un ambiente distribuito, anche multi-cloud, identifica e collega continuamente i dati provenienti da applicazioni diverse scoprendo relazioni rilevanti per il business tra le sorgenti dati disponibili.

24
Q

che cos’è il Data Ops

A

Deriva dal termine Dev Ops, in questo caso si riferisce alla comunicazione, integrazione e automazione del data flow tra manager e consumatori. Le regole base sono:
- stabilire misure di progresso e performance in ogni fase
- Automatizzare il maggior numero possibile di fasi del flusso di dati
- Stabilire una disciplina di governance
- Progettare il processo per la crescita e l’estendibilità

25
Q

Che cos’è il Data Mesh

A

è un metodo per la gestione di grandi quantità di dati, ha l’obbiettivo di abilitare le organizzazioni a diventare maggiormente Data Driven

26
Q

Quali sono i principi del Data Mesh?

A
  • DOMAIN OWNERSHIP: L’infrastruttura dati è responsabile della fornitura delle tecnologie utili al processamento dei dati, ma sono i domini ad essere responsabili delle pipeline di ingestion, pulizia e aggregazioni dati
  • DATA AS A PRODUCT: le caratteristiche che un data product deve mappare sono: discoverance e addressable, understandable, trustworthy e accessible, interoperable e secure
    Questo principio è pensato per indirizzare problematiche di data quality e dei vacchi data silo, o ancora meglio dei dark data
  • FEDERATED COMPUTATIONAL GOVERNANCE: un fattore critico di successo è riuscire a trovare e mantenere un giusto equilibrio tra centralizzazione e decentralizzazione, definendo quali decisioni debbano essere prese localmente e quali vadano definite globalmente.
  • SELFT-SERVICE PLATFORM: per gestire i Data Product è necessario un Data Platform che deve fornire servizi utili ai team di dominio, è necessario quindi predisporre una self-serve data platform
27
Q

Quali sono le differenze tra Data Mesh e Data Fabric?

A

Data Mesh: maggiore enfasi sulla decentralizzazione e autonomia, si concentra sul cambiamento organizzativo sulle persone e sui processi
- Data Fabric: tenta di centralizzare e coordinare la gestione dei dati, affronta la complessità basandosi sui metadati.
Essi però non si escludono a vicenda, non sono framework architetturali, bensì architetture.

28
Q
A