Cap.13 Data Warehouse Flashcards

1
Q

Operatori olap (Nota: anche il pivoting)

A

OLAP è la principale modalità di fruizione delle informazioni contenute in un DW.
Consente agli utenti di esplorare interattivamente i dati sulla base del modello multidimensionale, quest’ultimo viene utilizzato per la rappresentazione e l’interrogazione dei dati nei DW.
Gli OLAP sono operazioni che si applicano a cubi multidimensionali e restituiscono nuovi cubi, non necessariamente con lo stesso numero di dimensioni. Esistono diversi operatori tra cui:
▪ Slicing, si fissa un valore per almeno uno degli attributi dimensionali e si escludono dall’analisi tutti quegli eventi che non presentano tale valore;
▪ Dacing, si stabilisce per almeno una delle dimensioni di analisi un sottoinsieme di valori possibili per tale attributo e di escludere quei fatti che non
sono associati a nessuno di tali valori;
▪ Roll-Up, consiste in un’aggregazione dei dati di un cubo seguita dall’applicazione di una funzione aggregativa (in genere la somma);
▪ Drill-Down, operazione inversa del roll-up, consiste cioè di aggiungere dettaglio a un cubo disaggregandolo lungo una o più dimensioni;
▪ Drill-Across, consiste nello stabilire un confronto tra due o più cubi correlati in modo da ottenere una visualizzazione comparata di due diverse
misure e per il calcolo di misure derivate dai dati presenti sui cubi.
▪ Drill-Through, consiste nel passaggio dai dati aggregati multi dimensionalmente del DW ai dati operazionali presenti nelle sorgenti;
▪ Pivoting, consiste nel ruotare gli assi di visualizzazione del cubo dei fatti mantenendo invariato il livello di aggregazione ed il numero di dimensioni:
incrementa leggibilità delle stesse informazioni.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Eventi primari e secondari

A

Un evento primario è una particolare occorrenza di un fatto, individuata da una ennupla caratterizzata da un valore per ciascuna dimensione. Ad
esempio, un evento primario potrebbe essere il “05/04/01” nel negozio “DiTutto” è stata venduta una quantità 3 con incassi 12 del prodotto “Brillo”.
Un evento secondario è, dato un insieme di attributi dimensionali (pattern), ciascuna ennupla di questi valori che aggrega tutti gli eventi primari
corrispondenti.
Le gerarchie definiscono il modo in cui gli eventi primari possono essere aggregati e selezionati significativamente per il processo decisionale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cos’è un datawarehouse + architettura

A

Un data warehouse è un sistema di archiviazione di dati che viene progettato e ottimizzato per supportare l’analisi e il reporting delle informazioni aziendali. È progettato per integrare dati provenienti da diverse fonti, come sistemi operativi transazionali, database relazionali, applicazioni esterne e altro ancora, al fine di creare una singola fonte di verità per l’intera organizzazione.

L’architettura di un data warehouse è composta da diversi componenti chiave, che lavorano insieme per consentire l’elaborazione, l’integrazione e l’accesso ai dati. Ecco una panoramica dei principali componenti di un data warehouse:

Sorgenti dati: Questo componente rappresenta tutte le fonti di dati da cui vengono estratti i dati. Possono includere database transazionali, file di log, applicazioni esterne, dati provenienti da sensori e altro ancora.

Area di staging: In questa fase, i dati vengono estratti dalle sorgenti e copiati in una zona temporanea chiamata area di staging. Qui vengono effettuate attività di pulizia, trasformazione e riformattazione dei dati per renderli adatti all'elaborazione nel data warehouse.

Data warehouse: Questo è il cuore del sistema, dove i dati estratti vengono archiviati in modo permanente. Il data warehouse è progettato per supportare query complesse e analisi di dati. I dati vengono organizzati in una struttura ottimizzata per le prestazioni, come ad esempio un modello a stella o a fiocco di neve.

Metadati: I metadati descrivono i dati archiviati nel data warehouse. Contengono informazioni sulla struttura dei dati, sulle relazioni tra le tabelle, sulle definizioni dei campi e altro ancora. I metadati forniscono una guida per l'interpretazione e l'uso corretto dei dati all'interno del data warehouse.

Strumenti di accesso: Questo componente comprende le applicazioni e gli strumenti utilizzati dagli utenti per accedere e interrogare il data warehouse. Possono essere strumenti di business intelligence, strumenti di visualizzazione dei dati o applicazioni personalizzate. Consentono agli utenti di eseguire query, generare report e ottenere informazioni significative dai dati archiviati nel data warehouse.

Strumenti di ETL: ETL sta per Extract, Transform, Load, che sono le attività coinvolte nel movimento dei dati dalle sorgenti al data warehouse. Gli strumenti di ETL facilitano l'estrazione dei dati dalle sorgenti, la trasformazione dei dati in un formato adatto e il caricamento dei dati nel data warehouse.

Questa è solo una panoramica generale dell’architettura di un data warehouse. La complessità e la configurazione esatta possono variare a seconda delle esigenze specifiche dell’organizzazione e delle tecnologie utilizzate. Tuttavia, l’obiettivo principale di un data warehouse rimane quello di fornire una piattaforma centralizzata per l’analisi dei dati aziendali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cos’è il modello multidimensionale dei data warehouse

A

Il modello multidimensionale dei data warehouse è un approccio organizzativo dei dati che consente di strutturare le informazioni in modo più efficiente e comprensibile per analisi e reporting. In breve, il modello multidimensionale rappresenta i dati attraverso due concetti principali: dimensioni e misure.

Le dimensioni sono le categorie o le prospettive con cui si desidera analizzare i dati. Ad esempio, in un data warehouse di una società di vendita al dettaglio, le dimensioni potrebbero essere il tempo, il prodotto e la posizione geografica.

Le misure, invece, rappresentano le metriche numeriche o quantitative che si desidera analizzare all’interno di ciascuna combinazione di dimensioni. Ad esempio, le misure potrebbero essere il fatturato, il numero di unità vendute e i profitti.

In sintesi, il modello multidimensionale organizza i dati in tabelle chiamate “tabelle dei fatti” che contengono le misure e sono collegate a tabelle dimensionali che contengono le descrizioni delle dimensioni. Questo modello semplifica e velocizza notevolmente le interrogazioni e le analisi dei dati, consentendo agli utenti di ottenere risposte rapide e intuitive alle loro domande aziendali.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Realizzazione di un DW

A

Per realizzare una DW esistono due soluzioni alternative:
▪ ROLAP: Relational OLAP, consiste nell’uso della tecnologia relazionale, i dati vengono memorizzati tramite tabelle e le operazioni di analisi vengono tradotte in opportune istruzioni SQL.
Viene utilizzato su DBMS relazionali, sono necessarie tipologie specifiche di schemi, resenta ridondanza e ha basse prestazioni dovute a operazioni di JOIN.

▪ MOLAP: Muldimensional OLAP, memorizza i dati direttamente in forma multidimensionale, tramite speciali strutture dati tipicamente proprietarie. Viene utilizzato su DBMS multidimensionali, è un modello ad hoc.
Le operazioni multidimensionali sono realizzabili in modo semplice senza ricorrere a JOIN questo porta ad ottime prestazioni.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly