Data Mining Flashcards
Qual è l’obiettivo principale della Business Intelligence (BI)?
A) Trasformare i dati operativi in decisioni strategiche
B) Gestire solo transazioni aziendali
C) Eliminare l’uso di database
D) Creare modelli di predizione sulla storia passata dell’enterprise
A) Trasformare i dati operativi in decisioni strategiche
Quale delle seguenti NON è una caratteristica di un Data Warehouse?
A) Subject-oriented
B) Mostra l’evoluzione temporale
C) È volatile
D) Integra dati eterogenei
C) È volatile
Quale operazione OLAP aumenta il livello di aggregazione dei dati?
A) Drill-down
B) Roll-up
C) Slice-and-dice
D) Pivot
B) Roll-up
Quali sono gli operatori OLAP?
Roll-up
Drill-Down
Slide-and-dice
Pivot
Drill-across
Drill-trhough
Quale delle seguenti affermazioni sull’ETL è FALSA?
a) L’ETL serve principalmente a unificare dati provenienti da fonti diverse per facilitarne l’analisi.
b) Il processo ETL include l’estrazione, la trasformazione e il caricamento dei dati.
c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di business intelligence.
d) L’ETL può essere utilizzato per pulire i dati eliminando duplicati o valori mancanti.
e) Un obiettivo dell’ETL è trasformare i dati in un formato adatto all’analisi.
c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di BI
In uno schema “Snowflake”, cosa differenzia una tabella dimensionale rispetto a uno schema “Star”?
A) È completamente denormalizzata
B) È parzialmente normalizzata
C) Contiene solo misure
D) Contiene descrizioni narrative
B) È parzialmente normalizzata
Quali sono i livelli della piramide della Business Intelligence, in ordine crescente?
A) Data, Knowledge, Information
B) Data, Information, Knowledge
C) Knowledge, Data, Information
D) Information, Knowledge, Data
B) Data, Information, Knowledge
Quali sono i livelli della piramide della Business Intelligence, in ordine dettagliato?
1) OPERATIONAL DATABASES (Data Sources)
2) OLAP ANALYSIS (DWH)
3) DATA MINING
4) WHAT-IF ANALYSIS
5) DECISIONS
Qual è una caratteristica chiave di un sistema OLAP rispetto a un sistema OLTP?
A) Aggiorna continuamente i dati
B) Gestisce principalmente dati in tempo reale
C) Si basa su transazioni predefinite
D) Supporta analisi dinamiche e multidimensionali
D) Supporta analisi dinamiche e multidimensionali
Quale delle seguenti è una caratteristica principale di un Data Mart?
A) Contiene dati storici su un’intera azienda
B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti
C) È completamente denormalizzato e statico
D) Non richiede un’architettura ETL per essere implementato
B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti
Quale operazione OLAP consente di esplorare i dati riducendo il livello di aggregazione?
A) Roll-up
B) Drill-down
C) Slice-and-dice
D) Pivot
B) Drill-down
Qual è la funzione del processo di pulizia (Cleansing) nell’ETL?
A) Integrare i dati da diverse fonti
B) Caricare i dati nel Data Warehouse
C) Estrarre informazioni da database operativi
D) Eliminare duplicati e correggere errori nei dati
D) Eliminare duplicati e correggere errori nei dati
Una misura è chiamata “additiva” lungo una dimensione quando:
A) Può essere aggregata solo con operatori olistici
B) Deve essere calcolata con operatori algebraici
C) È valutata solo in termini relativi
D) È possibile sommarla lungo una gerarchia di dimensioni
D) È possibile sommarla lungo una gerarchia di dimensioni
Quale tecnica di trasformazione si applica per combinare due o più attributi in uno solo?
A) Conversione
B) Normalizzazione
C) Concatenazione
D) Enrichment
C) Concatenazione
Qual è il ruolo principale del “Reconciled Data Layer” in un’architettura a tre livelli?
A) Archiviare dati grezzi non trasformati
B) Fornire un riferimento unificato e integrato per i dati aziendali
C) Sostituire il livello di Data Mart
D) Caricare dati direttamente nel livello analitico
B) Fornire un riferimento unificato e integrato per i dati aziendali
Quale dei seguenti NON è un requisito tipico per l’architettura di un DWH?
A) Separazione tra elaborazione analitica e transazionale
B) Scalabilità per gestire volumi crescenti di dati
C) Eliminazione della necessità di ETL
D) Sicurezza per proteggere i dati strategici
C) Eliminazione della necessità di ETL
Qual è il principale svantaggio di un’architettura a strato singolo per un DWH?
A) Richiede hardware dedicato per l’elaborazione
B) Non separa l’elaborazione analitica da quella transazionale
C) Utilizza middleware complessi per l’accesso ai dati
D) Aumenta significativamente i tempi di caricamento dei dati
B) Non separa l’elaborazione analitica da quella transazionale
Quale strato in un’architettura a tre livelli gestisce dati consistenti, integrati e dettagliati?
A) Data Warehouse Layer
B) Analysis Layer
C) Reconciled Data Layer
D) Data Staging
C) Reconciled Data Layer
In un’architettura a due livelli, qual è il ruolo dello strato di “Data Staging”?
A) Permettere agli utenti di generare report interattivi
B) Integrare, pulire e trasformare i dati dalle sorgenti
C) Fornire un repository centrale per i dati analitici
D) Sostituire i processi di ETL con accessi diretti
B) Integrare, pulire e trasformare i dati dalle sorgenti
Qual è la differenza principale tra un’architettura a due livelli e una a tre livelli?
A) La presenza di un livello di “Data Mart” nelle architetture a due livelli
B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli
C) La separazione tra sorgenti interne ed esterne nelle architetture a tre livelli
D) L’uso di tecniche di ETL solo nelle architetture a due livelli
B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli
Quale dei seguenti è un vantaggio dell’inclusione del livello “Reconciled Data” in un’architettura a tre livelli?
A) Riduzione della ridondanza dei dati operativi
B) Aumento della velocità di aggiornamento dei dati in tempo reale
C) Separazione dei problemi di integrazione e popolamento del Data Warehouse
D) Eliminazione della necessità di processi ETL periodici
C) Separazione dei problemi di integrazione e popolamento del Data Warehouse
Perché la scalabilità è un requisito fondamentale per un’architettura DWH?
A) Per supportare un numero crescente di utenti e volumi di dati
B) Per ridurre la complessità dei processi ETL
C) Per integrare sistemi OLTP senza modifiche
D) Per garantire la consistenza dei dati storici
A) Per supportare un numero crescente di utenti e volumi di dati
Quali sono i requisiti per una DWH Architecture?
Separation: analytical and transactional processing should be kept apart as much as
possible
Scalability: hardware and software architectures should be easy to upgrade as the data volume, which has to be managed and processed, and the number of users’ requirements, which have to be met, progressively increase
Extensibility: the architecture should be able to host new applications and
technologies without redesigning the wholesystem.
Security: monitoring accesses is essential because of the strategic data stored in data
warehouses
Administrability: DWH management should not be overlydifficult
Quale caratteristica rende un Data Warehouse diverso dai database operativi?
A) È soggetto a aggiornamenti continui
B) È integrato, non volatile e orientato al soggetto
C) Supporta esclusivamente operazioni transazionali
D) Fornisce dati in tempo reale per le applicazioni OLTP
B) È integrato, non volatile e orientato al soggetto
Qual è lo scopo principale dell’operazione Pivot in OLAP?
A) Ridurre il livello di aggregazione dei dati
B) Cambiare il layout per analizzare i dati da una prospettiva diversa
C) Impostare un valore specifico per una dimensione
D) Collegare concetti in cubi interrelati
B) Cambiare il layout per analizzare i dati da una prospettiva diversa
Quale tipo di estrazione è utilizzato per aggiornare regolarmente un Data Warehouse?
A) Statica
B) Incrementale
C) Dinamica
D) Continua
B) Incrementale
Quale delle seguenti è un esempio di dati mancanti che richiedono pulizia durante l’ETL?
A) Età del cliente non registrata
B) Codici cliente duplicati
C) Inconsistenza tra città e provincia
D) Valori impossibili, come il 30 febbraio
A) Età del cliente non registrata
Quale operatore di aggregazione è tipicamente utilizzato per le misure di flusso lungo una gerarchia temporale?
A) RANK
B) AVG
C) COUNT
D) SUM
D) SUM
Una misura è considerata “non aggregabile” quando:
A) Nessun operatore di aggregazione può essere applicato
B) Può essere sommata solo lungo alcune dimensioni
C) Richiede operatori algebraici come AVG
D) È valutata solo in momenti specifici
A) Nessun operatore di aggregazione può essere applicato
Cosa rappresenta la convergenza in una gerarchia del Dimensional Fact Model (DFM)?
A) Una relazione padre-figlio ricorsiva
B) La condivisione di un attributo tra più gerarchie
C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale
D) Una gerarchia incompleta con livelli mancanti
C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale
In un Data Cube, quale delle seguenti operazioni OLAP consente di ridurre il numero di dimensioni analizzate selezionandone una a un valore specifico?
A) Roll-up
B) Drill-down
C) Slice
D) Pivot
C) Slice