Data Mining Flashcards

Question 1

Q

Qual è l’obiettivo principale della Business Intelligence (BI)?
A) Trasformare i dati operativi in decisioni strategiche
B) Gestire solo transazioni aziendali
C) Eliminare l’uso di database
D) Creare modelli di predizione sulla storia passata dell’enterprise

Answer

A

A) Trasformare i dati operativi in decisioni strategiche

Question 2

Q

Quale delle seguenti NON è una caratteristica di un Data Warehouse?
A) Subject-oriented
B) Mostra l’evoluzione temporale
C) È volatile
D) Integra dati eterogenei

Answer

A

C) È volatile

Question 3

Q

Quale operazione OLAP aumenta il livello di aggregazione dei dati?
A) Drill-down
B) Roll-up
C) Slice-and-dice
D) Pivot

Answer

A

B) Roll-up

Question 4

Q

Quali sono gli operatori OLAP?

Answer

A

Roll-up
Drill-Down
Slide-and-dice
Pivot
Drill-across
Drill-trhough

Question 5

Q

Quale delle seguenti affermazioni sull’ETL è FALSA?

a) L’ETL serve principalmente a unificare dati provenienti da fonti diverse per facilitarne l’analisi.

b) Il processo ETL include l’estrazione, la trasformazione e il caricamento dei dati.

c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di business intelligence.

d) L’ETL può essere utilizzato per pulire i dati eliminando duplicati o valori mancanti.

e) Un obiettivo dell’ETL è trasformare i dati in un formato adatto all’analisi.

Answer

A

c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di BI

Question 6

Q

In uno schema “Snowflake”, cosa differenzia una tabella dimensionale rispetto a uno schema “Star”?
A) È completamente denormalizzata
B) È parzialmente normalizzata
C) Contiene solo misure
D) Contiene descrizioni narrative

Answer

A

B) È parzialmente normalizzata

Question 7

Q

Quali sono i livelli della piramide della Business Intelligence, in ordine crescente?

A) Data, Knowledge, Information
B) Data, Information, Knowledge
C) Knowledge, Data, Information
D) Information, Knowledge, Data

Answer

A

B) Data, Information, Knowledge

Question 8

Q

Quali sono i livelli della piramide della Business Intelligence, in ordine dettagliato?

Answer

A

1) OPERATIONAL DATABASES (Data Sources)
2) OLAP ANALYSIS (DWH)
3) DATA MINING
4) WHAT-IF ANALYSIS
5) DECISIONS

Question 9

Q

Qual è una caratteristica chiave di un sistema OLAP rispetto a un sistema OLTP?

A) Aggiorna continuamente i dati

B) Gestisce principalmente dati in tempo reale

C) Si basa su transazioni predefinite

D) Supporta analisi dinamiche e multidimensionali

Answer

A

D) Supporta analisi dinamiche e multidimensionali

Question 10

Q

Quale delle seguenti è una caratteristica principale di un Data Mart?
A) Contiene dati storici su un’intera azienda

B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti

C) È completamente denormalizzato e statico

D) Non richiede un’architettura ETL per essere implementato

Answer

A

B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti

Question 11

Q

Quale operazione OLAP consente di esplorare i dati riducendo il livello di aggregazione?
A) Roll-up
B) Drill-down
C) Slice-and-dice
D) Pivot

Answer

A

B) Drill-down

Question 12

Q

Qual è la funzione del processo di pulizia (Cleansing) nell’ETL?
A) Integrare i dati da diverse fonti
B) Caricare i dati nel Data Warehouse
C) Estrarre informazioni da database operativi
D) Eliminare duplicati e correggere errori nei dati

Answer

A

D) Eliminare duplicati e correggere errori nei dati

Question 13

Q

Una misura è chiamata “additiva” lungo una dimensione quando:
A) Può essere aggregata solo con operatori olistici
B) Deve essere calcolata con operatori algebraici
C) È valutata solo in termini relativi
D) È possibile sommarla lungo una gerarchia di dimensioni

Answer

A

D) È possibile sommarla lungo una gerarchia di dimensioni

Question 14

Q

Quale tecnica di trasformazione si applica per combinare due o più attributi in uno solo?
A) Conversione
B) Normalizzazione
C) Concatenazione
D) Enrichment

Answer

A

C) Concatenazione

Question 15

Q

Qual è il ruolo principale del “Reconciled Data Layer” in un’architettura a tre livelli?
A) Archiviare dati grezzi non trasformati
B) Fornire un riferimento unificato e integrato per i dati aziendali
C) Sostituire il livello di Data Mart
D) Caricare dati direttamente nel livello analitico

Answer

A

B) Fornire un riferimento unificato e integrato per i dati aziendali

Question 16

Q

Quale dei seguenti NON è un requisito tipico per l’architettura di un DWH?
A) Separazione tra elaborazione analitica e transazionale
B) Scalabilità per gestire volumi crescenti di dati
C) Eliminazione della necessità di ETL
D) Sicurezza per proteggere i dati strategici

Answer

A

C) Eliminazione della necessità di ETL

Question 17

Q

Qual è il principale svantaggio di un’architettura a strato singolo per un DWH?
A) Richiede hardware dedicato per l’elaborazione
B) Non separa l’elaborazione analitica da quella transazionale
C) Utilizza middleware complessi per l’accesso ai dati
D) Aumenta significativamente i tempi di caricamento dei dati

Answer

A

B) Non separa l’elaborazione analitica da quella transazionale

Question 18

Q

Quale strato in un’architettura a tre livelli gestisce dati consistenti, integrati e dettagliati?
A) Data Warehouse Layer
B) Analysis Layer
C) Reconciled Data Layer
D) Data Staging

Answer

A

C) Reconciled Data Layer

Question 19

Q

In un’architettura a due livelli, qual è il ruolo dello strato di “Data Staging”?
A) Permettere agli utenti di generare report interattivi
B) Integrare, pulire e trasformare i dati dalle sorgenti
C) Fornire un repository centrale per i dati analitici
D) Sostituire i processi di ETL con accessi diretti

Answer

A

B) Integrare, pulire e trasformare i dati dalle sorgenti

Question 20

Q

Qual è la differenza principale tra un’architettura a due livelli e una a tre livelli?
A) La presenza di un livello di “Data Mart” nelle architetture a due livelli
B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli
C) La separazione tra sorgenti interne ed esterne nelle architetture a tre livelli
D) L’uso di tecniche di ETL solo nelle architetture a due livelli

Answer

A

B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli

Question 21

Q

Quale dei seguenti è un vantaggio dell’inclusione del livello “Reconciled Data” in un’architettura a tre livelli?
A) Riduzione della ridondanza dei dati operativi
B) Aumento della velocità di aggiornamento dei dati in tempo reale
C) Separazione dei problemi di integrazione e popolamento del Data Warehouse
D) Eliminazione della necessità di processi ETL periodici

Answer

A

C) Separazione dei problemi di integrazione e popolamento del Data Warehouse

Question 22

Q

Perché la scalabilità è un requisito fondamentale per un’architettura DWH?
A) Per supportare un numero crescente di utenti e volumi di dati
B) Per ridurre la complessità dei processi ETL
C) Per integrare sistemi OLTP senza modifiche
D) Per garantire la consistenza dei dati storici

Answer

A

A) Per supportare un numero crescente di utenti e volumi di dati

Question 23

Q

Quali sono i requisiti per una DWH Architecture?

Answer

A

Separation: analytical and transactional processing should be kept apart as much as
possible

Scalability: hardware and software architectures should be easy to upgrade as the data volume, which has to be managed and processed, and the number of users’ requirements, which have to be met, progressively increase

Extensibility: the architecture should be able to host new applications and
technologies without redesigning the wholesystem.

Security: monitoring accesses is essential because of the strategic data stored in data
warehouses

Administrability: DWH management should not be overlydifficult

Question 24

Q

Quale caratteristica rende un Data Warehouse diverso dai database operativi?
A) È soggetto a aggiornamenti continui
B) È integrato, non volatile e orientato al soggetto
C) Supporta esclusivamente operazioni transazionali
D) Fornisce dati in tempo reale per le applicazioni OLTP

Answer

A

B) È integrato, non volatile e orientato al soggetto

Question 25

Q

Qual è lo scopo principale dell’operazione Pivot in OLAP?
A) Ridurre il livello di aggregazione dei dati
B) Cambiare il layout per analizzare i dati da una prospettiva diversa
C) Impostare un valore specifico per una dimensione
D) Collegare concetti in cubi interrelati

Answer

A

B) Cambiare il layout per analizzare i dati da una prospettiva diversa

Question 26

Q

Quale tipo di estrazione è utilizzato per aggiornare regolarmente un Data Warehouse?
A) Statica
B) Incrementale
C) Dinamica
D) Continua

Answer

A

B) Incrementale

Question 27

Q

Quale delle seguenti è un esempio di dati mancanti che richiedono pulizia durante l’ETL?
A) Età del cliente non registrata
B) Codici cliente duplicati
C) Inconsistenza tra città e provincia
D) Valori impossibili, come il 30 febbraio

Answer

A

A) Età del cliente non registrata

Question 28

Q

Quale operatore di aggregazione è tipicamente utilizzato per le misure di flusso lungo una gerarchia temporale?
A) RANK
B) AVG
C) COUNT
D) SUM

Question 29

Q

Una misura è considerata “non aggregabile” quando:
A) Nessun operatore di aggregazione può essere applicato
B) Può essere sommata solo lungo alcune dimensioni
C) Richiede operatori algebraici come AVG
D) È valutata solo in momenti specifici

Answer

A

A) Nessun operatore di aggregazione può essere applicato

Question 30

Q

Cosa rappresenta la convergenza in una gerarchia del Dimensional Fact Model (DFM)?
A) Una relazione padre-figlio ricorsiva
B) La condivisione di un attributo tra più gerarchie
C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale
D) Una gerarchia incompleta con livelli mancanti

Answer

A

C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale

Question 31

Q

In un Data Cube, quale delle seguenti operazioni OLAP consente di ridurre il numero di dimensioni analizzate selezionandone una a un valore specifico?
A) Roll-up
B) Drill-down
C) Slice
D) Pivot

Question 32

Q

Quali sono i tipi di estrazione possibili nell’ETL? Quali sono le differenze?

Answer

A

Static: a DWH is populated for the first time. It is a
snapshot of operational data.
Incremental: it is used to update the DWH regularly.
It includes the changes applied to source data since
the latest extraction. It isbased on:
* Timestamp associated to operationaldata
* Triggers associated with change transactions for
relevant data

Question 33

Q

Elencare le procedure di cleansing

Answer

A

Duplicate data

Missing data

Unexpected use of fields

Impossible or wrong values

Inconsistent values for a single entity because different practices were used

Inconsistent values for own individual entity because of typing mistakesOxford

Question 34

Q

Quale tecnica è più adatta per risolvere problemi di formati incongruenti tra attributi correlati?

A) Approssimazione tramite funzioni di similarità
B) Algoritmi ad hoc basati su regole aziendali
C) Join approssimativo
D) Tecniche basate su dizionari

Answer

A

D) Tecniche basate su dizionari

Question 35

Q

Quale tecnica si utilizza quando non esiste una chiave comune per unire informazioni provenienti da fonti diverse?
A) Tecniche basate su dizionari
B) Approssimazione tramite funzioni di similarità
C) Join approssimativo
D) Algoritmi ad hoc basati su regole aziendali

Answer

A

C) Join approssimativo

Question 36

Q

Che cos’è il similarity approach?

Answer

A

similarity approach identifies different instances of the same information
(e.g. a customer has been
entered into the same database more times due totypo mistakes)

use affinity functions (e.g. Edit Distance) to calculate the similarity between two words (in this case the values of the customer surname). If the similarity is higher/lower (it depends on the affinity function we used)
than aspecific threshold, the two words are the same and we can merge the rows

Question 37

Q

Quale categoria di trasformazione dei dati si applica per creare nuove informazioni combinando uno o più attributi?
A) Arricchimento (Enrichment)
B) Conversione
C) Separazione
D) Concatenazione

Answer

A

A) Arricchimento (Enrichment)

Question 38

Q

Quale categoria di trasformazione implica il cambio di formato o tipo di dati?
A) Separazione
B) Enrichment
C) Denormalizzazione
D) Conversione

Answer

A

D) Conversione

Question 39

Q

Quale tipo di caricamento aggiorna il Data Warehouse aggiungendo solo le modifiche apportate ai dati sorgente?
A) Refresh
B) Incremental Loading
C) Full Loading
D) Update

Answer

A

D) Update

Question 40

Q

Che cos’è DFM?

Answer

A

The DFM is a conceptual model created specifically to function as data mart design
support. Itis graphic and based on the multidimensional model

Question 41

Q

Cos’è un primary event?

Answer

A

It isa particular occurrence of a fact, identified by on n-ple made up of a
value for each dimension. A value for each measure is associated with
each primary event

Question 42

Q

Cos’è un secondary event?

Answer

A

Un evento secondario è un raggruppamento di eventi primari basato su questi attributi dimensionali. Per esempio, potremmo dire che un “evento secondario” è “tutte le vendite di magliette Nike nel mese di gennaio

Question 43

Q

Cos’è un Data Lake?

A. Un archivio di dati in formato raw, accessibile in modo flessibile

B. Una struttura rigida per analisi SQL

C. Un database relazionale tradizionale

D. Un software per la gestione della supply chain

Answer

A

A. Un archivio di dati in formato raw, accessibile in modo flessibile

Question 44

Q

Qual è una delle caratteristiche principali del “Dark Data”?
A. È completamente analizzato nelle decisioni aziendali
B. Rappresenta il 90% dei dati sensoriali mai utilizzati
C. Richiede sempre una trasformazione preliminare
D. Non viene mai memorizzato nei sistemi aziendali

Answer

A

B. Rappresenta il 90% dei dati sensoriali mai utilizzati

Question 45

Q

Quale di questi è un vantaggio chiave del Data Lake rispetto al Data Warehouse?

A. Tempi di implementazione più lunghi
B. Supporto nativo per dati non strutturati
C. Costi di archiviazione più elevati
D. Solo supporto per carichi di lavoro BI

Answer

A

B. Supporto nativo per dati non strutturati

Question 46

Q

Qual è una best practice per l’ingestione dei dati in un Data Lake?

A. Sempre eseguire trasformazioni in anticipo
B. Evitare l’automazione del processo
C. Ridurre il numero di file inviati
D. Non crittografare i dati personali

Answer

A

C. Ridurre il numero di file inviati

Question 47

Q

What is one of the main uses of Data Lakes?
A. Storing pre-processed data
B. A single source of truth for raw data
C. Exclusively for backups
D. For traditional SQL analyses

Answer

A

B. A single source of truth for raw data

Question 48

Q

Qual è uno svantaggio comune dei Data Lakes senza una gestione adeguata?

A. Possono diventare un “Data Swamp”
B. Sono più costosi rispetto ai Data Warehouses
C. Hanno una latenza maggiore
D. Riducono la governance

Answer

A

A. Possono diventare un “Data Swamp”

Question 49

Q

Cosa distingue un Data Lake rispetto al tradizionale Data Warehouse?

D. Supporto limitato per l’analisi dei dati non strutturati
B. Schema fisso on write
C. Rigidità nella gestione dei dati
D. Schema applicato on read

Answer

A

D. Schema applicato on read

Question 50

Q

Quale problema risolve l’uso del “Delta Lake”?
A. Riduce i costi di storage
B. Unifica batch e streaming con transazioni ACID
C. Aumenta la velocità di trasferimento dati
D. Limita l’accesso ai dati grezzi

Answer

A

B. Unifica batch e streaming con transazioni ACID

Question 51

Q

Cosa si intende per “Streaming Analytics”?
A. Analisi di dati statici
B. Analisi di flussi di dati in tempo reale
C. Creazione di report periodici
D. Aggregazione di dati storici

Answer

A

B. Analisi di flussi di dati in tempo reale

Question 52

Q

Qual è una best practice per evitare che un Data Lake diventi un “Data Swamp”?
A. Ridurre il numero di utenti
B. Non utilizzare strumenti self-service
C. Creare un catalogo dati efficace
D. Utilizzare solo dati strutturati

Answer

A

C. Creare un catalogo dati efficace

Question 53

Q

A che serve CDC?

Answer

A

Change data capture. Rileva i cambiamenti nei dati e li inoltra alle analytics (possibilmente in real-time). Workload migration e capturing streaming data changes.

Question 54

Q

What are the three main zones in a Data Lake?
A. Secure, temporary, analytics
B. Raw, optimized, analytics
C. Standard, complex, advanced
D. Static, dynamic, transformed

Answer

A

B. Raw, optimized, analytics

Question 55

Q

Explain Raw, Optimized and Analytics zones

Answer

A

Raw
immutable store that cannot/should
not be changed after it has been
written; self–descriptive with
metadata; useful for disaster recovery

Optimized
as raw data grow, querying directly
them become slower to gain speed
data can be transformed in optimized
formats

Analytics
BI–ready and machine–learning ready
data and tables e.g. after feature
engineering)

Question 56

Q

What is the advantage of the “Schema on Read” approach?
A. Increases implementation time
B. Does not support unstructured data
C. Requires pre-processed data
D. Allows greater flexibility in data analysis

Answer

A

D. Allows greater flexibility in data analysis

Question 57

Q

What is the primary purpose of the Lambda Lake architecture?
A. Handles both batch and real-time data processing
B. Focuses only on real-time streaming data
C. Stores data in columnar formats exclusively
D. Eliminates data duplication

Answer

A

A. Handles both batch and real-time data processing

Question 58

Q

What distinguishes the Kappa Lake architecture from Lambda Lake?
A. It is optimized for batch processing only
B. It requires schema enforcement at write time
C. It focuses entirely on real-time data processing without batch layers
D. It supports only structured data

Answer

A

C. It focuses entirely on real-time data processing without batch layers

Question 59

Q

What feature of Delta Lake supports “Time Travel”?
A. Advanced compression algorithms
B. Data versioning to access historical data
C. Schema enforcement at write time
D. Parallel query execution

Answer

A

B. Data versioning to access historical data

Question 60

Q

Which architecture is best suited for real-time analytics without relying on batch processing?
A. Delta Lake
B. Lambda Lake
C. Kappa Lake
D. Data Warehouse

Answer

A

C. Kappa Lake

Question 61

Q

What is data ingestion?

A) The process of analyzing data to extract insights

B) The process of collecting and importing data into a system for processing and analysis

C) The process of visualizing data in graphs and charts

D) The process of cleaning and transforming raw data into a usable format

Answer

A

B) The process of collecting and importing data into a system for processing and analysis

Question 62

Q

What is a common challenge in data ingestion?

A) Ensuring that the data is only in one format
B) Minimizing the size of data files for storage
C) Handling diverse data formats and structures from various sources
D) Removing all redundant data from the system

Answer

A

C) Handling diverse data formats and structures from various sources

Question 63

Q

Which data ingestion architecture combines both batch and real-time processing to provide comprehensive insights?

A) Batch Processing
B) Real-Time Processing
C) Lambda Architecture
D) Data Lake Architecture

Answer

A

C) Lambda Architecture

Question 64

Q

What is batch processing?

Answer

A

Involves collecting historical data ay scheduled intervals. Suitable when real-time access is not critical for large datasets.

Answer 63

A

Continuous ingestion of data as it is generated.
Ideal for applications requiring immediate insights (e.g., fraud detection).

Answer 64

A

D) It simplifies data governance and accessibility

Answer 65

A

C) They handle streaming data with low-latency processing.

Answer 66

A

B) To transform raw data into structured formats for analysis.

Answer 67

A

A) By automating data collection and integration processes.

Answer 68

A

B) It consolidates data from multiple sources, providing a holistic view of the organization’s data.

Answer 69

A

C) It allows long-term access to data, supporting trend analysis, time-series forecasting, and anomaly detection.

Answer 70

A

D) It ensures that data is cleaned and processed before being used for model development, saving time on data preparation.

Answer 71

A

C) They are optimized for quick data retrieval, facilitating feature engineering and data mining.

Answer 72

A

A) They enable scaling up data volumes without significant performance degradation,

Answer 73

A

D) It introduces latency in data availability and has a complex and costly setup.

Answer 74

A

D) DWs have limited flexibility in handling unstructured data and may face bottlenecks during the ETL process.

Answer 75

A

B) DWs struggle with handling rapidly evolving data and may over-rely on historical data, which may not always be relevant for current or future trends.