Data Mining Flashcards
Qual è l’obiettivo principale della Business Intelligence (BI)?
A) Trasformare i dati operativi in decisioni strategiche
B) Gestire solo transazioni aziendali
C) Eliminare l’uso di database
D) Creare modelli di predizione sulla storia passata dell’enterprise
A) Trasformare i dati operativi in decisioni strategiche
Quale delle seguenti NON è una caratteristica di un Data Warehouse?
A) Subject-oriented
B) Mostra l’evoluzione temporale
C) È volatile
D) Integra dati eterogenei
C) È volatile
Quale operazione OLAP aumenta il livello di aggregazione dei dati?
A) Drill-down
B) Roll-up
C) Slice-and-dice
D) Pivot
B) Roll-up
Quali sono gli operatori OLAP?
Roll-up
Drill-Down
Slide-and-dice
Pivot
Drill-across
Drill-trhough
Quale delle seguenti affermazioni sull’ETL è FALSA?
a) L’ETL serve principalmente a unificare dati provenienti da fonti diverse per facilitarne l’analisi.
b) Il processo ETL include l’estrazione, la trasformazione e il caricamento dei dati.
c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di business intelligence.
d) L’ETL può essere utilizzato per pulire i dati eliminando duplicati o valori mancanti.
e) Un obiettivo dell’ETL è trasformare i dati in un formato adatto all’analisi.
c) L’ETL è essenziale per creare data warehouse ma non è necessario per sistemi di BI
In uno schema “Snowflake”, cosa differenzia una tabella dimensionale rispetto a uno schema “Star”?
A) È completamente denormalizzata
B) È parzialmente normalizzata
C) Contiene solo misure
D) Contiene descrizioni narrative
B) È parzialmente normalizzata
Quali sono i livelli della piramide della Business Intelligence, in ordine crescente?
A) Data, Knowledge, Information
B) Data, Information, Knowledge
C) Knowledge, Data, Information
D) Information, Knowledge, Data
B) Data, Information, Knowledge
Quali sono i livelli della piramide della Business Intelligence, in ordine dettagliato?
1) OPERATIONAL DATABASES (Data Sources)
2) OLAP ANALYSIS (DWH)
3) DATA MINING
4) WHAT-IF ANALYSIS
5) DECISIONS
Qual è una caratteristica chiave di un sistema OLAP rispetto a un sistema OLTP?
A) Aggiorna continuamente i dati
B) Gestisce principalmente dati in tempo reale
C) Si basa su transazioni predefinite
D) Supporta analisi dinamiche e multidimensionali
D) Supporta analisi dinamiche e multidimensionali
Quale delle seguenti è una caratteristica principale di un Data Mart?
A) Contiene dati storici su un’intera azienda
B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti
C) È completamente denormalizzato e statico
D) Non richiede un’architettura ETL per essere implementato
B) Rappresenta un sottoinsieme dei dati rilevanti per un gruppo specifico di utenti
Quale operazione OLAP consente di esplorare i dati riducendo il livello di aggregazione?
A) Roll-up
B) Drill-down
C) Slice-and-dice
D) Pivot
B) Drill-down
Qual è la funzione del processo di pulizia (Cleansing) nell’ETL?
A) Integrare i dati da diverse fonti
B) Caricare i dati nel Data Warehouse
C) Estrarre informazioni da database operativi
D) Eliminare duplicati e correggere errori nei dati
D) Eliminare duplicati e correggere errori nei dati
Una misura è chiamata “additiva” lungo una dimensione quando:
A) Può essere aggregata solo con operatori olistici
B) Deve essere calcolata con operatori algebraici
C) È valutata solo in termini relativi
D) È possibile sommarla lungo una gerarchia di dimensioni
D) È possibile sommarla lungo una gerarchia di dimensioni
Quale tecnica di trasformazione si applica per combinare due o più attributi in uno solo?
A) Conversione
B) Normalizzazione
C) Concatenazione
D) Enrichment
C) Concatenazione
Qual è il ruolo principale del “Reconciled Data Layer” in un’architettura a tre livelli?
A) Archiviare dati grezzi non trasformati
B) Fornire un riferimento unificato e integrato per i dati aziendali
C) Sostituire il livello di Data Mart
D) Caricare dati direttamente nel livello analitico
B) Fornire un riferimento unificato e integrato per i dati aziendali
Quale dei seguenti NON è un requisito tipico per l’architettura di un DWH?
A) Separazione tra elaborazione analitica e transazionale
B) Scalabilità per gestire volumi crescenti di dati
C) Eliminazione della necessità di ETL
D) Sicurezza per proteggere i dati strategici
C) Eliminazione della necessità di ETL
Qual è il principale svantaggio di un’architettura a strato singolo per un DWH?
A) Richiede hardware dedicato per l’elaborazione
B) Non separa l’elaborazione analitica da quella transazionale
C) Utilizza middleware complessi per l’accesso ai dati
D) Aumenta significativamente i tempi di caricamento dei dati
B) Non separa l’elaborazione analitica da quella transazionale
Quale strato in un’architettura a tre livelli gestisce dati consistenti, integrati e dettagliati?
A) Data Warehouse Layer
B) Analysis Layer
C) Reconciled Data Layer
D) Data Staging
C) Reconciled Data Layer
In un’architettura a due livelli, qual è il ruolo dello strato di “Data Staging”?
A) Permettere agli utenti di generare report interattivi
B) Integrare, pulire e trasformare i dati dalle sorgenti
C) Fornire un repository centrale per i dati analitici
D) Sostituire i processi di ETL con accessi diretti
B) Integrare, pulire e trasformare i dati dalle sorgenti
Qual è la differenza principale tra un’architettura a due livelli e una a tre livelli?
A) La presenza di un livello di “Data Mart” nelle architetture a due livelli
B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli
C) La separazione tra sorgenti interne ed esterne nelle architetture a tre livelli
D) L’uso di tecniche di ETL solo nelle architetture a due livelli
B) L’inclusione di un livello “Reconciled Data” nelle architetture a tre livelli
Quale dei seguenti è un vantaggio dell’inclusione del livello “Reconciled Data” in un’architettura a tre livelli?
A) Riduzione della ridondanza dei dati operativi
B) Aumento della velocità di aggiornamento dei dati in tempo reale
C) Separazione dei problemi di integrazione e popolamento del Data Warehouse
D) Eliminazione della necessità di processi ETL periodici
C) Separazione dei problemi di integrazione e popolamento del Data Warehouse
Perché la scalabilità è un requisito fondamentale per un’architettura DWH?
A) Per supportare un numero crescente di utenti e volumi di dati
B) Per ridurre la complessità dei processi ETL
C) Per integrare sistemi OLTP senza modifiche
D) Per garantire la consistenza dei dati storici
A) Per supportare un numero crescente di utenti e volumi di dati
Quali sono i requisiti per una DWH Architecture?
Separation: analytical and transactional processing should be kept apart as much as
possible
Scalability: hardware and software architectures should be easy to upgrade as the data volume, which has to be managed and processed, and the number of users’ requirements, which have to be met, progressively increase
Extensibility: the architecture should be able to host new applications and
technologies without redesigning the wholesystem.
Security: monitoring accesses is essential because of the strategic data stored in data
warehouses
Administrability: DWH management should not be overlydifficult
Quale caratteristica rende un Data Warehouse diverso dai database operativi?
A) È soggetto a aggiornamenti continui
B) È integrato, non volatile e orientato al soggetto
C) Supporta esclusivamente operazioni transazionali
D) Fornisce dati in tempo reale per le applicazioni OLTP
B) È integrato, non volatile e orientato al soggetto
Qual è lo scopo principale dell’operazione Pivot in OLAP?
A) Ridurre il livello di aggregazione dei dati
B) Cambiare il layout per analizzare i dati da una prospettiva diversa
C) Impostare un valore specifico per una dimensione
D) Collegare concetti in cubi interrelati
B) Cambiare il layout per analizzare i dati da una prospettiva diversa
Quale tipo di estrazione è utilizzato per aggiornare regolarmente un Data Warehouse?
A) Statica
B) Incrementale
C) Dinamica
D) Continua
B) Incrementale
Quale delle seguenti è un esempio di dati mancanti che richiedono pulizia durante l’ETL?
A) Età del cliente non registrata
B) Codici cliente duplicati
C) Inconsistenza tra città e provincia
D) Valori impossibili, come il 30 febbraio
A) Età del cliente non registrata
Quale operatore di aggregazione è tipicamente utilizzato per le misure di flusso lungo una gerarchia temporale?
A) RANK
B) AVG
C) COUNT
D) SUM
D) SUM
Una misura è considerata “non aggregabile” quando:
A) Nessun operatore di aggregazione può essere applicato
B) Può essere sommata solo lungo alcune dimensioni
C) Richiede operatori algebraici come AVG
D) È valutata solo in momenti specifici
A) Nessun operatore di aggregazione può essere applicato
Cosa rappresenta la convergenza in una gerarchia del Dimensional Fact Model (DFM)?
A) Una relazione padre-figlio ricorsiva
B) La condivisione di un attributo tra più gerarchie
C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale
D) Una gerarchia incompleta con livelli mancanti
C) Più archi appartenenti alla stessa gerarchia che terminano nello stesso attributo dimensionale
In un Data Cube, quale delle seguenti operazioni OLAP consente di ridurre il numero di dimensioni analizzate selezionandone una a un valore specifico?
A) Roll-up
B) Drill-down
C) Slice
D) Pivot
C) Slice
Quali sono i tipi di estrazione possibili nell’ETL? Quali sono le differenze?
Static: a DWH is populated for the first time. It is a
snapshot of operational data.
Incremental: it is used to update the DWH regularly.
It includes the changes applied to source data since
the latest extraction. It isbased on:
* Timestamp associated to operationaldata
* Triggers associated with change transactions for
relevant data
Elencare le procedure di cleansing
Duplicate data
Missing data
Unexpected use of fields
Impossible or wrong values
Inconsistent values for a single entity because different practices were used
Inconsistent values for own individual entity because of typing mistakesOxford
Quale tecnica è più adatta per risolvere problemi di formati incongruenti tra attributi correlati?
A) Approssimazione tramite funzioni di similarità
B) Algoritmi ad hoc basati su regole aziendali
C) Join approssimativo
D) Tecniche basate su dizionari
D) Tecniche basate su dizionari
Quale tecnica si utilizza quando non esiste una chiave comune per unire informazioni provenienti da fonti diverse?
A) Tecniche basate su dizionari
B) Approssimazione tramite funzioni di similarità
C) Join approssimativo
D) Algoritmi ad hoc basati su regole aziendali
C) Join approssimativo
Che cos’è il similarity approach?
similarity approach identifies different instances of the same information
(e.g. a customer has been
entered into the same database more times due totypo mistakes)
use affinity functions (e.g. Edit Distance) to calculate the similarity between two words (in this case the values of the customer surname). If the similarity is higher/lower (it depends on the affinity function we used)
than aspecific threshold, the two words are the same and we can merge the rows
Quale categoria di trasformazione dei dati si applica per creare nuove informazioni combinando uno o più attributi?
A) Arricchimento (Enrichment)
B) Conversione
C) Separazione
D) Concatenazione
A) Arricchimento (Enrichment)
Quale categoria di trasformazione implica il cambio di formato o tipo di dati?
A) Separazione
B) Enrichment
C) Denormalizzazione
D) Conversione
D) Conversione
Quale tipo di caricamento aggiorna il Data Warehouse aggiungendo solo le modifiche apportate ai dati sorgente?
A) Refresh
B) Incremental Loading
C) Full Loading
D) Update
D) Update
Che cos’è DFM?
The DFM is a conceptual model created specifically to function as data mart design
support. Itis graphic and based on the multidimensional model
Cos’è un primary event?
It isa particular occurrence of a fact, identified by on n-ple made up of a
value for each dimension. A value for each measure is associated with
each primary event
Cos’è un secondary event?
Un evento secondario è un raggruppamento di eventi primari basato su questi attributi dimensionali. Per esempio, potremmo dire che un “evento secondario” è “tutte le vendite di magliette Nike nel mese di gennaio
Cos’è un Data Lake?
A. Un archivio di dati in formato raw, accessibile in modo flessibile
B. Una struttura rigida per analisi SQL
C. Un database relazionale tradizionale
D. Un software per la gestione della supply chain
A. Un archivio di dati in formato raw, accessibile in modo flessibile
Qual è una delle caratteristiche principali del “Dark Data”?
A. È completamente analizzato nelle decisioni aziendali
B. Rappresenta il 90% dei dati sensoriali mai utilizzati
C. Richiede sempre una trasformazione preliminare
D. Non viene mai memorizzato nei sistemi aziendali
B. Rappresenta il 90% dei dati sensoriali mai utilizzati
Quale di questi è un vantaggio chiave del Data Lake rispetto al Data Warehouse?
A. Tempi di implementazione più lunghi
B. Supporto nativo per dati non strutturati
C. Costi di archiviazione più elevati
D. Solo supporto per carichi di lavoro BI
B. Supporto nativo per dati non strutturati
Qual è una best practice per l’ingestione dei dati in un Data Lake?
A. Sempre eseguire trasformazioni in anticipo
B. Evitare l’automazione del processo
C. Ridurre il numero di file inviati
D. Non crittografare i dati personali
C. Ridurre il numero di file inviati
What is one of the main uses of Data Lakes?
A. Storing pre-processed data
B. A single source of truth for raw data
C. Exclusively for backups
D. For traditional SQL analyses
B. A single source of truth for raw data
Qual è uno svantaggio comune dei Data Lakes senza una gestione adeguata?
A. Possono diventare un “Data Swamp”
B. Sono più costosi rispetto ai Data Warehouses
C. Hanno una latenza maggiore
D. Riducono la governance
A. Possono diventare un “Data Swamp”
Cosa distingue un Data Lake rispetto al tradizionale Data Warehouse?
D. Supporto limitato per l’analisi dei dati non strutturati
B. Schema fisso on write
C. Rigidità nella gestione dei dati
D. Schema applicato on read
D. Schema applicato on read
Quale problema risolve l’uso del “Delta Lake”?
A. Riduce i costi di storage
B. Unifica batch e streaming con transazioni ACID
C. Aumenta la velocità di trasferimento dati
D. Limita l’accesso ai dati grezzi
B. Unifica batch e streaming con transazioni ACID
Cosa si intende per “Streaming Analytics”?
A. Analisi di dati statici
B. Analisi di flussi di dati in tempo reale
C. Creazione di report periodici
D. Aggregazione di dati storici
B. Analisi di flussi di dati in tempo reale
Qual è una best practice per evitare che un Data Lake diventi un “Data Swamp”?
A. Ridurre il numero di utenti
B. Non utilizzare strumenti self-service
C. Creare un catalogo dati efficace
D. Utilizzare solo dati strutturati
C. Creare un catalogo dati efficace
A che serve CDC?
Change data capture. Rileva i cambiamenti nei dati e li inoltra alle analytics (possibilmente in real-time). Workload migration e capturing streaming data changes.
What are the three main zones in a Data Lake?
A. Secure, temporary, analytics
B. Raw, optimized, analytics
C. Standard, complex, advanced
D. Static, dynamic, transformed
B. Raw, optimized, analytics
Explain Raw, Optimized and Analytics zones
Raw
immutable store that cannot/should
not be changed after it has been
written; self–descriptive with
metadata; useful for disaster recovery
Optimized
as raw data grow, querying directly
them become slower to gain speed
data can be transformed in optimized
formats
Analytics
BI–ready and machine–learning ready
data and tables e.g. after feature
engineering)
What is the advantage of the “Schema on Read” approach?
A. Increases implementation time
B. Does not support unstructured data
C. Requires pre-processed data
D. Allows greater flexibility in data analysis
D. Allows greater flexibility in data analysis
What is the primary purpose of the Lambda Lake architecture?
A. Handles both batch and real-time data processing
B. Focuses only on real-time streaming data
C. Stores data in columnar formats exclusively
D. Eliminates data duplication
A. Handles both batch and real-time data processing
What distinguishes the Kappa Lake architecture from Lambda Lake?
A. It is optimized for batch processing only
B. It requires schema enforcement at write time
C. It focuses entirely on real-time data processing without batch layers
D. It supports only structured data
C. It focuses entirely on real-time data processing without batch layers
What feature of Delta Lake supports “Time Travel”?
A. Advanced compression algorithms
B. Data versioning to access historical data
C. Schema enforcement at write time
D. Parallel query execution
B. Data versioning to access historical data
Which architecture is best suited for real-time analytics without relying on batch processing?
A. Delta Lake
B. Lambda Lake
C. Kappa Lake
D. Data Warehouse
C. Kappa Lake
What is data ingestion?
A) The process of analyzing data to extract insights
B) The process of collecting and importing data into a system for processing and analysis
C) The process of visualizing data in graphs and charts
D) The process of cleaning and transforming raw data into a usable format
B) The process of collecting and importing data into a system for processing and analysis
What is a common challenge in data ingestion?
A) Ensuring that the data is only in one format
B) Minimizing the size of data files for storage
C) Handling diverse data formats and structures from various sources
D) Removing all redundant data from the system
C) Handling diverse data formats and structures from various sources
Which data ingestion architecture combines both batch and real-time processing to provide comprehensive insights?
A) Batch Processing
B) Real-Time Processing
C) Lambda Architecture
D) Data Lake Architecture
C) Lambda Architecture
What is batch processing?
Involves collecting historical data ay scheduled intervals. Suitable when real-time access is not critical for large datasets.
What is Real-Time Processing?
Continuous ingestion of data as it is generated.
Ideal for applications requiring immediate insights (e.g., fraud detection).
What is a key benefit of centralizing data in data ingestion?
A) It allows for data to be stored in multiple formats
B) It reduces the size of the data repositories
C) It eliminates the need for data transformation
D) It simplifies data governance and accessibility
D) It simplifies data governance and accessibility
What is a key feature of data ingestion systems for real-time decision making?
A) They only collect historical data
B) They process data with high latency for delayed insights
C) They handle streaming data with low-latency processing
D) They require large batch processes for decision making
C) They handle streaming data with low-latency processing.
What is the role of data ingestion in enhanced analytics?
A) To store data in its raw, unprocessed form
B) To transform raw data into structured formats for analysis
C) To analyze data using machine learning techniques
D) To visualize data in charts and graphs
B) To transform raw data into structured formats for analysis.
How does data ingestion contribute to operational efficiency?
A) By automating data collection and integration processes
B) By increasing manual intervention for data collection
C) By focusing on raw data storage without processing
D) By delaying data access for thorough analysis
A) By automating data collection and integration processes.
What is one of the main advantages of using a Data Warehouse (DW) for machine learning and data mining?
A) It limits the data available for analysis to a single department.
B) It consolidates data from multiple sources, providing a holistic view of the organization’s data.
C) It requires data science teams to access data from various isolated systems.
D) It reduces the need for cleaning and structuring data before analysis.
B) It consolidates data from multiple sources, providing a holistic view of the organization’s data.
Why is historical data storage important in a Data Warehouse for machine learning models?
A) It limits access to only recent data, focusing on current trends.
B) It provides real-time data processing without time-series analysis.
C) It allows long-term access to data, supporting trend analysis, time-series forecasting, and anomaly detection.
D) It only supports immediate data analysis without considering past data.
C) It allows long-term access to data, supporting trend analysis, time-series forecasting, and anomaly detection.
What is one of the benefits of data quality and cleansing in a Data Warehouse for machine learning?
A) It reduces the need for standardization across datasets.
B) It ensures that data is only validated during model training.
C) It requires significant manual data correction before loading into the Data Warehouse.
D) It ensures that data is cleaned and processed before being used for model development, saving time on data preparation.
D) It ensures that data is cleaned and processed before being used for model development, saving time on data preparation.
What is one of the advantages of Data Warehouses being optimized for querying in machine learning and data mining?
A) They limit the ability to perform complex queries due to poor data organization.
B) They do not support OLAP operations like slicing and dicing for data exploration.
C) They are optimized for quick data retrieval, facilitating feature engineering and data mining.
D) They require manual aggregation and indexing, making queries slower.
C) They are optimized for quick data retrieval, facilitating feature engineering and data mining.
What is one of the benefits of Data Warehouses in terms of scalability and performance for machine learning?
A) They enable scaling up data volumes without significant performance degradation,
B) They do not support parallel processing, limiting data retrieval speed.
C) They are designed to handle small data volumes and struggle with larger datasets.
D) They require manual adjustments to storage and compute resources for performance optimization.
A) They enable scaling up data volumes without significant performance degradation,
Question: Which of the following are drawbacks of a Data Warehouse (DW)?
A) It ensures real-time data availability for machine learning models.
B) It simplifies setup and maintenance processes.
C) It reduces initial setup costs and ongoing maintenance expenses.
D) It introduces latency in data availability and has a complex and costly setup.
D) It introduces latency in data availability and has a complex and costly setup.
Question: Which of the following are drawbacks of a Data Warehouse (DW)?
A) DWs handle unstructured data such as text, images, and sensor data very well.
B) The ETL process does not create any bottlenecks or processing delays.
C) DWs are designed to support real-time data mining without any delays.
D) DWs have limited flexibility in handling unstructured data and may face bottlenecks during the ETL process.
D) DWs have limited flexibility in handling unstructured data and may face bottlenecks during the ETL process.
Question: Which of the following are drawbacks of a Data Warehouse (DW)?
A) DWs are well-suited for rapidly evolving data structures and sources.
B) DWs struggle with handling rapidly evolving data and may over-rely on historical data, which may not always be relevant for current or future trends.
C) DWs handle rapidly changing data models and sources with ease, supporting dynamic machine learning pipelines.
D) DWs are designed to optimize real-time data analysis and are not reliant on historical data.
B) DWs struggle with handling rapidly evolving data and may over-rely on historical data, which may not always be relevant for current or future trends.