DATA MINING Flashcards
Cos’è il data mining?
Il data mining è il processo di scoperta e analisi di modelli, relazioni e tendenze all’interno di grandi quantità di dati. Serve per estrarre informazioni significative dai dati al fine di prendere decisioni informate.
Spiegami il processo di estrazione dei dati(data mining)
Coinvolge diverse fasi:
1. Raccolta dei dati: vengono raccolti dati da diverse fonti
2. Preprocessing dei dati: i dati vengono puliti e trasformati per rimuovere eventuali rumori o dati mancanti
3. Selezione delle caratteristiche: si scelgono le variabili o caratteristiche rilevanti per l’analisi, al fine di ridurre la complessità dei dati focalizzandosi solo sui dati significativi
4. Applicazione degli algoritmi: vengono applicati gli algoritmi, come clustering, classificazione, regressione
5. Valutazione dei risultati: i risultati ottenuti dagli algoritmi vengono valutati per determinare la loro validità
6. Interpretazione dei risultati: ottenuti i risultati, è importate interpretarli in modo da trarre conclusioni significative
Cosa sono le regole di associazione?
Per trovare queste relazioni tra gli elementi vengono create le regole di associazione, rilevano come gli elementi sono correlati tra loro. Un esempio può essere il carrello della spesa, possiamo scoprire che i clienti che acquistano il pane acquistano anche il latte. In tal caso abbiamo una regola di associazione, pane -> latte. Queste regole si misurano con 2 metriche:
1- Supporto: la percentuale con cui la regola è valida, cioè quante volte gli elementi compaiono insieme
2- Confidenza: la probabilità che chi ha acquistato il pane acquisti anche il latte
Le regole di associazione possono essere di classificazione se l’attributo predittivo è categorico oppure di regressione se l’attributo predittivo è numerico.
Spiegami l’algoritmo Apriori
L’algoritmo più utilizzato è l’algoritmo Apriori, si basa sul principio apriori, e dice che se un insieme di elementi è frequente allora anche tutti i suoi sottoinsiemi sono frequenti. Obiettivo è identificare insiemi di elementi che compaiono insieme frequentemente.
Come funziona:
1. Generazione itemset candidati: creiamo insiemi candidati di dimensione 1, cioè i singoli elementi. Successivamente combina questi itemset candidati per creare itemset di dimensione 2 e cos’ via
2. Calcolo supporto: per ogni itmeset candidato calcola il supporto e se supera una certa soglia allora viene considerato frequente
3. Generazione itemset di dimensione superiore:utilizza gli itemset frequenti di dimensione k per generare itemset candidati di dimensione k+1. Vengono generati combinando gli itemset frequenti
4. Calcolo supporto: itemset canidati di dimensione k+1 vengono calcolati il supporto, chi supera la soglia è frequente
5. Generzione regole di associazione: una volta che abbiamo trovato tutti gli itemset frequenti vengono generate le regole di associazione in base a supporto e confidenza
Spiegami Knn
È utilizzabile per la classificazione e regressione in cui k rappresenta il numero di vicini da considerare.
Ogni nuovo elemento è classificato in base alla maggioranza dei k vicini, misurando la distanza tramite funzione di distanza.
Valori più grandi per k riducono errori nei dati, ma rendono anche meno marcati i confini tra le classi.
La cross validation è una tecnica per ottenere un valore ottimale per k.
Come funziona:
1. Si scelgono v insiemi casuali e per ogni valore potenziale di k si classifica a turno uno dei v insiemi e gli altri v-1 vengono usati come training set
2. Per ognuno dei v esperimenti si calcola l’errore quadratico medio
3. Si sceglie il valore di k che minimizza l’errore
Come si possono rappresentare le regole di associazione?
Gli alberi di decisione permettono di rappresentare le regole di classificazione come un albero.
Si costruisce l’albero partizionando ripetutamente il training set sul valore di un attributo, fino a quando tutti gli esempi in ogni partizione appartengono ad una sola classe.
Gli split possono essere: numerici e categorici