Lectures Flashcards
KDD process
Partendo dai dati: effettuo cleaning prendendo quindi dati che mi servono (data understanding, merging from multiple sources) data integration, salvati in Data warehouse, seleziono quelli rilevanti per il task, effettuo data mining e valuto il pattern.
Data Mining tasks
Prediction, uso variabili per predire sconosciuti o futuri valori.
Description, trovo human interpretable patterns, che descrivono dati.
Cosa sono data objects?
I dati rappresentano quelli che sono chiamati data objects, ossia oggetti che hanno delle proprietá.
Tipi di attributi che posso avere? Che caratteristiche possono avere?
Nominali categorici (categorie), binary (appartiene o meno, 0/1), ordinali (come categorici, ma ordinati), numerici, ratio scaled (% su un totale).
Distintivitá, ordinamento, differenze meaningful, ratio meaningful.
Problemi con data quality
Accuracy sintattica (errore di battitura), accuracy semantica (scritto bene, ma dato non coerente), completezza (mancano dei dati che ci portano a conclusioni errate), dati sbilanciati (potremmo avere dati che ci portano a leggere sbilanciamento errato), timeliness (ancora validi?).
Cosa sono bins?
bins rappresenta dimensione intervallo in istogramma.
Dato da Sturges’ rule = approx per eccesso log2(n) + 1
Valido solo per normalo distribution.
Media, mediana, moda
Media somma valori divisa per numero valori, mediana valore centrale o media tra due valori centrali, moda valore che vediamo piu di frequente.
Dispersione dei dati misurata tramite
range (distanza tra min, max), varianza ( 1/m - 1 * somm m (xi - x’)ˆ2, standard deviation = varianza al quadrato, five number summary.
Scatterplot
Permette di visualizzare dati, andando ad inserire su assi x e y due valori tra quelli disponibili.
Questa visualizzazione può far emergere pattern, ma se assenti potrebbero essere ancora presenti.
Pearson’s correlation
Dato da sommatoria tra tutti (x - x’) * (y - y’) / n - 1 standard deviation x * standard deviation y
Come riduco dimensionality? metodi
Filter methods: analizzo significato e correlazione con altri attributi
Wrapper methods: seleziono top ranked features
Embedded methods: durante il DM algo, effettuo selezione.
Creazione delle features
Immagina delle foto, invece di analizzarle in formato raw, estrai alcune caratteristiche.
Discretization, tipi di binning
Conversione di attributo continuo in un attributo ordinale.
Natural binning deve appartenere ad intervallo, abbiamo k intervalli.
Equal frequency binning, vado a variare la dimensione dell’intervallo per avere lo stesso numero di elementi interno.
Statistical binning, vado a dividere dati in base a valori statistici e quanto questi si differenziano dai valori statistici.
Numero ottimale di classi per discretization
Dato da Sturges:
C = 1 + 10/3 log10(N)
Scott:
h = 3.5 * s / rad(N)
Approccio di discretizzazione basato su entropia
Divido dataset in due parti, poi continuo a dividere iterativamente parte con entropia maggiore.
Binarization
Posso convertire attributi continui in categorie, con 0/1 su una determinata proprietá
Es. alto (>1.80), medio ( > 1.60 AND < 1.80)….
Obiettivi di una trasformazione, e tipi di trasformazione
Preservare informazioni rilevanti, eliminare almeno un problema di X, piu utile di X.
Tipologie:
min,max
z score (quanto differisce da mean)/standard dev
normalization by decimal scale porto tutti i valori tra 0.0 e 1.0
Cluster cosa sono, che versioni possiamo avere? Che tipi possiamo avere e che distinzioni possiamo fare
Ricerchiamo gruppi di oggetti, relazionati tra loro. per sommatoria e understanding dei dati.
Possiamo avere versione gerarchica e partizionata.
Esclusivi e non esclusivi, un elemento puó appartenere solo ad un cluster o a piu cluster.
Fuzzy cluster, ogni elemento appartiene ad un cluster con un peso.
Cluster parziale solo su una parte dei dati.