Lectures Flashcards

1
Q

KDD process

A

Partendo dai dati: effettuo cleaning prendendo quindi dati che mi servono (data understanding, merging from multiple sources) data integration, salvati in Data warehouse, seleziono quelli rilevanti per il task, effettuo data mining e valuto il pattern.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Data Mining tasks

A

Prediction, uso variabili per predire sconosciuti o futuri valori.
Description, trovo human interpretable patterns, che descrivono dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cosa sono data objects?

A

I dati rappresentano quelli che sono chiamati data objects, ossia oggetti che hanno delle proprietá.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Tipi di attributi che posso avere? Che caratteristiche possono avere?

A

Nominali categorici (categorie), binary (appartiene o meno, 0/1), ordinali (come categorici, ma ordinati), numerici, ratio scaled (% su un totale).

Distintivitá, ordinamento, differenze meaningful, ratio meaningful.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Problemi con data quality

A

Accuracy sintattica (errore di battitura), accuracy semantica (scritto bene, ma dato non coerente), completezza (mancano dei dati che ci portano a conclusioni errate), dati sbilanciati (potremmo avere dati che ci portano a leggere sbilanciamento errato), timeliness (ancora validi?).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cosa sono bins?

A

bins rappresenta dimensione intervallo in istogramma.

Dato da Sturges’ rule = approx per eccesso log2(n) + 1
Valido solo per normalo distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Media, mediana, moda

A

Media somma valori divisa per numero valori, mediana valore centrale o media tra due valori centrali, moda valore che vediamo piu di frequente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dispersione dei dati misurata tramite

A

range (distanza tra min, max), varianza ( 1/m - 1 * somm m (xi - x’)ˆ2, standard deviation = varianza al quadrato, five number summary.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Scatterplot

A

Permette di visualizzare dati, andando ad inserire su assi x e y due valori tra quelli disponibili.
Questa visualizzazione può far emergere pattern, ma se assenti potrebbero essere ancora presenti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Pearson’s correlation

A

Dato da sommatoria tra tutti (x - x’) * (y - y’) / n - 1 standard deviation x * standard deviation y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Come riduco dimensionality? metodi

A

Filter methods: analizzo significato e correlazione con altri attributi
Wrapper methods: seleziono top ranked features
Embedded methods: durante il DM algo, effettuo selezione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Creazione delle features

A

Immagina delle foto, invece di analizzarle in formato raw, estrai alcune caratteristiche.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Discretization, tipi di binning

A

Conversione di attributo continuo in un attributo ordinale.
Natural binning deve appartenere ad intervallo, abbiamo k intervalli.
Equal frequency binning, vado a variare la dimensione dell’intervallo per avere lo stesso numero di elementi interno.
Statistical binning, vado a dividere dati in base a valori statistici e quanto questi si differenziano dai valori statistici.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Numero ottimale di classi per discretization

A

Dato da Sturges:
C = 1 + 10/3 log10(N)
Scott:
h = 3.5 * s / rad(N)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Approccio di discretizzazione basato su entropia

A

Divido dataset in due parti, poi continuo a dividere iterativamente parte con entropia maggiore.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Binarization

A

Posso convertire attributi continui in categorie, con 0/1 su una determinata proprietá
Es. alto (>1.80), medio ( > 1.60 AND < 1.80)….

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Obiettivi di una trasformazione, e tipi di trasformazione

A

Preservare informazioni rilevanti, eliminare almeno un problema di X, piu utile di X.
Tipologie:
min,max
z score (quanto differisce da mean)/standard dev
normalization by decimal scale porto tutti i valori tra 0.0 e 1.0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Cluster cosa sono, che versioni possiamo avere? Che tipi possiamo avere e che distinzioni possiamo fare

A

Ricerchiamo gruppi di oggetti, relazionati tra loro. per sommatoria e understanding dei dati.
Possiamo avere versione gerarchica e partizionata.
Esclusivi e non esclusivi, un elemento puó appartenere solo ad un cluster o a piu cluster.
Fuzzy cluster, ogni elemento appartiene ad un cluster con un peso.
Cluster parziale solo su una parte dei dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Parlami dei cluster well separated,center based,contiguity based,density based, objective function.

A

Well separated dove ogni elemento del cluster é piu vicino agli altri elementi del cluster, che a qualsiasi altro elemento.
Center based, basati sui centroidi e i suoi punti sono piu vicini al centroide di riferimento che agli altri.
Contiguity based, basta che un punto sia piu vicino ad un elemento nel cluster di appartenenza che agli altri.
density based, i clusters sono identificati da zone dense di punti e zone vuote.
Objective function, cerchiamo tutte le possibili divisioni del cluster per valutare migliore (NP Hard).

20
Q

K Means, algo

A

Seleziono K points (random o scegliendo punti lontani).
ripeti
forma k clusters , assegnando tutti i punti piu vicini ad un centroide
ricomputa il centroide, andando a trovare punto centrale.
continua fino a quando ho variazioni interessanti sulla SSE.

21
Q

Sum of squared error

A

Sommo per tutti i punti, per tutti i centroidi, quanto i punti appartenenti ad un cluster sono lontani dal centroide al quadrato.

22
Q

Come riduco SSE?

A

Aumento K, ottenendo quindi piu clusters e quindi meno errore.

23
Q

Come supero limiti del K means?

A

Uso cluster piu piccoli che accorpo.

24
Q

Bisetting K Means

A

Creo un grande unico Cluster,
repeat
prendo un cluster, (di solito quello con valore minore) e lo divido applicando K-Means
Da questi cluster ne seleziono due con total SSE minore e li aggiungo alla lista
Tutto fino a quando non raggiungo K clusters.

25
Q

X Means

A

Parto da un K Means, per ogni cluster vado a trovare 2 centroidi aventi come centro il cluster in esame e scelgo quelli con BIC valuie maggiore, comparo quindi BIC padre con figli. Mi fermo quando non mi conviene piu splittare cluster.

26
Q

Differenza tra problema di classificazione e regressione

A

Classificazione dobbiamo assegnare un valore categorico
Regressione dobbiamo assegnare un valore numerico.

27
Q

Cluster gerarchici

A

Possiamo avere dei cluster a più livelli, dove abbiamo piu livelli di cluster, quindi dei cluster possono accorpare altri.
Possono essere rappresentati come tree like diagram.

28
Q

Metodologie per performare cluster gerarchico

A

Agglomerativo: parto da punti come cluster individuali e accorpo i più vicini.
Divisivo: parto da un solo grande cluster, e splitto fino ad ottenere K cluster, oppure cluster hanno individual points.

29
Q

Come confronto cluster sim, metriche

A

MIN, MAX, Group Avarage, distanza tra centroidi.

30
Q

MST, per costruire cluster

A

Minimum spanning tree, per costruire i cluster, dove spezzo rami più lunghi.

31
Q

DBScan

A

Metodologia basata su core point (elemento avente almeno MinPoints) con un certo valore di Eps.
Border point, non core point ma suo vicino.
Noise point, ne vicino ,ne border.
Algo:accorpo ai core, border.

32
Q

Come misurare Cluster validità

A

Indici interni,
indici esterni,
indici relativi tra due differenti clusters.

33
Q

Hunt’s algo

A

Costruisco un albero di classificazione. Parto da un training set, se da uno split ottengo tutti elementi appartenenti alla stessa classe parlo di Leaf node. Altrimenti continuo a dividere. Per ottimizzare devo splittare in base ad attributo che divide meglio.

34
Q

Quando fermare lo splitting dei tree?

A

O quando tutti i record appartengono alla stessa classe, oppure early termination.

35
Q

Multi-way split vs binary split.

A

Come dice il nome multi-way posso dividere in 3 o piú partizioni, contro binary dove ogni partizione splitta in due.

36
Q

Come misuro impuritá di un nodo?

A

Gini 1 - sum( frequenza di attributi classe j rispetto ad attributi totali)^2
entropia - sommatoria ( frequenza di attributi classe j rispetto ad attributi totali) log ( frequenza di attributi classe j rispetto ad attributi totali).
Quando vado a verificare impuritá di un nodo in caso di split in tanti nodi ottengo ovviamente impuritá minore, ma da tenere in considerazione questo, poiché potrebbe essere meglio impuritá maggiore, ma meno split.
missclassified error dato da 1 - missclassified della classe maggiormente missclassified.

37
Q

Occam rasoio`

A

Dati due modelli aventi simile errore, preferiró quello piu semplice. Posso aggiungere al training error + la complexity del modello moltiplicata per un fattore alfa/

38
Q

Come posso andare a diminuire dimensione albero?

A

Prepruning fermo albero a certe condizioni
Post pruning, faccio crescere albero fully e poi accorpo.

39
Q

Rule based classifier, come lo costruisco

A

Vado a creare insieme di regole per definire una classe. Estraggo rules dai dati o da un tree

40
Q

Come costruisco rule set:?

A

Parto da rule set vuoto, aggiungo una rule ed elimino dal dataset elementi che rispettano rule, finché non classifico come desidero.

41
Q

Metodo RIPPER per costruire rule

A

Per 2 classi applico rule per classe positiva e restanti finiscono in default class.
Per multiclass, ordino classi in base a prevalenza che viene trattata come prima classe e una volta identificata, riapplico regola a classe negativa.

42
Q

Metodo indiretto per costruire rule.

A

Parto da fully grown tree ed estraggo rules.

43
Q

Classificatori di Bayes

A

Possiamo applicare teorema di bayes ed andare a creare un classificatore Naive di bayes. Considero come indipendenti tra loro proprietá e vado a registrare quale é probabilitá che dato un determinato attributo io abbia come outcome Y. Moltiplico tra loro tutte proprietá per restituire output.
Per Calcolare le probabilitá mi basta guardare i dati e verificare quanti elementi aventi come classe Y, abbiano un determinato attributo.

44
Q

Ensable methods e tipologie.

A

Posso aggregare piú prediction insieme pere restituire valore corretto. se classifier uncorrelated, anche errori uncorrelated.
Begging, vado a costruire basandomi su set-test diversi dei classificatori, predittori differenti e vado a restituire la moda per classificatore o la media per regressione.
Boosting si concentra su migliorare errori di classificazione dei modelli precedenti, adaboosting é una versione molto utilizzata di questo.
Random forest, crea decine o centinaia di alberi decisionali, in modo simile al begging restituisce i valori migliori.

45
Q

SVM

A

SVM cerca hyperpiano che divida dati, esempio di 2d hyperplane in 3d space.
Cerco di minimizzare margine, ossia distanza tra i due punti piu vicini delle due classi separate.