Domande orale Flashcards

1
Q

Association rules

A

Dato un insieme di transazioni, le association rules definiscono delle regole di co occorrenza tra vari item che costituiscono queste transazioni. Le regole hanno forma X => Y e significano che l’item Y è probabile che si occorra insieme all’item X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Elementi nel rule mining

A

Itemset: collezione di 1 o piu elementi
Support count: frequenza di occorrenze di un item set
Support: frazione di transizioni che contengono un itemset.
Frequent item set: itemset il cui support é maggiore o uguale ad un threshold.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Rule eval metrics

A

Per la valutazione della bontà delle regole si usano due metriche: 1) Confidence che misura quanto spesso l’item “Y” appare insieme all’item “X” ed è pari a Support_count(X) intersecato Support_count(Y)/ support_Count(X) 2) Lift = P(Y|X)/P(Y) che è stata usata per fixare i problemi della confidence, cioè che non tiene conto della probabilità che appaia un item Y senza conoscere X. (Esempio caffè e tè). Se Lift = 1, allora X e Y sono indipendenti e quindi la regola costruita è inutile. Se lift > 1 allora sono positivamente correlate altrimenti negativamente correlate (male)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Approccio mining association rule in due step

A

1) il primo step è quello di generare tutti i frequent itemsets a partire dal dataset di transazioni iniziale. 2) Dopo averle generate, prendere ciascun itemset e a partire da esso generare tutte le possibili regole che hanno una confidence superiore a conf_min. Preso un itemset prendere tutte i possibili subset “f” con f < L, L dimensione dell’itemset, e creare regola formata in questa maniera f => L-f.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Come riduco il numero di frequent itemset da generare?

A

Principio apriori dice che se un itemset è infrequente allora tutti i suoi superset saranno infrequenti (NON VALE CHE SE ITEMSET FREQUENTE ALLORA SUPERSET è FREQUENTE). Questo si può notare dal fatto che se il support_count di un itemset è 3 allora sicuramente tutti i suoi superset (ovvero itemset formati da tutti gli item del vecchio itemset più altri) avranno support_count al massimo uguale a 3, perché se per il superset matcho con una transazione allora sicuramente matcherò per tutti i suoi subset.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Algoritmo apriori

A

Parto K=1 ovvero itemset di un solo item. E genero tutti i frequent itemset di 1 item e creo Fk. 1) Scorro ogni elemento di Fk per generare il livello successivo Lk+1, la generazione avverrà solo da frequent itemsets. 2) Dopodiché applico il pruning su Lk+1 andando ad eliminare qualsiasi itemset che è potrebbe essere stato generato da un itemset che non è frequente. In pratica sto generando tutti i subset del itemset in Lk+1 controllando che sia infrequente. 3) Faccio il support count per Lk+1. 4) Elimino tutti gli itemset che hanno support_count < minsup

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Maximal Frequent itemset, closed itemset

A

un itemset è maximal se è frequente e nessuno dei suoi superset è frequente. un itemset è closed se è frequente e nessuno dei suoi superset ha un support UGUALE ad esso. Essendo che support diminuisce sempre per i superset significa che closed itemset è un itemset frequente con support superiore a tutti i suoi superset.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Perché é utile aggiungere concetti gerarchici nelle association rules?

A

1) è utile perché a volte gli item troppo specifici hanno un support count troppo piccolo e rischiano di essere eliminati. Anche per il fatto che mostrano lo stesso tipo di associazione per quella regola (per esempio pane bianco e pane integrale comprati insieme al latte, mostrano come il pane in generale viene acquistato con il latte). 2) Avere delle regole molto alte nella gerarchia (Bevande) può essere troppo generico e non conferire alcuna informazione utile

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cosa vogliamo da AI, a livello di Dati?

A

Lawful AI che possa essere concorde con tutte le leggi
Etica ai, che rispetti principi etici e valori
Robust Ai, che sia sicura e reliable in modo da resistere ad attacchi esterni

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Personal data

A

Personal data come informazioni dell’individuo
Una persona identificabile se possiamo arrivare a chi é utilizzando modo diretto o indiretto
Es. personal data nome, foto, home address
Es. sensitive data razza, politica, religione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Gdpr obiettivi

A

Dare a ciascun individuo il controllo sui propri dati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Privacy by design

A

Approccio che permette di proteggere dati direttamente durante fase di design

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Prudence framework

A

Definiamo servizio,
selezioniamo le dimensioni
estraiamo i dati,
definiamo attacchi,
simuliamo attacchi,
selezioniamo tradeoff
perform mitigation strategie,
deliver dei dati versione safe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Explainable AI reverse eng

A

Utilizzo values con random pertubations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

SHAP

A

Metodo tramite game theory per ottenere explainability, distribuendo payout tra le varie featuers.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

LIME

A

Restituisce un vettore di superpixel da un’immagine

17
Q

Cosa é un outlier?

A

Elemento che non é conforme con expected comportamento.

18
Q

Noise vs outliers

A

Noise = valore mal registrato
Outliers = valori non expected