Domande orale Flashcards
Association rules
Dato un insieme di transazioni, le association rules definiscono delle regole di co occorrenza tra vari item che costituiscono queste transazioni. Le regole hanno forma X => Y e significano che l’item Y è probabile che si occorra insieme all’item X.
Elementi nel rule mining
Itemset: collezione di 1 o piu elementi
Support count: frequenza di occorrenze di un item set
Support: frazione di transizioni che contengono un itemset.
Frequent item set: itemset il cui support é maggiore o uguale ad un threshold.
Rule eval metrics
Per la valutazione della bontà delle regole si usano due metriche: 1) Confidence che misura quanto spesso l’item “Y” appare insieme all’item “X” ed è pari a Support_count(X) intersecato Support_count(Y)/ support_Count(X) 2) Lift = P(Y|X)/P(Y) che è stata usata per fixare i problemi della confidence, cioè che non tiene conto della probabilità che appaia un item Y senza conoscere X. (Esempio caffè e tè). Se Lift = 1, allora X e Y sono indipendenti e quindi la regola costruita è inutile. Se lift > 1 allora sono positivamente correlate altrimenti negativamente correlate (male)
Approccio mining association rule in due step
1) il primo step è quello di generare tutti i frequent itemsets a partire dal dataset di transazioni iniziale. 2) Dopo averle generate, prendere ciascun itemset e a partire da esso generare tutte le possibili regole che hanno una confidence superiore a conf_min. Preso un itemset prendere tutte i possibili subset “f” con f < L, L dimensione dell’itemset, e creare regola formata in questa maniera f => L-f.
Come riduco il numero di frequent itemset da generare?
Principio apriori dice che se un itemset è infrequente allora tutti i suoi superset saranno infrequenti (NON VALE CHE SE ITEMSET FREQUENTE ALLORA SUPERSET è FREQUENTE). Questo si può notare dal fatto che se il support_count di un itemset è 3 allora sicuramente tutti i suoi superset (ovvero itemset formati da tutti gli item del vecchio itemset più altri) avranno support_count al massimo uguale a 3, perché se per il superset matcho con una transazione allora sicuramente matcherò per tutti i suoi subset.
Algoritmo apriori
Parto K=1 ovvero itemset di un solo item. E genero tutti i frequent itemset di 1 item e creo Fk. 1) Scorro ogni elemento di Fk per generare il livello successivo Lk+1, la generazione avverrà solo da frequent itemsets. 2) Dopodiché applico il pruning su Lk+1 andando ad eliminare qualsiasi itemset che è potrebbe essere stato generato da un itemset che non è frequente. In pratica sto generando tutti i subset del itemset in Lk+1 controllando che sia infrequente. 3) Faccio il support count per Lk+1. 4) Elimino tutti gli itemset che hanno support_count < minsup
Maximal Frequent itemset, closed itemset
un itemset è maximal se è frequente e nessuno dei suoi superset è frequente. un itemset è closed se è frequente e nessuno dei suoi superset ha un support UGUALE ad esso. Essendo che support diminuisce sempre per i superset significa che closed itemset è un itemset frequente con support superiore a tutti i suoi superset.
Perché é utile aggiungere concetti gerarchici nelle association rules?
1) è utile perché a volte gli item troppo specifici hanno un support count troppo piccolo e rischiano di essere eliminati. Anche per il fatto che mostrano lo stesso tipo di associazione per quella regola (per esempio pane bianco e pane integrale comprati insieme al latte, mostrano come il pane in generale viene acquistato con il latte). 2) Avere delle regole molto alte nella gerarchia (Bevande) può essere troppo generico e non conferire alcuna informazione utile
Cosa vogliamo da AI, a livello di Dati?
Lawful AI che possa essere concorde con tutte le leggi
Etica ai, che rispetti principi etici e valori
Robust Ai, che sia sicura e reliable in modo da resistere ad attacchi esterni
Personal data
Personal data come informazioni dell’individuo
Una persona identificabile se possiamo arrivare a chi é utilizzando modo diretto o indiretto
Es. personal data nome, foto, home address
Es. sensitive data razza, politica, religione
Gdpr obiettivi
Dare a ciascun individuo il controllo sui propri dati
Privacy by design
Approccio che permette di proteggere dati direttamente durante fase di design
Prudence framework
Definiamo servizio,
selezioniamo le dimensioni
estraiamo i dati,
definiamo attacchi,
simuliamo attacchi,
selezioniamo tradeoff
perform mitigation strategie,
deliver dei dati versione safe
Explainable AI reverse eng
Utilizzo values con random pertubations
SHAP
Metodo tramite game theory per ottenere explainability, distribuendo payout tra le varie featuers.