Text Classification with Logistic Regression Flashcards

1
Q

Cos’è un modello generativo e un modello discriminativo?

A

Il modello generativo, come Naive Bayes, cerca di comprendere la distribuzione dei dati e genera nuovi dati che sembrano provenire dalla stessa distribuzione. Ad esempio, se addestrato su immagini di cani e gatti, può generare nuove immagini realistiche di cani e gatti, senza necessariamente classificarle.

Il modello discriminativo, invece, crea una frontiera decisionale tra classi di dati diverse. Ad esempio, può essere addestrato per distinguere tra immagini di cani e gatti identificando caratteristiche discriminative come la forma delle orecchie o la lunghezza del muso. Una volta addestrato, può classificare nuove immagini come appartenenti a una delle due classi.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

componenti di un classificatore probabilistico?

A

Input Observation: x = [x1, x2, x3, …, xn] (valori delle features)
Weights: w = [w1, w2, w3, …, wn] (pesi associati alle features)
Output Prediction (Logits): una classe predetta z = w1x1 + w2x2 + w3x3 + … + wnxn + b (somma pesata delle features)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

classification in logistic regression

A

I dati vengono pre-elaborati, ad esempio rimuovendo la punteggiatura, convertendo il testo in minuscolo, rimuovendo le stop words e applicando tecniche come la stemmizzazione o la lemmatizzazione.
Le feature vengono estratte, solitamente le parole o combinazioni di parole presenti nei documenti. Ogni parola può essere considerata una feature, e il suo valore potrebbe essere la frequenza con cui appare nel documento.
Durante l’addestramento, il modello impara i pesi da assegnare a ciascuna feature per massimizzare la verosimiglianza dei dati osservati.

APPROFONDIRE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cos’è la cross-entropy?

A

La cross-entropy è una misura di quanto due distribuzioni di probabilità siano diverse tra loro. In pratica, viene usata per valutare quanto bene un modello di machine learning riesce a predire le etichette corrette.

In generale, se abbiamo due distribuzioni di probabilità P e Q, la cross-entropy tra di esse è definita come:

H(P, Q) = -∑x P(x) log(Q(x))

dove x è una variabile casuale che rappresenta gli eventi o le classi, e P(x) e Q(x) sono le probabilità associate a x secondo le distribuzioni P e Q(è il valore dato dal modello), rispettivamente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

cos’è la Stochastic Gradient Descent

A

La Stochastic Gradient Descent (SGD) è una variante dell’algoritmo di ottimizzazione Gradient Descent utilizzato per addestrare modelli di machine learning come reti neurali, regressione logistica e macchine a vettori di supporto.

A differenza del Gradient Descent standard, la SGD non utilizza l’intero set di dati di addestramento per calcolare gli aggiornamenti dei pesi del modello, ma utilizza solo un singolo esempio (o un piccolo sottoinsieme casuale di esempi) alla volta.

Il funzionamento della SGD può essere riassunto in pochi passaggi:

Inizializzazione dei pesi: I pesi del modello vengono inizializzati con valori casuali o predefiniti.

Iterazioni: Per ogni iterazione:

Si seleziona casualmente un esempio (o un sottoinsieme di esempi) dal set di dati di addestramento.
Si calcolano i gradienti della funzione di perdita rispetto ai pesi utilizzando solo l’esempio selezionato.
Si aggiornano i pesi del modello nella direzione opposta al gradiente, scalando il gradiente per un tasso di apprendimento.
Convergenza: Si ripetono le iterazioni fino a quando non si raggiunge una condizione di convergenza, ad esempio quando la funzione di perdita si stabilizza o il numero massimo di iterazioni è stato raggiunto.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly