Apprendimento tramite osservazioni (NON FINITO) Flashcards

1
Q

Cos’è l’apprendimento in intelligenza artificiale? Cos’è l’agente e cos’è il learning element?

A

L’apprendimento in intelligenza artificiale (IA) si riferisce al processo attraverso il quale un sistema o un programma informatico acquisisce conoscenza e competenze in modo autonomo, in risposta a dati o esperienze passate. L’obiettivo dell’apprendimento automatico è quello di consentire a un sistema di migliorare le sue prestazioni su compiti specifici senza essere esplicitamente programmato per farlo. Questo è in contrasto con l’IA tradizionale, in cui gli algoritmi sono scritti esplicitamente per svolgere compiti specifici.

Gli elementi chiave dell’apprendimento in intelligenza artificiale includono:

Agente: L'agente è l'entità o il sistema che apprende. Può essere un programma informatico, un robot, un'entità virtuale o qualsiasi altra cosa che può interagire con l'ambiente e acquisire conoscenza. Gli agenti sono progettati per risolvere compiti specifici o raggiungere obiettivi, e l'apprendimento li aiuta a migliorare nel tempo.

Elemento di apprendimento (Learning Element): L'elemento di apprendimento è la parte dell'agente che si occupa dell'apprendimento vero e proprio. Questo componente può variare notevolmente a seconda dell'approccio di apprendimento utilizzato. Ad esempio, negli algoritmi di apprendimento automatico, l'elemento di apprendimento può essere un classificatore, una rete neurale, un albero decisionale o un'altra struttura che viene addestrata sui dati per fare previsioni o prendere decisioni.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quali sono i tipi di apprendimento?

A

Apprendimento Supervisionato (Supervised Learning): In questo tipo di apprendimento, il modello viene addestrato su un insieme di dati di addestramento che contiene coppie di input e output desiderati. L’obiettivo è imparare una mappatura tra gli input e gli output in modo che il modello possa fare previsioni su nuovi dati in base a ciò che ha imparato durante l’addestramento. Esempi di algoritmi di apprendimento supervisionato includono reti neurali artificiali, alberi decisionali e regressione lineare.

Apprendimento Non Supervisionato (Unsupervised Learning): In questo caso, il modello è addestrato su dati senza etichette o output desiderati. L'obiettivo principale è trovare pattern, strutture o gruppi nei dati. Alcuni esempi di tecniche di apprendimento non supervisionato sono il clustering (aggregazione di dati in gruppi simili) e la riduzione della dimensionalità (riduzione del numero di variabili o dimensioni nei dati).

Apprendimento per Rinforzo (Reinforcement Learning): In questo tipo di apprendimento, un agente impara a prendere decisioni sequenziali per massimizzare una ricompensa cumulativa in un ambiente dinamico. L'agente esplora l'ambiente e apprende quali azioni portano a ricompense positive e quali a ricompense negative. Questo tipo di apprendimento è spesso utilizzato in giochi, robotica e ottimizzazione di decisioni sequenziali.

Apprendimento Semi-Supervato (Semi-Supervised Learning): Questo tipo di apprendimento combina elementi dell'apprendimento supervisionato e non supervisionato. Un modello è addestrato su un piccolo set di dati etichettati e un set di dati più ampio senza etichette. L'obiettivo è utilizzare le informazioni disponibili nei dati etichettati per migliorare le prestazioni del modello sui dati non etichettati.

Apprendimento Profondo (Deep Learning): Il deep learning è una sotto-categoria dell'apprendimento supervisionato che si basa su reti neurali artificiali profonde. Queste reti neurali sono composte da molti strati (profondità) e sono particolarmente efficaci nell'elaborazione di dati complessi come immagini, audio e testo. Sono utilizzate in applicazioni come il riconoscimento facciale, il riconoscimento vocale e la traduzione automatica.

Apprendimento Online (Online Learning): In questo tipo di apprendimento, il modello viene addestrato continuamente man mano che nuovi dati diventano disponibili. È utile in situazioni in cui il modello deve adattarsi costantemente ai cambiamenti nei dati in tempo reale, ad esempio nell'elaborazione di flussi di dati in continuo.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cos’è l’apprendimento induttivo?

A

L’apprendimento induttivo è un processo in cui un computer impara da esempi. Guarda dati di addestramento, cerca pattern e regole, crea un modello e lo usa per fare previsioni su nuovi dati. Ad esempio, può imparare a riconoscere gatti dalle foto. Questo processo è basato sulla scoperta di regole generali dai dati anziché sulla memorizzazione di dati specifici.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Cos’è il Bias e cos’è la varianza?

A

Bias (Errore sistematico):
Il bias rappresenta l’errore sistematico di un modello. Si riferisce alla differenza tra le previsioni del modello e i valori reali dei dati di addestramento.
Un modello con alto bias tende a semplificare eccessivamente il problema, perdendo dettagli importanti nei dati e ottenendo previsioni inesatte sia sui dati di addestramento che su nuovi dati.
Questo fenomeno è spesso chiamato “sottodimensionamento” o “underfitting” ed è dovuto a una mancanza di complessità del modello.

Varianza (Errore casuale):
    La varianza rappresenta l'errore casuale di un modello. Si riferisce alla sensibilità del modello alle variazioni nei dati di addestramento.
    Un modello con alta varianza è eccessivamente complesso e si adatta troppo ai dati di addestramento, catturando il rumore nei dati anziché i modelli sottostanti.
    Questo fenomeno è spesso chiamato "sovradimensionamento" o "overfitting" ed è causa di una scarsa capacità di generalizzazione.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cos’è un albero di decisione? Qual è lo spazio delle ipotesi? E come funziona l’apprendimento negli alberi di decisione?

A

Un albero di decisione è un modello di apprendimento automatico ampiamente utilizzato per la classificazione e la regressione. È una rappresentazione grafica di un insieme di regole decisionali gerarchiche utilizzate per prendere decisioni. Gli alberi di decisione sono particolarmente efficaci per problemi di classificazione e sono spesso utilizzati in problemi di apprendimento supervisionato.

Spazio delle ipotesi:
    Lo spazio delle ipotesi è l'insieme di tutte le possibili regole decisionali che un albero di decisione può rappresentare. Ogni nodo dell'albero rappresenta una domanda o una condizione sui dati di input, e le foglie dell'albero rappresentano le etichette di classe o i valori di output. Il modello cerca di suddividere lo spazio delle ipotesi in modo da ottenere le migliori previsioni possibili. Intelligenza Artificiale a.a. 2023/2024 Quanti alberi di decisione si possono creare con n attributi booleani? = numero di funzioni booleane = numero di tabelle di verità distinte con 2^n righe = 2^2^n

Apprendimento negli alberi di decisione:
    Il processo di apprendimento negli alberi di decisione comporta la costruzione dell'albero utilizzando un approccio ricorsivo.
    Inizia con un nodo radice che rappresenta l'intero set di dati di addestramento.
    In ogni passo ricorsivo, il modello seleziona una feature (caratteristica) e un punto di divisione ottimale che massimizza la separazione tra le classi o minimizza l'errore. Questo è noto come criterio di divisione.
    Il processo continua ricorsivamente su ciascun sottoinsieme di dati risultante dalle divisioni, finché viene soddisfatto un certo criterio di arresto, ad esempio una profondità massima dell'albero o un numero minimo di campioni per foglia.
    Le foglie dell'albero contengono le etichette di classe o i valori di output previsti.

L’obiettivo principale nell’apprendimento degli alberi di decisione è trovare la migliore struttura dell’albero che minimizzi l’errore di previsione o massimizzi l’accuratezza della classificazione. Questo può implicare il rischio di sovradimensionamento (overfitting), in cui l’albero è troppo complesso e memorizza il rumore nei dati di addestramento. Per mitigare il sovradimensionamento, è possibile utilizzare la potatura dell’albero (pruning) o limitare la sua profondità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

ALGORITMO DTL

A

Quattro idee alla base dell’algoritmo:
1. Se sono presenti campioni positivi e negativi, scegliere l’attributo migliore per dividerli
2. Se tutti i campioni rimanenti sono tutti positivi o tutti negativi, abbiamo raggiunto un nodo foglia. Assegna l’etichetta come positiva (o negativo)
3. Se non sono rimasti campioni, significa che non è stato osservato quel campione. Restituisce un valore predefinito calcolato da classificazione maggioritaria al genitore del nodo
4. Se non ci sono attributi rimasti, ma sia campioni positivi che negativi, significa che questi campioni hanno esattamente lo stesso valore delle caratteristiche ma classificazioni diverse. Può succedere perché alcuni dei dati potrebbero essere errati o gli attributi non forniscono informazioni sufficienti per descrivere completamente la situazione (cioè ci mancano altri attributi utili), o il problema è veramente non-deterministico, cioè dati due campioni descrivendo esattamente le stesse condizioni, possiamo renderle diverse decisioni.
Soluzione: chiamarlo nodo foglia e assegnargli il voto di
maggioranza come l’etichetta.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Come si sceglie il miglior attributo negli alberi di decisione? Cos’è l’entropia? Cos’è il remainder? Cos’è il guadagno?

A

Nell’apprendimento degli alberi di decisione, la scelta del miglior attributo per la divisione dei dati è cruciale per la costruzione di un albero accurato. L’entropia, il remainder e il guadagno sono concetti chiave utilizzati per valutare la qualità di un attributo nella divisione dei dati. Ecco come funzionano:

Entropia:
    L'entropia è una misura dell'incertezza o della casualità in un insieme di dati. In termini di alberi di decisione, rappresenta quanto casuale è la distribuzione delle classi all'interno di un insieme di dati.
    L'entropia di un insieme S rispetto a una variabile casuale X è calcolata con la formula:
    H(S) = -Σ(p(x) * log2(p(x))) per tutti i valori distinti x in X
    Dove p(x) è la probabilità che X abbia un valore x. L'entropia è massima quando tutte le classi sono uniformemente distribuite (massima incertezza) e minima quando tutte le istanze appartengono a una sola classe (nessuna incertezza).

Guadagno (Information Gain):
    Il guadagno è una misura della riduzione dell'entropia ottenuta dividendo un insieme di dati in base a un certo attributo. In altre parole, misura quanto un attributo contribuisce a ridurre l'incertezza nelle previsioni.
    Il guadagno è calcolato sottraendo l'entropia ponderata dei sottoinsiemi ottenuti dalla divisione dall'entropia dell'insieme originale. Maggiore è il guadagno, migliore è l'attributo per la divisione. FORMULA

Remainder (Impurity):
    Il remainder, o impurità, è una misura complementare all'entropia ed è basato sulla variazione delle distribuzioni di classe nei sottoinsiemi ottenuti dalla divisione con un attributo specifico.
    L'obiettivo è minimizzare l'impurità quando si seleziona un attributo per la divisione. L'attributo che produce il remainder più basso è considerato il migliore. FORMULA

Nella pratica, per selezionare il miglior attributo per la divisione in un albero di decisione, si calcola il guadagno (o l’impurità) per ciascun attributo disponibile e si seleziona quello con il guadagno maggiore (o l’impurità minore). Questo processo è ripetuto ricorsivamente per costruire l’albero di decisione. La misura utilizzata per il guadagno o l’impurità dipende dal tipo di algoritmo utilizzato, ad esempio, l’algoritmo ID3 utilizza l’entropia, mentre l’algoritmo CART utilizza il Gini impurity.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cosa sono le curve di apprendimento? e come funzionano?

A

Le curve di apprendimento sono uno strumento utile nell’ambito dell’apprendimento
automatico per valutare le prestazioni di un modello in base alla dimensione del set di addestramento. Queste curve mostrano come le metriche di performance (come l’accuratezza o l’errore) del modello variano al variare della quantità di dati di addestramento disponibili. Le curve di apprendimento sono un modo per comprendere come il modello si comporta con set di dati di diverse dimensioni e per identificare se ci sono benefici nell’aumentare o diminuire la quantità di dati di addestramento.

Ecco come funzionano le curve di apprendimento:

Creazione dei sottoinsiemi di dati: Per creare una curva di apprendimento, è necessario disporre di un set di dati iniziale. Questo set di dati viene suddiviso in sottoinsiemi di dimensioni diverse. Ad esempio, si potrebbe iniziare ad addestrare il modello su un piccolo campione dei dati, quindi su un campione più grande, e così via.

Addestramento e Valutazione: Per ciascuna dimensione del set di addestramento, il modello viene addestrato con i dati disponibili e poi valutato utilizzando una metrica di performance, come l'accuratezza per problemi di classificazione o l'errore quadratico medio per problemi di regressione. Queste valutazioni vengono registrate.

Costruzione delle curve: Le valutazioni vengono quindi utilizzate per costruire le curve di apprendimento. In un grafico, l'asse x rappresenta la dimensione del set di addestramento (ad esempio, il numero di campioni di addestramento), mentre l'asse y rappresenta la metrica di performance. Di solito, si creano due curve: una per il set di addestramento e una per il set di test.

Analisi delle curve: Le curve di apprendimento consentono di trarre diverse conclusioni:
    Se la curva di addestramento mostra che le prestazioni migliorano all'aumentare del set di addestramento, significa che il modello trae beneficio da più dati e potrebbe soffrire di sovradimensionamento con set di dati più piccoli.
    Se la curva di addestramento raggiunge una platea o le prestazioni peggiorano all'aumentare del set di addestramento, il modello potrebbe soffrire di sottodimensionamento o eccessiva complessità.
    La curva del set di test è particolarmente importante per la valutazione del modello. Se c'è un divario significativo tra la curva di addestramento e quella del set di test, il modello potrebbe soffrire di sovradimensionamento.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cos’è la Loss Function?

A

Una funzione di perdita (loss function) è un componente fondamentale nell’addestramento dei modelli di machine learning, inclusi modelli di regressione e classificazione. La sua funzione principale è misurare quanto il modello di machine learning predice in modo accurato rispetto ai dati di addestramento o rispetto all’obiettivo specifico della previsione, che può essere una variabile continua (nel caso della regressione) o una classe di appartenenza (nel caso della classificazione).

Ecco come funziona una funzione di perdita:

Calcolo dell'errore: Durante l'addestramento di un modello, vengono fatte previsioni sui dati di addestramento. L'errore è la discrepanza tra le previsioni del modello e i valori reali dei dati di addestramento.

Misurazione dell'errore: La funzione di perdita assegna un valore numerico all'errore, che riflette quanto il modello si è "sbagliato" rispetto ai dati di addestramento. Questo valore numerico è noto come "perdita" o "loss" e rappresenta una misura dell'errore del modello.

Ottimizzazione: L'obiettivo dell'addestramento del modello è minimizzare la funzione di perdita. Questo significa trovare i parametri del modello che riducono al minimo l'errore calcolato dalla funzione di perdita. In altre parole, l'obiettivo è trovare i parametri del modello che rendono le previsioni il più vicine possibile ai dati di addestramento o all'obiettivo di previsione.

Il tipo di funzione di perdita utilizzato dipende dal tipo di problema che si sta affrontando. Ecco alcuni esempi comuni:

Perdita quadratica (Mean Squared Error - MSE): Utilizzata in problemi di regressione, calcola l'errore quadratico medio tra le previsioni e i valori reali.

Perdita logaritmica (Log Loss o Cross-Entropy): Spesso utilizzata in problemi di classificazione binaria o multiclasse, misura la discrepanza tra le probabilità previste e le etichette reali.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cos’è la Loss Empirica?

A

La loss empirica, spesso chiamata semplicemente “loss” o “errore empirico”, è una misura dell’errore di un modello di machine learning sui dati di addestramento stessi. Questa misura valuta quanto bene il modello si adatta ai dati di addestramento. La loss empirica è una parte importante nell’ottimizzazione dei modelli durante il processo di addestramento.

La loss empirica è calcolata sommando i valori delle funzioni di perdita per ciascuna istanza o esempio del set di dati di addestramento e quindi dividendola per il numero totale di esempi di addestramento. In altre parole, rappresenta l’errore medio sul set di addestramento. Per un problema di regressione, la loss empirica potrebbe essere calcolata come la media dei quadrati delle differenze tra le previsioni del modello e i valori reali dei dati di addestramento. Per un problema di classificazione, la loss empirica potrebbe essere basata su metriche come la cross-entropy o l’errore percentuale.

L’obiettivo nell’addestramento di un modello di machine learning è di ridurre la loss empirica il più possibile. Tuttavia, è importante notare che minimizzare la loss empirica non è l’unico obiettivo. Il modello dovrebbe anche essere in grado di generalizzare bene su nuovi dati, cioè fare previsioni accurate su dati non visti. Pertanto, il processo di addestramento deve trovare un equilibrio tra la riduzione della loss empirica e la prevenzione del sovradimensionamento (overfitting), che potrebbe verificarsi se il modello si adatta eccessivamente ai dati di addestramento.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Cos’è la regolarizzazione?

A

La regolarizzazione è una tecnica utilizzata nell’ambito dell’apprendimento automatico e del machine learning per prevenire il sovradimensionamento (overfitting) dei modelli, migliorando così la capacità di generalizzazione di tali modelli. L’obiettivo principale della regolarizzazione è impedire che il modello si adatti troppo ai dati di addestramento e catturi il rumore nei dati, riducendo così la sua capacità di fare previsioni accurate su nuovi dati non visti.

La regolarizzazione è realizzata aggiungendo un termine di regolarizzazione alla funzione di costo o alla funzione di perdita utilizzata nell’addestramento del modello. Questo termine di regolarizzazione introduce un costo addizionale per i parametri del modello che sono troppo complessi o assumono valori estremi. Ci sono due tipi comuni di regolarizzazione utilizzati:

L1 Regolarizzazione (Lasso):
    La L1 regolarizzazione aggiunge un termine di regolarizzazione alla funzione di costo che è proporzionale alla somma dei valori assoluti dei parametri del modello.
    Questa forma di regolarizzazione favorisce la "sparsità" del modello, cioè promuove la selezione di un sottoinsieme di caratteristiche più rilevanti, impostando altri coefficienti a zero.
    La L1 regolarizzazione è utile per la selezione delle caratteristiche e la semplificazione del modello.

L2 Regolarizzazione (Ridge):
    La L2 regolarizzazione aggiunge un termine di regolarizzazione alla funzione di costo che è proporzionale alla somma dei quadrati dei parametri del modello.
    Questa forma di regolarizzazione penalizza i parametri con valori elevati, incoraggiando i parametri a essere distribuiti in modo uniforme.
    La L2 regolarizzazione è utile per evitare valori eccessivamente grandi dei parametri e può migliorare la stabilità del modello.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Cos’è la regressione lineare univariata?

A

La regressione lineare univariata è un tipo di modello di regressione che viene utilizzato quando si desidera stabilire una relazione lineare tra una variabile dipendente (o target) e una sola variabile indipendente (o feature). In altre parole, si tratta di modellare la relazione tra due variabili, una delle quali è prevista come una funzione lineare dell’altra.

Ecco come funziona la regressione lineare univariata:

Variabile dipendente (Y): Questa è la variabile che stiamo cercando di prevedere o spiegare. È chiamata anche "variabile target" o "variabile di risposta".

Variabile indipendente (X): Questa è la variabile che utilizziamo per prevedere la variabile dipendente. È chiamata anche "feature" o "predictor".

Relazione lineare: Si presume che esista una relazione lineare tra la variabile dipendente (Y) e la variabile indipendente (X). In altre parole, si suppone che i valori di Y siano una combinazione lineare dei valori di X, con l'aggiunta di un termine di errore. La relazione può essere rappresentata come:

makefile

Y = β0 + β1 * X + ε

Y è la variabile dipendente.
X è la variabile indipendente.
β0 è l'intercetta (il valore di Y quando X è zero).
β1 è il coefficiente di regressione, che rappresenta la pendenza della linea.
ε è il termine di errore, che rappresenta la variazione non spiegata da X.

Addestramento del modello: L’obiettivo della regressione lineare univariata è determinare i valori ottimali dei coefficienti β0 e β1 in modo che il modello migliori possibile si adatti ai dati di addestramento. Questo processo implica la minimizzazione di una funzione di costo, che misura la discrepanza tra le previsioni del modello e i valori reali di Y.

Predizione: Una volta addestrato il modello, è possibile utilizzarlo per fare previsioni su nuovi dati. Inserendo il valore di X nel modello, è possibile calcolare il valore previsto di Y.

Il risultato della regressione lineare può essere utilizzato per la classificazione attraverso un confine di decisione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cos’è il Gradient Descent?

A

Il “gradient descent” (in italiano, “discesa del gradiente”) è un algoritmo di ottimizzazione ampiamente utilizzato nell’ambito del machine learning e dell’ottimizzazione numerica. L’obiettivo principale del gradient descent è minimizzare una funzione obiettivo, anche chiamata “funzione di costo” o “funzione di perdita”, modificando iterativamente i parametri del modello. Questa tecnica è fondamentale per l’addestramento dei modelli di machine learning, inclusi i modelli di regressione e classificazione.

Ecco come funziona il gradient descent:

Inizializzazione dei parametri: L'algoritmo inizia con una scelta iniziale dei parametri del modello. Questi parametri rappresentano le variabili che influenzano la funzione obiettivo che stiamo cercando di minimizzare.

Calcolo del gradiente: Il gradiente della funzione obiettivo viene calcolato rispetto ai parametri del modello. Il gradiente è un vettore che indica la direzione e la pendenza più ripida della funzione obiettivo in un punto specifico.

Aggiornamento dei parametri: Gli attuali parametri del modello vengono aggiornati muovendosi nella direzione opposta al gradiente, con un passo specifico chiamato "tasso di apprendimento" (learning rate). Questo passo determina la dimensione dei passi che l'algoritmo compie durante l'ottimizzazione.

Ripetizione del processo: I passi 2 e 3 vengono ripetuti iterativamente fino a quando la funzione obiettivo raggiunge un minimo locale o il processo di ottimizzazione viene interrotto dopo un certo numero di iterazioni (epoche).

L’obiettivo del gradient descent è trovare i parametri del modello che minimizzano la funzione obiettivo. L’algoritmo è efficace nella ricerca di minimi locali o globali, ma la sua efficacia può dipendere dalla scelta del tasso di apprendimento e dalla qualità dell’inizializzazione dei parametri.

Esistono variazioni del gradient descent, tra cui il “gradient descent stocastico” (SGD) e il “mini-batch gradient descent”, che prevedono l’uso di sottoinsiemi casuali dei dati di addestramento per calcolare il gradiente in modo più efficiente e scalabile, soprattutto quando si lavora con grandi set di dati.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Cos’è la regressione lineare multivariata? e qual è quel valore che minimizza la perdita?

A

La regressione lineare multivariata è un’estensione della regressione lineare univariata in cui si considerano più di una variabile indipendente (o feature) per prevedere una variabile dipendente (o target). Questa tecnica permette di modellare le relazioni complesse tra più variabili indipendenti e una variabile dipendente utilizzando una funzione lineare.

La forma generale di una regressione lineare multivariata è espressa come:

Y=β0+β1X1+β2X2+…+βpXp+ε
Dove:

Y è la variabile dipendente o target.
X1,X2,...,Xp sono le variabili indipendenti o feature.
β0 è l'intercetta o termine di bias.
β1,β2,...,βp sono i coefficienti di regressione associati alle variabili indipendenti.
εε è il termine di errore, che rappresenta la variazione non spiegata da X1,X2,...,Xp

L’obiettivo della regressione lineare multivariata è trovare i valori ottimali dei coefficienti β0,β1,β2,…,βp in modo da minimizzare la funzione di costo o perdita. La funzione di costo è tipicamente la somma dei quadrati degli errori, ma possono essere utilizzate altre funzioni di costo, a seconda del tipo di problema di regressione.

Per trovare i valori ottimali dei coefficienti che minimizzano la perdita, vengono utilizzati metodi di ottimizzazione, come il gradient descent o approcci analitici come l’equazione normale. L’equazione normale è un metodo chiuso per calcolare i coefficienti ottimali e può essere utilizzata quando il numero di osservazioni è relativamente piccolo rispetto al numero di variabili indipendenti.

L’equazione normale per la regressione lineare multivariata è espressa come:

β=(X^T * X)^−1 * X^T * Y

Dove:

β è un vettore contenente i coefficienti di regressione ottimali.
X è una matrice dei dati di addestramento, dove ogni riga rappresenta un'osservazione e ogni colonna rappresenta una variabile indipendente.
Y è un vettore contenente i valori della variabile dipendente.

La soluzione dell’equazione normale calcola i coefficienti β che minimizzano la perdita. Questo è il metodo esatto per calcolare i coefficienti ottimali. Tuttavia, può diventare computazionalmente oneroso quando il numero di variabili indipendenti è grande.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly