Multivariata Flashcards
Cos’è l’analisi multivariata?
Si tratta di un’analisi in cui le variabili complessivamente considerate sono più di due.
n° variabili ≥ 3
Qual è il senso dell’analisi multivariata?
Il senso di questa analisi è quella di estrapolare evidenze non immediate. All’aumentare delle variabili analizzate tendenzialmente l’output generato è più ricco, più informativo.
Quali sono gli ambiti applicativi della multivariata?
- ANALISI DELLA DIPENDENZA: regressione lineare o logistica
- ANALISI DELLA INTERDIPENDENZA o ANALISI DI CLASSIFICAZIONE, cluster
In cosa consiste l’analisi della dipendenza?
individuo una variabile target Y e vedo se tale variabile dipendente può esser spiegata da un insieme di informazioni + un errore statistico;
l’analisi di dipendenza viene affrontata tramite l’uso dei modelli statistici aventi l’obiettivo di spiegare un fenomeno in funzione di un patrimonio informativo a meno dell’errore statistico (io non ho tutta l’informazione possibile per spiegare un fenomeno).
Se lineare avrò un modello lineare (se no avrò la regressione logistica)
Cosa si intende per problema della multicollinearità?
Il problema principale che si prospetta nel momento in cui il numero di informazioni (variabili) che abbiamo
a disposizione è maggiore di due (più ne abbiamo e meglio è) è quello della multicollinearità. Tale
problema se non risolto, può portare ad avere modelli statisticamente inconsistenti, poco robusti e quindi
non adeguatamente utilizzabili per generalizzare. La multicollinearità sussiste perchè se si usano molte
informazioni, alcune di esse rischiano di esser tra loro correlate, quindi in realtà il numero di informazioni
che apparentemente ho definito esser k in realtà non è di quell’importo.
Cosa si usa per risolvere il problema della multicollinearità?
Questa criticità viene affrontata con una tecnica specifica che è l’analisi fattoriale, funzionale a risolvere il problema di più variabili tra loro correlate che non possono quindi esser usate tutte direttamente come input per i modelli (l’output dell’analisi fattoriale diviene l’input del nostro modello).
Quali sono gli step per risolvere la multicollinearità?
-Step 1: abbiamo k variabili da analizzare congiuntamente; l’estensione a k variabili in ambito economico porta ad incontrare problemi di multicollinearità cioè alcune di queste variabili possono esser tra loro collegate (e quindi non utilizzabili così come sono come input dei modelli);
bisogna così attraversare una fase intermedia della gestione della multicollinearità
- Step 2: La gestione della multicollinearità si fa con l’analisi fattoriale che darà come output nuove
variabili latenti che rappresenteranno l’input per l’esecuzione del modello.
Per cosa si usa l’analisi fattoriale?
L’analisi fattoriale si usa al fine di riassumere e ridurre le differenti variabili considerate in un numero
inferiore, cercando di perdere il minor numero d’informazioni possibili. Ricordando sempre che quando le variabili considerate sono numerose spesso risultano tra loro correlate.
Cosa sono i fattori latenti?
un set ridotto di variabili trasformate tramite l’analisi fattoriale
Cos’è l’analisi fattoriale?
L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni esistenti tra variabili
quantitative e produce un output non di business ma tecnico funzionale alla corretta costruzione di un
modello statistico.
Il metodo delle componenti principali
I fattori calcolati mediante il metodo delle Componenti Principali sono combinazioni lineari delle variabili originarie.
Il metodo delle componenti principali stima i factor loadings
Cosa sono i factor loading?
sono coefficienti di correlazione tra le variabili osservate e i fattori comuni latenti.
- Qual è una delle proprietà dei fattori delle componenti principali?
I fattori sono tra loro ortogonali (non correlati); il metodo garantisce che le componenti non siano correlate, eliminando così il problema della multicollinearità.
- Qual è una delle proprietà dei fattori delle componenti principali?
Complessivamente spiegano la variabilità delle p variabili originarie; Il numero massimo di
componenti principali è pari al numero delle variabili originarie (p).
E’ il tema della “lunghezza del riassunto”, il numero massimo di variabili latenti che posso costruire
è uguale al numero massimo di variabili di input (se 13 sono quelle originarie, al massimo potrò
avere 13 nuove variabili latenti). Con 13 nuove variabili latenti, cioè semplicemente con una trasformazione, non perdo informazione: creo 13 nuove variabili che non perdano nessun tipo di informazione
- Qual è una delle proprietà dei fattori delle componenti principali?
Sono elencate in ordine decrescente rispetto alla variabilità spiegata; la prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, In altri termini le nuove variabili che costruiamo (che nel loro insieme spiegano tutto) non sono tutte uguali con la stessa importanza ma sono elencate in base alla loro capacità riassuntiva nel senso che la prima componente è quella che ha maggiori capacità di riassunto (le ultime, per costruzione, hanno quindi una capacità riassuntiva marginale)