Multivariata Flashcards

1
Q

Cos’è l’analisi multivariata?

A

Si tratta di un’analisi in cui le variabili complessivamente considerate sono più di due.
n° variabili ≥ 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Qual è il senso dell’analisi multivariata?

A

Il senso di questa analisi è quella di estrapolare evidenze non immediate. All’aumentare delle variabili analizzate tendenzialmente l’output generato è più ricco, più informativo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quali sono gli ambiti applicativi della multivariata?

A
  • ANALISI DELLA DIPENDENZA: regressione lineare o logistica

- ANALISI DELLA INTERDIPENDENZA o ANALISI DI CLASSIFICAZIONE, cluster

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

In cosa consiste l’analisi della dipendenza?

A

individuo una variabile target Y e vedo se tale variabile dipendente può esser spiegata da un insieme di informazioni + un errore statistico;
l’analisi di dipendenza viene affrontata tramite l’uso dei modelli statistici aventi l’obiettivo di spiegare un fenomeno in funzione di un patrimonio informativo a meno dell’errore statistico (io non ho tutta l’informazione possibile per spiegare un fenomeno).

Se lineare avrò un modello lineare (se no avrò la regressione logistica)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Cosa si intende per problema della multicollinearità?

A

Il problema principale che si prospetta nel momento in cui il numero di informazioni (variabili) che abbiamo
a disposizione è maggiore di due (più ne abbiamo e meglio è) è quello della multicollinearità. Tale
problema se non risolto, può portare ad avere modelli statisticamente inconsistenti, poco robusti e quindi
non adeguatamente utilizzabili per generalizzare. La multicollinearità sussiste perchè se si usano molte
informazioni, alcune di esse rischiano di esser tra loro correlate, quindi in realtà il numero di informazioni
che apparentemente ho definito esser k in realtà non è di quell’importo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cosa si usa per risolvere il problema della multicollinearità?

A

Questa criticità viene affrontata con una tecnica specifica che è l’analisi fattoriale, funzionale a risolvere il problema di più variabili tra loro correlate che non possono quindi esser usate tutte direttamente come input per i modelli (l’output dell’analisi fattoriale diviene l’input del nostro modello).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quali sono gli step per risolvere la multicollinearità?

A

-Step 1: abbiamo k variabili da analizzare congiuntamente; l’estensione a k variabili in ambito economico porta ad incontrare problemi di multicollinearità cioè alcune di queste variabili possono esser tra loro collegate (e quindi non utilizzabili così come sono come input dei modelli);
bisogna così attraversare una fase intermedia della gestione della multicollinearità
- Step 2: La gestione della multicollinearità si fa con l’analisi fattoriale che darà come output nuove
variabili latenti che rappresenteranno l’input per l’esecuzione del modello.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Per cosa si usa l’analisi fattoriale?

A

L’analisi fattoriale si usa al fine di riassumere e ridurre le differenti variabili considerate in un numero
inferiore, cercando di perdere il minor numero d’informazioni possibili. Ricordando sempre che quando le variabili considerate sono numerose spesso risultano tra loro correlate.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Cosa sono i fattori latenti?

A

un set ridotto di variabili trasformate tramite l’analisi fattoriale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Cos’è l’analisi fattoriale?

A

L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni esistenti tra variabili
quantitative e produce un output non di business ma tecnico funzionale alla corretta costruzione di un
modello statistico.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Il metodo delle componenti principali

A

I fattori calcolati mediante il metodo delle Componenti Principali sono combinazioni lineari delle variabili originarie.
Il metodo delle componenti principali stima i factor loadings

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Cosa sono i factor loading?

A

sono coefficienti di correlazione tra le variabili osservate e i fattori comuni latenti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q
  1. Qual è una delle proprietà dei fattori delle componenti principali?
A

I fattori sono tra loro ortogonali (non correlati); il metodo garantisce che le componenti non siano correlate, eliminando così il problema della multicollinearità.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
  1. Qual è una delle proprietà dei fattori delle componenti principali?
A

Complessivamente spiegano la variabilità delle p variabili originarie; Il numero massimo di
componenti principali è pari al numero delle variabili originarie (p).
E’ il tema della “lunghezza del riassunto”, il numero massimo di variabili latenti che posso costruire
è uguale al numero massimo di variabili di input (se 13 sono quelle originarie, al massimo potrò
avere 13 nuove variabili latenti). Con 13 nuove variabili latenti, cioè semplicemente con una trasformazione, non perdo informazione: creo 13 nuove variabili che non perdano nessun tipo di informazione

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q
  1. Qual è una delle proprietà dei fattori delle componenti principali?
A

Sono elencate in ordine decrescente rispetto alla variabilità spiegata; la prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, In altri termini le nuove variabili che costruiamo (che nel loro insieme spiegano tutto) non sono tutte uguali con la stessa importanza ma sono elencate in base alla loro capacità riassuntiva nel senso che la prima componente è quella che ha maggiori capacità di riassunto (le ultime, per costruzione, hanno quindi una capacità riassuntiva marginale)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quali sono i 2 problemi principali riguardanti l’analisi multivariata?

A
  1. quante componenti o fattori considerare

2. come interpretare i componenti

17
Q

Come funziona il metodo del rapporto tra il n di variabil e componenti (1/3)?

A

In tal caso si effettua il rapporto tra il numero delle componenti (output) e le variabili (input), ad es. da 20 variabili originali diventano 6, 7 fattori.

18
Q

Cosa si intende per percentuale (o quota) di varianza (o variabilità) spiegata?

A

Un buon riassunto è quello che concentra una variabilità tra il 60 e il 75%, in generale più alto è meglio è

19
Q

In cosa consiste la rotazione delle componenti principali?

A

Consiste nell’ordinare matematicamente una matrice dei componenti confusa al fine di poter interpretarli.

La percentuale della varianza complessiva dei fattori ruotati non cambia, mentre la percentuale della
varianza spiegata da ciascun fattore cambia.
[A tale proposito, vi sono vari metodi:
- Il metodo di rotazione Varimax, suggerito da Kaiser, ha lo scopo di minimizzare il numero di variabili con elevate saturazioni (correlazioni) per ogni fattore
- Il metodo Quartimax tenta di minimizzare il numero di fattori strettamente correlati a ciascuna variabile
- Il metodo Equamax è un incrocio tra il Varimax e Quartimax.

20
Q

Cosa si intende per il metodo degli autovalori>1?

A

In una tabella rappresentante i fattori, vanno presi in considerazioni solo gli autovalori superiori a 1

21
Q

Lo scree plot

A

È un diagramma rappresentante i valori. Va capito il momento in cui la linea spezzata tende ad appiattirsi e vanno lette situazioni puntuali, non intervalli.

22
Q

Le comunalità

A

rappresenano la quota di variabilità spiegata per ogni variabile di input.