Metodi Statistici Flashcards

1
Q

Il modello di regressione lineare

A

E’ un modello/regola statistica costruito e testato al fine di mettere in relazione due oggetti (variabili)

La regressione lineare è il modello più semplice da cui si parte; se questo non riesce a spiegare tutti i
regressori, si passa a un modello più complesso.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

A cosa servono i modelli di regressione?

A

Modelli di dipendenza per la rappresentazione di relazioni non simmetriche tra le variabili

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qual è il 1° obiettivo della regressione lineare?

A

Uso esplicativo: stimare l’influenza dei regressori sulla variabile target, il contributo e la direzione (+ o -)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qual è il 2° obiettivo della regressione lineare?

A

Uso predittivo: stimare il valore non osservato della variabile target in corrispondenza di valori osservati dei regressori.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qual è il 3° obiettivo della regressione lineare?

A

Uso comparativo: confrontare la capacità di più regressori, o di più set di regressori, di influenzare il
target (= confronto tra modelli di regressione lineare diversi).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Perchè è inserito un errore di default nel modello?

A

L’errore presente nel modello si ipotizza essere di natura casuale. Può essere determinato da:
- variabili non considerate
- problemi di misurazione
- modello inadeguato
- effetti puramente casuali

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

A cosa serve il metodo dei minimi quadrati?

A

Serve per la stima della retta di regressione e dei coefficienti.
Significa, nell’ambito bivariato, trovare la rappresentazione funzionale migliore per rappresentare adeguatamente la relazione tra i due fenomeni

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Cos’è lo stimatore LS?

A

Il metodo dei minimi quadrati produce uno stimatore LS aventi le seguenti caratteristiche:

  • è funzione di Y e X
  • ha media
  • ha varianza
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quali sono le proprietà dello stimatore LS?

A
  • non è distorto: mediamente la regola restituisce stime precise
  • è consistente (se valgono certe hp su X’X): la precisione aumenta all’aumentare dell’ampiezza
    campionaria
  • coincide con lo stimatore che otterrei con il metodo della massima verosimiglianza (sotto hp forti)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

A cosa serve il segno del coefficiente?

A

Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

A cosa serve il valore del coefficiente?

A

Il valore del coefficiente indica l’incremento marginale di Y e dipende dall’unità di misura; per valutare l’impatto relativo dei singoli regressori è necessario considerare i coefficienti standardizzati

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A cosa servono gli indicatori sintetici della bontà del modello?

A

Per fare una prima valutazione per capire se il modello stimato è adeguato per spiegare il nostro problema.
sono:
- Test F
- R quadro
- R quadro adjusted

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Cos’è il test F?

A

Il Test F è un test d’ipotesi; viene usato per valutare la significatività congiunta dei coefficienti.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Come si interpreta il Test F?

A

Se p-value è piccolo (rifiuto l’hp di coefficienti tutti nulli) il modello ha buona capacità esplicativa quindi:
- ipotesi nulla= I coefficienti angolari del piano di regressione sono tutti uguali tra loro e uguali a 0;
- ipotesi alternativa= nelle variabili esplicative ce ne è almeno una che ha un coefficiente statisticamente diverso da 0;
- statistica test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cos’è lo statistica test?

A

E’ un test di bontà generale perché l’obiettivo è verificare se l’ipotesi H0 la devo accettare o rifiutare;

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Come si interpreta lo statistica test?

A
  • Se il p-value è < 0,05, l’ipotesi H0 la rifiutiamo, quindi si accetta H1 (cioè almeno uno dei regressori è
    diverso da 0 quindi spiega…).
  • Se il p-value è > 0,05, l’ipotesi H0 non si può rifiutare, quindi l’insieme di variabili considerate come potenzialmente interessanti per spiegare il mio fenomeno non sono legate da un punto di vista lineare con l’oggetto dell’analisi.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Qual è il livello di soglia empirico per L’R2?

A

circa 0,2/0,3. Tale soglia ci indica quanto sarà esplicativo il modello

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Cos’è il teorema di scomposizione della varianza?

A

è il teorema sul quale si basa l’indice R2.
ed è dato da: SST = SSE + SSM
[Total sum of squares=error sum of squares+model sum of squares]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Total sum of squares (SST)

A

Riguarda la variabilità di Y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Error sum of squares (SSE)

A

Riguarda gli errori

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Model sum of squares (SSM)

A

Riguarda la variabilità spiegata

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

L’indice R2

A

Se rifiuto il test F, devo considerare l’R-quadro che è dato dal rapporto tra SSM e SST.
L’R-quadro misura la percentuale di variabilità di Y spiegata dal modello. In altre parole misura la variabilità delle osservazioni intorno alla ‘retta’ di regressione.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Come si interpreta l’indice R2?

A
  • R-quadro = 0 (SSM = 0) –>il modello non è esplicativo e c’è indipendenza lineare tra le variabili
  • R-quadro = 1 (SSM = SST) –>OK, il modello spiega perfettamente
  • R-quadro > 0,2/0,3  il modello ha capacità esplicativa
24
Q

L’indice R2 adjusted

A

Come R-quadro ma indipendente dal numero di regressori. combina adattabilità e parsimonia (è su esso
che dobbiamo concentrarci)
- Ha valori compresi tra 0 e 1
- Ok per valori >0.2 , 0.3

25
Q

Quali sono gli indicatori di bontà dei singoli regressori?

A
  • ## Test T
26
Q

Il test T

A

Serve per calcolare la significatività dei singoli coefficienti. Il coefficiente è significativo (significativamente diverso da 0) se il corrispondente p-value è piccolo (ossia, rifiuto l’ipotesi di coefficiente nullo) e in tal caso significa che il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno.
Il TEST T ci dice su quali variabili concentrarci (solo su quelle il cui p-value è < di 0,05)

27
Q

L’analisi della multicollinearità

A

La multicollinearità si presenta quando, data una matrice di dati in generale, le variabili (cioè i regressori)
non sono tra di loro indipendenti). C’è quindi una
forte correlazione tra i regressori (o alcuni di essi).
E questo rende difficile la stima del modello

28
Q

Rj2:

A

Indice per scovare la multicollinearità. misura la quota di varianza di Xj spiegata dai rimanenti p -1 regressori.
Se si hanno valori > 0.2/0.3 significa che c’è presenza di multicollinearità

29
Q

Variance Inflation index (VIFj):

A

Tale indicatore fa una regressione tra una variabile indipendente X1 e tutte le restanti variabili indipendenti.
Se si hanno valori > 1.2/1.3 significa che c’è presenza di multicollinearità

30
Q

Dopo aver diagnosticato una multicollinearità, qual è il metodo standard per risolverla?

A
  1. scelti i regressori (le variabili indipendenti) stimo il modello con tutti i regressori,
  2. valuto che il modello stia in piedi, facendo il TEST F e il TEST T
  3. calcolo il VIF e se uno o più delle variabili di input ha un VIF sopra le soglie prefissate mi fermo,
  4. diagnostico la multicollinearità,
  5. risolvo la multicollinearità operando un’analisi fattoriale su tutte le variabili di input
    (indipendentemente dal fatto che siano significative o meno)
31
Q

La selezione del numero dei regressori

A

Un altro approccio per operare una valutazione del modello di regressione lineare è quello della selezione
dei regressori.
Un modello può essere scritto in maniera diversa a seconda della sua finalità: ad esempio se la costruzione del modello ha una funzione predittiva meglio scegliere per la soluzione con più fattori; al contrario, se la finalità è esplicativa, è meglio protendere per la soluzione con meno fattori

32
Q

Quali sono le 3 diverse procedure di calcolo automatico che selezionano il sottoinsieme di variabili ottimo tra quelli possibili?

A
  • forward selection: inserisce nell’equazione una variabile per volta, basandosi sul contributo del
    regressore inserito alla spiegazione della variabilità di Y
  • backward selection: rimuove dall’equazione una variabile per volta, basandosi sulla perdita di capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore
  • stepwise selection (forward+backward selection): ogni variabile può entrare/uscire dal modello
33
Q

La regole della massima verosimiglianza a che serve?

A

Lo applico nel caso di regressione logistica, si basa sulla massimizzazione della probabilità di osservare l’insieme di dati campionari disponibili.
Mi dice quindi come mettere insieme le osservazioni del campionario per avere una stima dei coefficienti.
La regola della massima verosimiglianza è una buona regola quando il campione è numeroso.
tramite tale regole io trovo uno stimatore

34
Q

Quali sono le proprietà ottimale della quale gode la regole della massima verosimiglianza in presenza di campioni numericamente grandi?

A
  • asintoticamente corretti (le stime sono non distorte, si avvicinano al valore vero)
  • asintoticamente efficienti (gli standard error delle stime sono piccoli almeno come quelli di ogni altro metodo di stima)
  • asintoticamente normali (è possibile usare la distribuzione normale o chi quadro per calcolare gli
    intervalli di confidenza)
35
Q

Quali sono gli indicatori di bontà del modello nella regressione logistica?

A

-Percentuale di concordant
-Altre misure di associazione tra valori predetti e valori osservati–>Tanto più questi indicatori sono elevati (si avvicinano a 1), tanto più il modello è “corretto”.

36
Q

In cosa consistono I test per valutare la significatività congiunta dei coefficienti (“Testing Global Null Hypotesis: β = 0”)?

RL

A

Queste statistiche hanno distribuzione Chi-quadro con n gradi di libertà dove n corrisponde al numero di
coefficienti stimati delle variabili indipendenti. Se il p-value è piccolo (rifiuto H0), il modello ha buona
capacità esplicativa.

N.B. Equivalente al Test F della regressione lineare

37
Q

Qual è il Test per valutare la significatività dei singoli coefficienti nella regressione logistica?

A

Wald Chi-Square

38
Q

Wald Chi-Square

A

È il quadrato del rapporto tra stima e standard error.
Il coefficiente è significativamente diverso da zero se il corrispondente p-value è piccolo (ossia, rifiuto
l’ipotesi di coefficiente nullo)–>il regressore a cui il coefficiente è associato è rilevante per la spiegazione
del fenomeno

N.B. Equivalente al Test t della regressione lineare

39
Q

La regressione logistica

A

E’ uno strumento in grado di dare un’interpretazione probabilistica di quanto la risposta sia più orientata allo 0 o all’1.
Consente di prevedere una variabile discreta, che può essere intesa come l’appartenenza a un gruppo, a
partire da un insieme di variabili (continue, discrete, dicotomiche).

[Il modello di regressione lineare è inadeguato quando la variabile risposta è dicotomica, poiché in non
garantisce il rispetto del campo di variazione [0,1]

40
Q

Cos’è una variabile dicotomica?

A

Si tratta di una variabile nominale con due sole modalità. Esempio di variabile dicotomica è il “sesso”, che può assumere due soli valori: maschio e femmina.

41
Q

La regressione logistica 2

A

vuole modellare la relazione tra una variabile dipendente dicotomica (0-1) e un insieme di regressoriche si ritiene influenzino la variabile dipendente•la variabile dicotomica rappresenta presenza/assenza di un fenomeno (es. abbandono cliente, acquisto prodotto…)

42
Q

Cos’è la percentuale di Concordant?

A

Valuta la capacità del modello di stimare la probabilità che il fenomeno si verifichi (quanto più la percentuale è alta tanto migliore è il modello)

43
Q

Per quanto riguarda la formula della regressione lineare multipla: cosa rappresenta β0?

A

rappresenta l’intercetta del modello, ossia il valore del modello nel caso in cui tutte le variabili esplicative X valgono 0

44
Q

Formula di regressione lineare: cosa rappresenta βJ?

A

rappresenta il coefficiente di regressione, e misura quanto varia Y (variabile target) al variare unitario di X al netto delle altre K-1 variabili esplicative

45
Q

Per che tipo di variabili si usa la regressione lineare?

A

solo per variabili continue

46
Q

Per che tipo di variabili di usa la regressione logistica?

A

variabili dicotomiche

47
Q
  1. il modello logistico che proprietà ha?
A

Rispetta il vincolo che il valore stimato della probabilità
sia compreso nell’intervallo [0,1];

48
Q

A cosa serve la leverage H?

A

misura quanto un’osservazione è lontana dal
centro dei dati (ma tende a segnalare troppe oss influenti e tratta tutti i regressori nello stesso modo) oss influente se lev H>2*(p+1)/n

49
Q

A cosa serve la distanza di Cook?

A

misura la variazione simultanea dei coefficienti quando un’osservazione viene rimossa
( oss influente se D>1)

50
Q

Cosa fa la distanza di Cook?

A

è una funzione comunemente usata per stimare l’influenza di un singolo punto in un’analisi di regressione ai minimi quadrati.

51
Q
  1. Il modello logistico che proprietà ha?
A

La forma ad «esse» della funzione logistica garantisce un avvicinamento graduale ai valori estremi 0 e 1;

52
Q
  1. il modello logistico che proprietà ha?
A

La funzione logit è esprimibile come combinazione lineare delle variabili indipendenti X1,.., Xk:

53
Q

Cosa si intende per ODDS?

A

il rapporto tra il numero atteso di volte che un evento accada e il numero atteso di volte che un evento non accada

54
Q

Come si interpreta l’ODDS RATIO?

A

se>1= la % aumenta
se<1= la % diminuisce

ES: supponiamo di avere un odds ratio 1:11= significa che all’aumentare di 1 unità del mio regressore, la probabilità che il fenomeno si veririchi aumenta dell’11%

55
Q

Nel caso io avessi un regressore dicotomico. Come interpreto il modello logistico di conseguenza?

A

Il coefficiente esprime il cambiamento di logit in corrispondenza di un aumento unitario di X

56
Q

Nel caso io avessi un regressore continuo. Come interpreto il modello logistico di conseguenza?

A

Nel caso di variabili continue l’interpretazione del parametro è analoga al caso dicotomico.