Psicometria 2 B Flashcards
Spiegare i 4 tipi di relazione tra variabili e i loro obbiettivi di ricerca
- Co-occorrenza: se tra le due variabili c’è indipendenza semantica e simmetria (es. Variabili peso e altezza) DESCRIVERE
- Dipendenza: indipendenza semantica e asimmetria come priorità logica oppure temporale ma non piena separabilità tra VI e VD (es. valutazione scolastica e stile insegnante; stile genitoriale e temperamento bimbo) e se non c’è piena separabilità, il disegno non è sperimentale, ma quasi- o pre-sperimentale (cfr disegni longitudinali) DESCRIVERE E PREVEDERE
- Causalità: indipendenza semantica e asimmetria, ma anche piena separabilità (es., memoria prospettica e condizione sociale di condivisione vs. da solo in lab; ricerche sperimentali) e la ricerca è condotta secondo una metodologia di tipo sperimentale (randomizzazione/manipolazione) PRODURRE UN EFFETTO
- Indicazione: dipendenza semantica e asimmetria per livelli di generalità (una variabile comprende l’altra ma non viceversa), piuttosto che per livelli di temporalità o logica (es. stimoli di un test) ORGANIZZARE
Cos’è la correlazione semplice lineare? In che situazioni si usa?
La correlazione lineare semplice è una tecnica di analisi simmetrica: tratta le variabili come fossero simmetriche, vale a dire pone le due variabili sullo stesso piano di generalità o di priorità (no distinzione tra VI e VD). Serve a determinare la forza e la direzione della correlazione tra due variabili.
Es: Esiste un’associazione tra i livelli di insoddisfazione corporea e la frequenza con cui si mangia cibo fuori pasto. –> Potrei utilizzare anche una regressione semplice per indagare quest’affermazione, visto che entrambi i metodi mi permettono di quantificare la relazione tra due variabili. Ricordarsi solo che nella correlazione semplice non assegno a una delle variabili il ruolo di dipendente, mentre nella regressione semplice sì.
Elenca e spiega i possibili indicatori quantitativi della correlazione semplice lineare.
Codevianza: data dalla sommatoria del prodotto degli scarti tra x osservato e x medio, e y osservato e y medio. Indica la forza e l’intensità dell’associazione tra due variabili ma non è direttamente interpretabile perché risente della numerosità del campione e delle scale di misurazione.
Covarianza: è uguale alla codevianza, ma corregge la numerosità delle osservazioni. (dividendo la codevianza per N-1) Ma neppure la covarianza è direttamente interpretabile. Perché c’è ancora la scala di misurazione di x e y che influisce sul valore ottenuto.
r: corrisponde alla covarianza rapportata al prodotto delle deviazioni standard delle due variabili. Direttamente interpretabile, non risente dell’influenza di N o delle scale di misurazione, perché è un indicatore standardizzato di associazione, di intensità e di direzione della relazione tra due variabili.
Interpretazione di un coefficiente di correlazione:
1= correlazione positiva–> i valori si addensano lungo la retta di regressione lineare semplice (primo e terzo quadrante). Al crescere di una variabile, cresce anche l’altra.
0= non c’è correlazione
-1= correlazione negativa–> i valori si addensano nel secondo e nel quarto quadrante. Al crescere di una variabile, l’altra decresce.
Spiega la verifica della significatività statistica della correlazione semplice lineare
Per determinare la significatività di r metteremo a confronto t calcolato con t atteso (ovvero delle tabelle)
Se il valore t calcolato è maggiore di t atteso –> rifiuto H0 (dove H0: r=0)
t calcolato dipende dalla grandezza dell’effetto (ovvero r), dalla numerosità del campione (ovvero N) e dal coefficiente di alienazione (messo sotto radice) che sarebbe la quota di varianza che X e Y non condividono
Cos’è la regressione semplice lineare? in che situazioni si usa?
y=a+bxy*xi
permette di stimare e prevedere il cambiamento di una variabile continua al variare di un’altra variabile. Assegna necessariamente il ruolo di VD e VI alle variabili
ad es. prevede il peso a partire dall’altezza con un margine di errore–> che sarà tanto più ampio, quanto più bassa è l’intensità tra due variabili.
Questa previsione si ottiene tramite la retta di regressione, ottenuta attraverso il metodo dei minimi quadrati. La retta di regressione è la migliore interpolazione possibile della relazione che intercorre tra le due variabili, e viene stabilita in modo tale da far sì che la sommatoria degli scarti che intercorrono tra il punteggio osservato e il punteggio atteso (ovvero quello indicato dalla retta di regressione) sia il più piccolo possibile.
- Punteggio atteso (o previsto) = risultante della relazione che intercorre tra X e Y, ovvero parte del punteggio di Y che varia in funzione del suo legame con X
- Punteggio residuo/ scarto/ errore di previsione = Cioè l’errore che commetto andando a prevedere Y a partire da X. L’errore nella previsione rappresenta ciò che ancora non riesco a catturare di Y pur sapendo X. Dato dalla differenza tra il punteggio osservato e il punteggio atteso
Ricordare che la tecnica di analisi della regressione soffre di “strabismo”, ovvero è una tecnica non simmetrica di analisi dei dati. Quindi nella regressione lineare, l’equazione di previsione che otterrò non coinciderà con quella che otterrei se invertissi le variabili (ponendo X come VD e Y come VI).
Parla dell’equazione di previsione della regressione semplice lineare e le sue componenti. (+ beta)
La retta di regressione è descritta da una semplice equazione (y=a+bxy*xi) che mette in relazione, per ogni caso i, i valori predetti della variabile dipendente con i valori osservati della variabile indipendente.
Il coefficiente costante a (intercetta o costante) indica il valore atteso della variabile dipendente quando la variabile indipendente è uguale a zero
Il coefficiente b di regressione quantifica l’effetto della variabile indipendente su quella dipendente. Quando il coefficiente b è diverso da zero, diremo che vi è una relazione tra le due variabili. Indica quanto cambia in media il valore della VD, aumentando il punteggio della VI di una unità.
b non è direttamente interpretabile perché risente di N e delle scale di misurazione.
b è uguale alla covarianza (sxy) diviso la varianza di x.
Il coefficiente b corrisponde al coefficiente di correlazione r moltiplicato per il rapporto tra la deviazione standard di Y e X. Quindi nel caso utilizzassimo un coefficiente b standardizzato (beta standardizzato), dove la deviazione standard è uguale a uno, sappiamo che b (beta standardizzato) equivale al coefficiente di correlazione r.
Beta: il confronto tra coefficienti calcolati usando variabili indipendenti diverse risulta difficile, essendo esse generalmente misurate su scale diverse.
In tutti i casi in cui il coefficiente di regressione non è di facile interpretazione, è possibile considerare la sua versione standardizzata. Il coefficiente di regressione b standardizzato, è il coefficiente che otteniamo se facciamo una regressione dopo aver standardizzato le variabili (cioè dopo aver calcolato i punteggi z).
Spiega la verifica della significatività statistica della regressione semplice lineare (coeff a e b)
Per verificare la significatività di a e b osservati, si testano le ipotesi nulle (H0: a=0 e b=0)
Per verificare le ipotesi nulle utilizziamo il t di student. Calcoliamo il valore t tramite la formula
t per a= a/errore standard di a
t per b= b/errore standard di b
e lo confrontiamo con il valore t in tabella. Se il valore t calcolato è maggiore di t atteso –> rifiuto H0
L’errore standard di uno stimatore ci indica quanto impreciso è suddetto stimatore, e ci permette di definire intorno allo stimatore osservato un intervallo di confidenza. Più è grande N, più è piccolo l’errore standard.
Spiega cos’è il coefficiente di determinazione semplice
Coeff di determinazione (R elevato al quadrato):
Nel caso di assunzione di simmetria tra le variabili–>esprime la quota di varianza che due variabili condividono.
Nel caso di assunzione di asimmetria tra le variabili–> rappresenta la quota di varianza che la VI spiega della VD.
inoltre il coeff di determinazione rappresenta un indice quantitativo di riduzione proporzionale dell’errore di stima (RPE), ovvero quantifica quanto ho guadagnato utilizzando le informazioni date dalla VI per prevedere VD, piuttosto che utilizzare la media della VD come stimatore.
Esistono 3 modi per calcolare R2:
- Elevare al quadrato r, ovvero il coefficiente di correlazione semplice.
- Rapportare le devianze: ovvero devianza residua dovuta alla regressione (graffa gialla) diviso la devianza totale (graffa verde)
- Rapportare le varianze: ovvero varianza dovuta alla regressione diviso la varianza totale
Spiega la verifica della significatività statistica del coefficiente di determinazione (sia multiplo che semplice).
L’indice R2 può essere testato contro l’ipotesi nulla che esso sia zero mediante il test F
F calcolato è uguale alla devianza dovuta alla regressione diviso–> devianza residua
I gdl che vengono considerati per calcolare la statistica F sono dati:
• per la devianza legata alla regressione–> dal numero k di stimatori (che per R2 nella regressione semplice è sempre 1 perché c’è una sola VI, quindi nemmeno si considera)
• per la devianza residua–> da N-k-1
Dove k è il numero di VI nella regressione multipla.
F calcolato dipende da N, dall’intensità della relazione tra le due variabili e da k stimatori.
- Maggiore N–> maggiore F
- maggiore devianza dovuta alla regressione–> maggiore F
- maggiore k–> più piccolo il valore F
Se F aumenta, aumenta la significatività statistica, e diminuisce il valore p (anche detto p value)–> se valore p è minore a 0.05 (valore prefissato, ovvero p critico) rifiutiamo l’ipotesi nulla che R2 sia uguale a zero
Come si calcola l’intervallo di confidenza del coeff b nella regressione semplice?
SEb * tcritic +/- coeff b
L’errore standard di b (SEb) varia in funzione
• della quota di varianza che le due variabili non condividono (coefficiente di alienazione),
• di N
• della deviazione standard di X e Y–> è importante che a parità di variabilità della VD corrisponda anche una variabilità il più ampia possibile della VI, perché la variabile X è in grado di prevedere la variabile Y dipendentemente da quanto la variabile X varia.
Es: se non abbiamo variabilità X genere (es. tutte ragazze) non potremmo prevedere se il genere può prevedere l’andamento di Y.
N.B. Ci aspettiamo che nell’intervallo di confidenza ricada lo zero quando non c’è significatività.
Illustra due casi che dimostrano come l’ANOVA e la regressione semplice lineare mi diano sostanzialmente le stesse informazioni: un caso con variabile indipendente a 2 livelli, e un caso con più di 2 livelli.
il modello lineare generale (che incorpora un certo numero di modelli statistici diversi: ANOVA, regressione lineare semplice e altri) mi informa delle differenza tra le medie di due gruppi e se questa differenza è significativa.
ANOVA e regressione lineare semplice mi restituiscono essenzialmente la stessa informazione.
Nella regressione semplice
-Caso di una VI a 2 livelli:
Dobbiamo codificare la VI dicotomica come «dummy», vale a dire assegnando 0 ad un gruppo, detto di riferimento, e 1 all’altro (es: maschi=0, femmine=1).
Se il coeff a è il valore atteso di Y per X=0, allora sarà uguale alla media dei punteggi del gruppo 0 (maschi)
Se il coeff b indica quanto cambia in media il valore della VD, aumentando il punteggio della VI di un’unità, allora indicherà la differenza tra le medie dei gruppi 0 e 1
-Caso di una VI a + di 2 livelli:
Dobbiamo codificare tanti dummy quanto sono i livelli, meno 1.
Ogni Dummy assegnerà un valore di 0 o di 1 al singolo livello della variabile, tenendo a mente che in ogni Dummy deve esserci un solo 1 (tutti gli altri sono 0)
Quindi:
Livello1: 1 (sulla Dummy 1) / 0 (sulla Dummy 2)
Livello2: 0 / 1
Livello3: 0/0
Quindi i coeff saranno:
a = media del gruppo 00
b di Dummy1= differenza nelle medie tra gruppo 00 e gruppo codificato 10 (il livello1)
b di Dummy2= differenza nelle medie tra gruppo 00 e
gruppo codificato 01 (il livello 2)
Quando lavoriamo con variabili categoriali a più di due livelli è consigliabile usare l’ANOVA piuttosto che la regressione semplice, perché la regressione semplice ci informa solo delle differenze tra i livelli medi tra il gruppo di riferimento (ovvero il gruppo a cui ho assegnato 0 su tutte le Dummy) e gli altri gruppi, mentre l’ANOVA ci informa delle differenze tra tutti i gruppi.
Cos’è la regressione multipla? In che situazioni si usa? Cosa si intende con parzializzazione?
La regressione multipla si usa:
• per spiegare e prevedere una variabile
• per stratificare (considerare se l’intensità e la direzione della relazione tra VI e VD possa variare in funzione dei livelli di una terza variabile), controllare e depurare una relazione tra 2 variabili
L’equazione di previsione è data da:
a= coefficiente costante–> valore atteso di Y se X1 e X2 sono 0
coeff b di regressione parziale associato a X1= rappresenta la relazione tra Y e X1 ripulita di X2
coeff b di regressione parziale associato a X2= rappresenta la relazione tra Y e X2 ripulita di X1
parzializzare:
Attraverso la parzializzazione, l’impatto di X su Y (ossia la relazione osservata tra Y e X) viene scomposta in relazione diretta e relazione indiretta e viene depurata dalla sua componente indiretta
Quello che controlliamo è la relazione che intercorre tra gli stimatori (depuro X da Z o Z da X), non la relazione che c’è tra gli stimatori e Y.
Elenca e spiega i vari coefficienti di associazione parziale
I coefficienti di associazione parziale sono 4 indicatori quantitativi dell’intensità e direzione della relazione che VD e VI condividono in modo unico.
- Coeff di regressione parziale b: Mi dice come varia Y al variare di una unità di X, mantenendo le scale di misurazione originali che abbiamo utilizzato per i nostri dati. Rappresenta il peso o impatto unico di ciascuna VI nell’equazione di previsione di Y
- Coeff di regressione parziale standardizzato beta: Esprime la stessa informazione di b, ma avendo punteggi Z, avendo trasformato i punteggi delle nostre scale e diventando così interpretabile, ma non in termini di varianza. Tanto più e alto beta tanto più è importante il legame unico tra Y e quello stimatore, confronto che non può essere fatto con coefficiente non standardizzati. Il coefficiente di regressione parziale standardizzato esprime l’intensità del legame in termini di deviazioni standard: All’aumentare di un’unità beta di deviazioni standard della variabile X1 varierà il valore atteso di y tenendo costanti le altre variabili.
- Coeff di correlazione semi-parziale: Rappresenta la quota di variabilità (sr2 = quota di varianza) che una VI, parzializzata dalle altre VI, spiega della varianza totale di Y. Anche questo coefficiente, come beta, è standardizzato. È la correlazione fra due variabili, ma solo ad una delle due è stato tolto il contributo di una terza. Nel diagramma di Venn sarebbe C+A dove A viene misurato solo 1 volta
- Coeff di correlazione parziale: Rappresenta la quota di variabilità (pr2 = quota di varianza) che una VI, parzializzata dalle altre VI, spiega della varianza di Y, a sua volta ripulita delle altre VI. È la correlazione di due variabili a cui viene “tolta” l’influenza di una terza variabile. Nel diagramma di Venn sarebbe A
Cosa indica il coeff di determinazione multiplo e cosa vuol dire che è gerarchicamente determinato?
- Quantifica la capacità aggregata delle VI di predire i punteggi della VD.
- R2 come rapporto tra varianza spiegata dalla regressione (dall’insieme di stimatori) e varianza totale.
- Il coefficiente di correlazione elevato al quadrato R2 rappresenta un indice quantitativo di RPE o riduzione proporzionale dell’errore di stima
Il coeff di determinazione multiplo è dato dalla sommatoria dei coeff di associazione che rileviamo passo dopo passo, inserendo ad ogni step di un modello di scomposizione gerarchico un unico stimatore in più.
Ad es: nel caso di 3 stimatori–>
Step 1= del coefficiente di determinazione, cioè del quadrato della correlazione che lega Y a X1.
Step 2= inseriamo X2, il coeff di determinazione aumenterà. Di quanto? Del quadrato della correlazione semiparziale che lega Y a X2.
Step 3= inseriamo X3, il coeff di determinazione aumenterà. Di quanto? Del quadrato della correlazione semiparziale che lega Y a X3 nel terzo modello.
Il coeff di determinazione corrisponderà alla somma di:
R2 tra Y e X1 + correlazione semiparziale al quadrato tra Y e X2 + correlazione semiparziale al quadrato tra Y e X3 (ecc…)
Come si determina la significatività statistica dei coefficienti di correlazione parziale (b e beta)?
ipotesi nulla: b (o beta)=0
testato attraverso il test t (con gl N-k-1)
Dove t dipende da:
• Numerosità del campione (N)
• numero k stimatori
• La grandezza dell’effetto
• Correlazione semiparziale (srxi) che lega la variabile Xiesmo alla variabile Y
Statistica t sarà tanto più piccola tanto più:
-ci troveremo a spiegare poca porzione di varianza unica
-aumenta k
-diminuisce N
Da cosa dipende l’errore standard di b (o beta)?
• la variabilità delle singole variabili (deviazione standard) per beta è ininfluente visto che le sd=1
• la numerosità del campione (N)
• il numero degli stimatori (k)
• La grandezza dell’effetto
• Multicollinearità–> indica quanto le VI sono correlate tra loro. Più questo valore è alto più quello che la variabile X1 spiega di Y potrebbe essere spiegata in larga parte anche da X2.
L’errore standard di b sarà tanto più alto quanto più è alto il livello di multicollinearità e quanto più piccolo è la grandezza dell’effetto (l’effetto unico che ogni X ha sul variare di Y).
Se SE di b è alto vuol dire che quello stimatore è impreciso, e avremo più possibilità che in un intervallo di confidenza di b ricada il valore di 0, ovvero che non sia significativo
Elenca le strategie analitiche che abbiamo visto per sfruttare l’analisi della regressione multipla
Regressione simultanea o standard (enter)
tutte le VI sono inserite contemporaneamente
per ogni VI si tiene sotto controllo la relazione con tutte le altre VI
Regressione gerarchica
1 o più VI vengono inserite secondo una successione predefinita in base a obiettivi specifici (decisa appositamente per testare la mia ipotesi nel modo più robusto). Ad es, inseriamo come primo step le variabili di tipo demografico per tenere sotto controllo sistematicamente l’impatto dell’età e del genere. Poi potrei inserire una delle VI che ho manipolato per vedere se le VI naturali sono significamente correlate a questa. E così via, inerisco le variabili in base a cosa voglio scoprire delle loro correlazioni.
Regressione statistica
Forward: 1 VI alla volta, incominciando da quella con correlazione semplice più alta con VD; poi di volta in volta le altre fino a quella meno correlata; una volta immessa una VI non viene più tolta
Backward: tutte le VI inserite simultaneamente e poi tolte man mano quella che spiegano minore quota di varianza di VD non significativa;
Stepwise: procede come forward, ma di volta in volta viene valutata ogni VI inserita nel modello che può essere tolta come in backward (usiamo una stepwise invece di una forward quando vogliamo trovare il modello statisticamente più robusto e snello che spiega la nostra VD, in questo modo però ci perdiamo l’interplay delle singole VI una con l’altra). È una procedura automatica che non è sempre considerata valida, appunto perché non prevede che ci sia un processo consapevole su come le varie VI interagiscono tra loro
Come capisco cosa è significativo in un output?
Bisogna confrontare il p-value (quello scritto in tabella) con il p critico (che convenzionalmente fisso a 0.05, se non specificato diversamente–> ovvero sono disposto a correre il rischio che il mio risultato sia dato dal caso con una percentuale di errore del 5%). Se il p-value della tabella è minore (non minore uguale) di 0.05 allora il risultato corrispondente è significativo (es: il p dell’intercetta è di 0.043, l’intercetta è significativa). Se invece il p è maggiore di 0.05 allora il risultato corrispondente non è significativo (es: p dello stress è di 0.29 significa che c’è una probabilità del 29% che il mio risultato sia dato dal caso, e visto che mi ero prefissato di accettare solo risultati con probabilità di errore inferiori al 5%, devo concludere che non sia un risultato significativo.)
La verifica e il rispetto di quali assunzioni assicura una stima valida, non distorta, del modello testato statisticamente? Assunzioni del modello lineare generale.
-assunzione sulla distribuzione delle variabili osservate o misurate= che siano idonee, che abbiano distribuzione normale
come?
• Lo vediamo tramite una rappresentazione grafica
• Calcoliamo asimmetria e curtosi
• Il test Shapiro-Wilk H0= la distribuzione è gaussiana se il risultato del test non risulta significativo, ovvero il livello p è superiore a p critico (es. 0.05) accetto H0
• Q-Q plot rappresentazione grafica che ci aiuta a vedere quanto è grande lo scostamento dalla distribuzione gaussiana. Aiuta a verificare se ci sono casi che si scostano in maniera importante dal resto della distribuzione (chiamati outlier, che possono riferirsi alla VD o alla VI, o a entrambe. Gli outlier sono responsabili di scostamenti importanti.)
-assunzioni sull’affidabilità delle misurazioni psicologiche:
Alfa di Cronbach, e formula per derminare la correlazione dei due costrutti corretta dell’errore casuale data dalla misurazione delle variabili
-la non-collinearità tra variabili indipendenti (vedi concetto di multicollinearità)
- assunzioni sugli errori o punteggi residui:
1. Gli errori devono essere indipendenti gli uni dagli altri
2. Dobbiamo trovare distribuzione omogenea degli errori intorno al valore atteso
3. Gli errori si devono distribuire in una gaussiana
-la forma della relazione tra le VI e VD
-Assunzioni sulla completezza o specificazione del modello:
inclusione VI irrilevanti e/o omissione VI rilevanti,
non linearità della relazione tra VI e VD (può essere una relazione quadratica, cubica ecc… ma noi non parliamo di queste eventualità in questo corso), non additività della relazione tra VD e VI (ad es: Y non dipende in maniera additiva da X1 e X2 ma dal rapporto delle VI tra loro, caso di cui non ci occupiamo in questo corso)
-i casi outlier: (esistono gli outlier multivariati, ovvero casi che sono estremi su più variabili, in opposizione con gli outlier univariati, estremi per un’unica variabile)
• influenzano tutti i risultati del modello (es. pesano sull’inclinazione del coeff. b)
• outlier possono essere sia per la VD / per la VI/ o per entrambe
RIMEDI
• In un set di dati molto ampio in realtà non pesano molto, ma se superano il 5% delle osservazioni è meglio eliminarli del tutto, cosa che ridurrà l’ampiezza del campione, quindi comunque non è una situazione auspicabile, ma a volte è una scelta obbligata
• Per poter comprendere l’impatto degli outlier, possiamo verificare i modelli con e senza outlier
• Per outlier mutivariati possiamo usare il test di Malhanobis che quantifica la distanza ponderata dal centroide per ogni caso. I casi critici si identificano se hanno un valore maggiore o uguale al Chi quadro critico corrispondente
a p ≤ .001 per GL = k
A cosa servono le tecniche di riduzione dei dati? Quando si utilizzano?
Obiettivo generale delle tecniche di riduzione dei dati è ridurre l’informazione contenuta in una matrice di correlazioni con n variabili in una nuova matrice con k < n nuove variabili, cioè che ha un numero di variabili ridotte. Ovvero è una tecnica che mi permette di “impacchettare” l’informazione contenuta in una matrice di correlazioni.
Si utilizzano quando:
- C’è elevata multicollinearità tra stimatori*
- Devo raggruppare indicatori in nuove variabili sovra-ordinate per riassumere l’informazione (relazione di indicazione)–> componenti principali (modello debole)
- Devo individuare fattori latenti per spiegare le intercorrelazioni tra variabili (relazione di dipendenza)–> fattori comuni (modello forte)
- Devo verificare la validità «strutturale» di uno strumento di assessment
*le tecniche di riduzione dei dati mi permettono di bypassare il problema della multicollinearità senza dover togliere nessuno stimatore. È come se analizzassi le diverse variabili compattate in una sola.
Cosa sono le componenti?
Una componente principale è una combinazione lineare di variabili: 𝐶𝑚 = 𝑏1𝑚𝑥1 + 𝑏2𝑚𝑥2 + 𝑏3𝑚𝑥3+. . . +𝑏𝑗𝑚𝑥j
Quindi la componente è una sommatoria tra i valori della variabile moltiplicati per il loro peso (ovvero il peso che hanno nel determinare il livello della componente)
-in cui bjm rappresenta il peso che ogni variabile xj ha nel determinare la componente stessa
In termini matematici, obiettivo dell’analisi delle componenti principali è riuscire a stimare la matrice delle componenti, definendo l’equazione caratteristica della matrice RV=λV
- in cui V è il vettore caratteristico o autovettore
- λ è l’autovalore
Risolvere questa equazione significa che il prodotto della matrice R di intercorrelazioni tra le variabili moltiplicata per la matrice V di vettori (uno o quanti ne abbiamo estratti) è uguale al prodotto che otteniamo moltiplicando la stessa matrice V di vettori per i rispettivi autovalori.
La componente si ottiene moltiplicando l’autovettore per l’autovalore sotto radice
Le componenti esprimono quote di covariazione tra le variabili, ma non è detto che la prima componente sia in grado di esprimere tutte le quote di covariazione tra le variabili presenti nella matrice di intercorrelazione. Quindi estraiamo più componenti.
Estratta la prima componente, si procede con l’estrazione della II componente dalla
MATRICE DEI RESIDUI, dalla matrice R parzializzata dalla componente già estratta (covarianze parziali)
↓
Per questo le componenti via via estratte sono ORTOGONALI tra loro
La seconda componente è completamente indipendente dalla prima, sono del tutto prive di correlazione visto che la seconda è stata ripulita dalla prima. Man mano che si estraggono componenti quello che queste rappresentano non è più la quota di varianza condivisa tra le variabili, ma la quota di varianza unica della singola variabile, fino ad arrivare a componenti uniche iper-specifiche che catturano solo la varianza della singola variabile (è possibile farlo, ma è inutile per quello che ci serve fare).
Quali sono le fasi delle tecniche di riduzione dei dati esplorative (analisi delle componenti principali, analisi dei fattori comuni)?
- Selezione delle variabili (quali vogliamo fattorializzare?), indicatori del costrutto
- Selezione del campione, ampio e rappresentativo della popolazione in cui si assume la qualità misurata sia presente con elevata variabilità
- Estrazione dei fattori (passaggi più sopra)
- Determinazione del numero di fattori (in teoria posso estrarre tante componenti quante sono le variabili, ma non ha molto senso farlo perché non sto riducendo niente)
- Rotazione dei fattori
- Interpretazione dei fattori
- Stima dei punteggi fattoriali
- Eventuale selezione delle variabili o indicatori di un costrutto
- Cross-validity
Cos’è un autovalore?
l’autovalore o radice caratteristica, si associa alla componente estratta ed esprime la quantità di varianza che la componente estratta spiega della matrice R
(se espresso in % si ottiene: (𝜆𝑖/𝑛) × 100) dove n è il numero di variabili
Corrisponde alla somma delle saturazioni al quadrato delle variabili della componente a cui si riferisce.
es in cui la prima componente spiega circa il 50% della varianza della matrice R:
Autovalore della prima componente= 2.687
variabili=5
2.687:5*100=53.74
vuol dire che l’altro 50% non è stata rappresentata dalla prima componente, serve l’estrazione di un’altra componente
Cos’è una saturazione fattoriale?
Saturazione fattoriale (non chiamarle correlazioni anche se si leggono come correlazioni)= esprime l’intensità della relazione tra variabile e componente; elevata al quadrato ne esprime la % di varianza condivisa
Saturazioni fattoriali positive e negative sulla stessa componente ci informano della direzione della dimensione.
Cos’è un autovettore?
il vettore caratteristico o autovettore della matrice corrisponde ad una sequenza di pesi applicabili alle variabili analizzate. L’autovettore moltiplicato l’autovalore (ovvero la radice caratteristica della matrice) dà la componente