L9 Non-lineariteter Flashcards
Hvad sker der, når du har negative værdier på din variabel i en non-lineær sammenhæng?
STATA koder dem som missing (ingen negative værdier for naturlige logaritmer).
Løsning er at lægge et stort tal til til din variabel, så alle værdier bliver positive.
Hvordan diagnosticeres non-lineariteter?
Teoretisk - er der belæg?
Empirisk - hvordan ser scatter eller acpr ud?
Hvad er forskellen på logaritmisk transformation og polynomisk regression?
Monotone sammenhænge (samme tendens):
Ved logaritmer transformeres variablene forinden regressionen, hvorfor de går fra absolutte forhold til relative (procent).
Fortsat lineær i koefficienterne!
log-lin (eksponentiel)
lin-log (potens)
log-log (elasticitet/fuld potens)
Ikke-monotone sammenhænge (forskellige tendenser):
Ved polynomisk regression tilføjer STATA selv et ekstra led (det kvadrede led).
c.var##c.var
På hvilke tre måder kan en logaritmisk transformation benyttes til at imødekomme non-linearitet?
Monotone non-lineære sammenhængen:
log-lin (eksponentiel)
- her transformeres y-variablen
- kan være eksponentielt aftagende/stigende
- ligesom corona pandemi
lin-log (potens)
- her transformeres x-variablen
- kan være positivt aftagende (nyttefunktioner) og negativt aftagende
log-log (elasticitet/fuld potens)
- her transformeres begge variable (det relative forhold mellem x og y)
- kan være negativ og positiv
- mange observationer ved origo + lange arme
Hvad er forskellen på monoton og non-monotone non-lineære sammenhængen?
Montone sammenhænge har samme tendens for alle værdier af x. Det er transformation med logaritmer, hvor arbejdet med non-linearitet så at sige ligger i variablene. Her er der altså fortsat linearitet i koefficienterne.
Non-montone sammenhænge tillader at tendensen kan skifte retning afhængig af værdien på x.
Hvad er polynomisk regression og hvordan kan den imødekomme ikke-linearitet?
Vi har et teoretisk belæg for at sammenhængen er ikke-lineær og ikke-monoton (kan også bruges til tiltagende negativ)
Vi forventer måske at tendensen/hældningen skifter retning ved et minimum/toppunkt.
Afhænger nu af to beta-koefficienter, hvor beta1 dominerer for lave værdier af x og beta2 dominerer for høje værdier af x - tillader nu at hældningen kan skrifte retning og imødekommer non-monotont tendens i data.
Hvad er en elastistisk model, altså log-log?
En fuld potens! Her transformeres både x og y, så begge koefficienter angiver relative forhold.
Data vil typisk samle sig omkring origo og så stikker lange arme ud (kan både være negativ og positiv).
Både x og y fortolkes relativt: når x+1% så stiger y beta1%
Hvad er mediationsanalyse?
Effekten af x på y går gennem M.
Teoretisk interessant - men meget kompliceret empirisk
Hvad sulan gør man lige med den substantielle fortolkning? :s
Det er fortsat vigtigt at prøve at fortolke substantielt på de ændringer, som regressionen angiver.
HUSK nogle af variable er transformerede!
Det særligt eksempel med lin-log, hvor IQA udregnes med log(IQA) og blot beta1 i stedet for beta1/100. Husk modellen er fortsat lineær i koefficienterne. Fortolkning kræver at man finde IQA i den oprindelige variabels værdier.
Hvorfor kan mediationsanalyse være svært at gøre ordentligt?
Den traditionelle tankegang med mediation er svær, da man skal overholde 10.000 antagelser fordi især fravær af selektion gælder for både M, X og for sammenhængen mellem M og X (sequential ignorability).
Hvad er definitionen af non-linearitet?
Effekten af x på y er ikke konstant på tværs af forskellige værdier på x.
Dermed afhænger effekten af x indirekte af hvor vi befinder os på x.
Data er tiltagende positiv - hvad gør du?
Eksponentiel funktion - jeg logger y og tolker således: når x stiger med 1 stiger y med beta1*100 procent
log-lin model
Hvor er det værst at have non-linearitet? X eller Z (kontrolvariable)?
Z!
Hvis vi har non-linearitet i x er det stadig en ok approksimation til en effekt.
Hvis z er non-lineær derimod så renser vi ikke x for den variation, som skyldes Z det giver problem ift. selektionsbias-antalgelsen (shit)
Data er aftagende positiv - hvad gør du?
Potens funktion. Jeg logger x og tolker således:
x+1%, så stiger y med beta1/100.
lin-log
Hvad er en eksponentiel sammenhæng og hvordan fortolkes hældningskoefficienten?
Tænk på corona. Enten kan vi have en eksponentielt tiltagende sammenhæng eller negativt aftagende sammenhæng.
log(yi) eller ln(y)
Y skal altså fortolkes relativt. Når x+1 stiger y med beta1*100%.
Giver det mening at tilføje et tredjegradsled i en polynomisk regression?
Det er sjældent relevant for x - vi har sjældent politologiske teorier, hvor x har skift i to retninger
Men det kan give mening at inkludere z som tredjegradsled og lade den variere
- Men prisen betales i multikollinearitet og frihedsgrader (aka højere standardfejl)
Hvilken type sammenhæng kan både estimeres med potens og eksponentielle sammenhænge?
Den negativt aftagende sammenhæng!
Hvordan fortolkes konstanten i en lin-log model?
x er transformeret og fordi log(1)=0, så kan konstanten tolkes som værdien af Y, når x er 1
Hvad sker der med akserne, når hhv. x og y (eller begge) transformeres?
Akserne bliver logaritme transformerede!
Hvad er en potenssammenhæng, og hvordan fortolkes hældningskoefficienten?
En potenssammenhæng kan både være en aftagende postiv effekt af x og en aftagende negativ effekt af x.
log(x)
Sammenhængen tolkes: når x stiger med 1% stiger y med beta1/100
Hvordan afgør du hvilken non-lineær model, som er bedst?
Først tester jeg self. om der er linearitet eller non-linearitet (scatter eller ACPR).
1) Hvad er min teoretiske forventning?
2) Hvilken transformation ser bedst ud i scatter/ACPR
3) Hvad siger modellens fit? (R2). Last resort.
Hvordan ser den polynomisk regression ud (grafisk), hvis beta1 og beta2 har forskellige fortegn?
B1 >0 og B2 <0 = “sur”/konkav
B1 < 0 og B2 >0 = “glad”/konveks
Hvad er kommandoen for at tjekke linearitet for kontrolvariable og uafhængige i MLR?
Postestimation:
acprplot var, lowess
Hvordan ser den polynomisk regression ud (grafisk), hvis beta1 og beta2 har samme fortegn?
B1 >0 og B2 >0 = tiltagende positiv
B1 <0 og B2 <0 = tiltagende negativ
Hvad er kommandoen for en polynomisk regression (kvadratisk)?
reg y c.xvar##c.xvar
Hvordan tolkes beta1 og beta2 over for hinanden i en kvadratisk model?
Når x er 0 er hældningen beta1. Beta2 ganges med x^2 og dominerer derfor mere og mere desto større x bliver.
B1 dominerer for lave værdier af x og B2 dominerer for høje.
Når det differentieret udtryk er lige nul er parablens toppunkt (hvis B1 og B2 har forskellige fortegn)
Beskriv den moderne tilgang til mediation
Accepter at den kausale proces er umulig og tænk den mediernede variabel ind i dit forskningsdesign (som ved Gerber og ikke som Stubager)
Hvad kan kvadratisk model og log begge to lave?
De kan begge regne den positivt tiltagende!