Data Flashcards
Hvorfor har I valgt at lave jeres eget datasæt? Kan det ikke øge den dårlige gennemsigtighed, som I
selv nævner?
Bedre forståelse for data, herunder grænsen mellem typer af sanktioner og fokusområde i forhold til afsenderlande, fx opstiller vi klare retningslinjer. Ved at være mere præcise om, hvordan vi opbygger vores datasæt, gør vi det mere gennemsigtigt.
Vi føler at der mangler klare retningslinjer i fx Peksen (2008), når han opbygger sit datasæt.
Hvorfor vælger i de datasæt, hvis andre papirer benytter andre datasæt?
2 årsager:
1) Formatet på datasættene passede godt sammen, fx landekoder.
2) Det er datasættene der går igen i flere andre studier
Hvorfor er vores datasæt ubalanceret? Hvad kan det medfører?
Datasættet er ubalanceret fordi der mangler nogle observationer for enkelte lande, særligt for BNP og fordi lande er opstået, splittet op og faldet fra hinanden. Det gør det svært at få dta i disse perioder.
1) Det kan medføre at estimaterne bliver bias fordi ræpresentativiteten bliver svækket.
2) Ved meget ubalanceret datasæt, vil fortolkningen blive svær.
En af de bedste estimationer du kan bruge er fixed effects estimation, fordi den fx fokuserer på ændringer over tid indenfor hvert enkelt land, så den er mindre følsom overfor manglende data i måske 3 ud 87 lande.
Hvad skal der til før datasættet bliver balanceret?
Vi kunne have udfyldt data fra andre datakilder, lavet vægtede gennemsnit i perioderne der mangler datapunkter, eller ling.
Hvad medfører det af problemer, når man har et ubalanceret datasæt
Det har ikke store komplikationer, udover at det reducerer antallet af observationer der indgår i FE modellen.
Hvorfor har vi valgt at benytte binære variable?
Fordi data bygger på ordinale variable, og når vi laver en lineær model antager vi altså linearitet mellem punkterne.
Men vi tror ikke på linearitet - at gå fra 0 til 1 er ikke nødvendigvis lige så stort et spring som at gå fra 1 til 2.
Da vi ikke tror at variablen opfører sig lineart, vil vi hellere undersøge hvert stadie hver for sig - på den måde er det ikke et problem, at de ikke er lineære.
Hvad er fortolkningen af binære variable?
1 eller 0:
Tilstedeværelse eller ej
Koefficient:
Ændring i sandsynlighed for tilstedeværelse.
Hvorfor har i valgt ar sætte en benchmark på 3%?
Hvad er jeres begrundelse?
Hvad ville der ske, hvis
i gjorde det anderledes?
Fordi det er for komplekst at tage højde for samhandel mellem lande i hver periode på vores niveau, men vi vil stadig gerne tage højde for noget af effekten.Hvis vi kunne vil det bedre afspejle den rigtige styrke af sanktioner.
Den måde vi tager højde for effekten for samhandel, er at bestemme et niveau, 3% af verdens samleded BNP, for at et land kan udføre en stærk sanktione. Dette bygger på at forståelsen af at om at økonomiske sanktioner er stærke, når der er høj samhandel.
Udfordringen er, at det antager at der kun er nogle vigtige lande. Eksempelvis får vi ikke korrekt afspejlet styrken ved sanktioner mellem små men tætte lande, eksempelvis Nordmakedonien og Grækenland.
Hvad er problematikken når I vælger at basere benchmark 3% på et gennemsnit, hvad
er fordelen?
Hvad er problemet med at have gjort det år for år?
I forhold til at basere det på et gennemsnit tager vi ikke korrekt højde for at landes betydning kan ændre sig. Men udviklingen synes relativ lille for nogle lande (USA), mens den er stor for andre (Kina).
Problemet med at gøre det år for år, er at det var for komplekst for os at løse indenfor tidsrammen.
Hvordan er det man forstår effekten fra logaritmisk BNP pr. capita på fysisk integritet? Hvordan er
det man forstår effekten fra polity variablen på fysisk integritet? De er jo ikke binære.
Det vigtigste er ikke hvilken form forklarende variable har, men hvilken form den afhængige variable har. Vi kigger stadig på ændring i ssh for tilstedeværelse.
Men fordi det er naturlig log, skal selve tallet fortolkes lidt anderledes.
En stigning på én procent i BNP per indbygger er forbundet med en ændring i sandsynligheden for sanktioner med en faktor af exp(koefficienten).
For polity er en stigning på 1 i polity score lig med en stigning i XXX% ssh for en overtrædelse. Her kunne der principielt være et problem med at dette er en ordinal variabel.
Forklar hvorfor I overvejer at have alle lande med? Giver det overhoved en forskel? (i forhold til FE modellen)
Det giver en forskel fordi vi også undersøger tidsdimensionen. I en normal FE vil et land der ikke oplever variation bare gå ud af modellen, men fordi at deres manglende variation stadig kan påvirker verdensgennemsnittet på tidsdimensionen, vil der være en lille effekt på koeffcienten.
Hvad er begrundelsen for at I vælger disse fire fysiske integritets overtrædelser. Har i testet med nogle af de andre, og hvad var resultaterne? Hvor mange fysisk integritets overtrædelser er der, og kan
Oplagt, da disse medtages i anden litteratur, fx Peksen (2008) og Gutman m.fl. (2020). Når forfatterne vælger fysiske integritets overtrædelser, så vælger de de fire som vi har med i vores artikel. På den måde kan vi sammenligne vores resultater.