Statistisk inferens pointer Flashcards

Ugernes væsentligste spørgsmål

1
Q

Hvordan kan vi bruge statistik til at besvare politologiske spørgsmål?

A
  • Mange politologiske spørgsmål er kvantitative, da der arbejdes med kvantitativt materiale og kvantitative svar. Dertil er mange politologiske spørgsmål kausale. Her er statistik også ofte brugbart, da man arbejder med store datasæt.
  • Når man arbejder med kvantitativt materiale med en stor mængde observationer er det mere generaliserbart, men for at overskue det bruges statistik.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvad er kausalitet og effekt?

A

Kausalitet er en årsagssammenhænge, hvor en uafhængigvariabel (x) har en effekt på (påvirker) en afhængig variabel (Y).
Den kausale effekt er forskellen i potentielle udfald dvs. udfaldet i situationer med det faktiske (x) og det kontrafaktiske (ikke-x).
Det er dog ikke muligt både at observere x og ikke-x samtidigt for et individ, derfor observeres ofte grupper, som gerne skal ligne hinanden for at mindske selektionsbias og dermed øge den interne validitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad betyder begrebet potentielle udfald?

A

Potentielle udfald er mulige udfald. I et eksperiment med en treatment og en kontrolgruppe vil der være to mulige udfald alt efter om man får eller ikke-får treatment. Disse skrives ofte som Y_0i og Y_1i hvor Y er udfald, i er individet og 0/1 afgører om der er treatment eller ej.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er det fundamentale problem ved kausal inferens?

A

Inferens betyder tankegang eller slutning. Det fundamentale problem med kausal inferens er, at man ikke kan observere kausalitet, da man ikke både kan have det faktiske og kontrafaktiske samtidigt. Man kan derfor kun observere et af de potentielle udfald for hver enhed.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er intern validitet?

A

Internvaliditet er afgørende for studiets troværdighed. Hvis den interne validitet er høj vil det sige at troværdigheden er høj inden for selve studiet dvs. at vi måler det vi gerne vil. Hvis omfanget af selektion er stort mindsker det den interne validitet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad betyder begreberne selektion, selektionsbias og balance?

A
  • Selektion betyder udvælgelse og henviser til hvordan der i eksperimenter og observationer af grupper er systematiske forskelle i grupperne.
  • Selektionsbias opstår når der er forskel i de grupper man observere. Hvis gruppernes forventede udfald er forskelligt fra hinanden når ingen af grupperne får treatment er det selektionsbias.
  • Balance er målet når man udvælger grupper. Man kan afgøre balancen ved at sammenligne nogen af de bagvedliggende variable fx køn, alder, uddannelse.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er varians, skævhed og kurtosis, og hvad kan det bruges til?

A
  • Varians: gennemsnitlig kvadrerede afvigelse fra gennemsnittet. Bruges til at fortælle hvor meget observationer variere fra gennemsnittet. Sum-kommandoen i STATA. Jo højere variansen er jo større vil spredningen fra gennemsnittet være og jo fladere vil fordelingen være rent grafisk.
  • Skævhed: I hvilken grad er grafen forskudt højre/venstre. Handler om hvordan variationen fordeler sig omkring gennemsnittet.
    <0 venstreskæv
    >0 højreskæv
    =0 symmetrisk (klokkeformet)
  • Kurtosis: Spidshedsmål. Hvor meget data er koncentreret omkring gennemsnittet og hvor “spidse” /”flade” halerne af fordelingen er. Mere masse i halen = større sandsynlighed for outliers.
    >3 spidsere
    <3 fladere
    = 3 “normal”
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er et densityplot?

A

en grafisk fremstilling af en sandsynlighedsfordeling. Skal gerne give 1.
Viser en kontinuert skønnelse af sandsynlighedstætheden for variablen.”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvad er forskellen på observationelle og eksperimentelle data?

A

Ved eksperimentiellet data har man manipuleret med virkeligheden. Forskeren har altså bestem fordelingen af treatment som dermed er kunststig.
Ved oberservationel data er treatment uddelt uafhængigt af forskeren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad kendetegner eksperimentelle forskningsdesigns?

A

Tilfældig udvælgelse af treatment og kontrolgruppe, hvilket fjerner selektionsbias.
Treatment tildelt tilfældigt, hvilket gør treatment uafhængigt af potentielle udfald.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvorfor er eksperimentelle forskningsdesigns generelt gode til at afdække kausaleffekter?

A

Ved tilfældig udvælgelse kan man minimere selektionsbias. Man kan, hvis kontrolgruppe og treatmentgruppe er succesfuldt udvalgt så de er i balance og har samme potentielle udfald, teste effekten af treatment som forskel i udfald.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er en stokastisk variabel?

A

En variabel bestemt med et element af tilfældighed, men det er muligt at beregne og analysere usikkerheden ved denne tilfældighed.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er en sandsynlighedsfordeling?

A

En sandsynlighedsfordeling er en beskrivelse af de mulige værdier en stokastisk variabel kan tage.
Ofte ses disse i tabel form eller grafisk som et søjle diagram over sandsynligheds fordelingen for diskrete stokastiske variable eller et densitets graf for kontinuerte stokastiske variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er forskellen på normal- og t-fordelingen?

A

Z-fordelingen også kaldt normalfordelingen er unik, der er en fordeling og vi kender fordelingen helt nøje.

T-fordelingerne er også en sandsynlighedsfordeling, men afhænger af hvor stor vores stikprøve er. t-fordelingen har tykkere haler end z-fordelingen ved lavt n.
Når n er høj er t- og z- fordelingen ens.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad betyder simpel tilfældig udtrækning?

A

når man tilfældigt udvælger en stikprøve fra en population.Pointen med en tilfældig udvælgelse er at sikre, at stikprøven er repræsentativ for populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad er forskellen på en stikprøvefordeling og stikprøvemålsfordeling?

A
  • Stikprøvefordelingen er fordelingen i stikprøven på alle mulige værdier.
  • Stikprøvemålsfordelingen er sandsynligheden for de forskellige værdier et stikprøvemål kan antage. Vi forestiller os at vi trækker uendeligt mange stikprøver og finder fx gennemsnittet af hver stikprøve. Stikprøvemålsfordelingen vil være fordelingen af disse gennemsnit.
  • En given stikprøveværdi kommer fra en stikprøvemålsfordeling, der 1) er tilnærmelsesvist normalfordelt omkring populationsgennemsnittet og 2) har en standard afvigelse. Dermed kan den standardiseres til en standard normal fordeling.
17
Q

Hvad siger den centrale grænseværdisætning og hvad kan vi bruge den til?

A
  • Den siger, at stikprøvemålsfordelingen for en hvilken som helst variabel vil være normalfordelt, hvis n>30.
  • Store tals lov: At gennemsnittet for stikprøven vil konvergere mod det faktiske populationsgennemsnittet, når stikprøvestørrelsen går mod uendeligt.
  • bruges når vi skal afgøre den statistiske usikkerhed.
  • Dette medfører at 1) fordelingen af stikprøvegennemsnit er normalfordelt, 2) fordelingen er centreret omkring det sande populationsgennemsnit 3) fordelingens standardafvigelse afhænger af populationens standardafvigelse og stikprøvens størrelse.
18
Q

Hvad er en estimator?

A

Vi ved at gennemsnittet variere fra stikprøve til stikprøve, da gennemsnitsmålet er en stokastisk variabel.
En estimator er dermed en matematisk regel vi benytter på stikprøvedata til at beregne et uobserveret populationsparameter ud fra vores observerede data.
Vores bedste bud på et populationsparameter fx gennemsnittet i populationen (μ_Y) er et estimat

19
Q

Hvad kendetegner en middelret og efficient estimator?

A
  • Middelret/unbiased: Gennemsnittet af stikprøvemål fra en række stikprøver er lig populationsparameteret.
  • Efficient: Lille varians/standard afvigelse rundt om populationsgennemsnittet ønskes! Hvis varians er stor vil vi i større omfang begå fejl.
  • Hvis vores estimator er både unbiased/middelret og efficient er den BLUE (Best Lineær Unbiased Estimator)
20
Q

Hvad indebærer en statistisk hypotesetest?

A

En undersøgelse af, hvorvidt der er tilstrækkeligt evidens i stikprøven til, at vi kan forkaste hypotesen.

21
Q

Hvad er standardfejlen et estimat af?

A

Vi kender ikke stikprøvemålsfordelingens standard afvigelse. Derfor bruger vi standard fejlen som et estimat for denne.

22
Q

Hvad udtrykker en p-værdi?

A
  • p-værdien transformere t-værdien til en sandsynlighed. T-værdien måler hvor mange standard afvigelser vi ligger fra H0.
  • P-værdien er sandsynligheden for at trække en stikprøve og opnå et estimat som afviger mindst lige så meget fra nulhypotesen som det konkrete resultat, givet at H0 er sand
23
Q

Hvad er et konfidensinterval?

A
  • Konfidensintervallet giver et statistisk baseret troværdigt bud på et interval hvor fx μ (populationsgennemsnittet) ligger indenfor. Vi kan dog stadigvæk tage fejl. Det kan man altid med statistik.
  • der er 95% SIKKERHED for at populationsparameteret ligger mellem x og y
  • Afrunding foregår konservativt
    90% konfidensinterval for μ_Y={Y ̅±1,64SE(Y ̅)}
    95% konfidensinterval for μ_Y={Y ̅±1,96SE(Y ̅)}
    99% konfidensinterval for μ_Y={Y ̅±2,58SE(Y ̅)}
24
Q

Hvordan analyserer man forskellen mellem to gruppers gennemsnit?

A

Hypotesetest! Man tester om der er en forskel ved at opstille hypoteser fx H0=0 og HA ikke-lig 0. Derefter testes disse.

25
Q

Hvilken relevans har analyse af to gruppers gennemsnit for kausal inferens og for balancetests?

A

Vi interessere os ofte for kausalinferens, dvs. om x påvirker y og hvordan. Derfor er det nødvendigt at vi kan sammenligne en treatment gruppe med en kontrolgruppe, for at finde forskellen mellem disse, da denne forskel udgøre den kausale effekt.
Vi er interesseret i at vide om der er en statistisk signifikant forskel i to gennemsnit.

26
Q

Hvad er en hypotesetest?

A

1) Vurdering af antagelse:
- n>30
- tilfældigt udvalgt stikprøve.
- Hvis kausal inferens undersøges sikres fravær af selektion.
2) Opstilling af hypoteser
3) Valg af test-statistik: Er der en statistisk signifikant forskel mellem to gruppers gennemsnit? Undersøges med en t-test, da forskellen vil være (tilnærmelsesvist) normalfordelt givet at antagelserne er opfyldt takket være den centrale grænseværdisætning.
4) Valg af kritisk test-værdi/p-værdi: I samfundsvidenskab sætter vi ofte p < 0,05 (to-sidet)
5) Indsamling af data, beregning af relevante statistikker:
6) Beslutning og konklusion

27
Q

Hvorfor er stikprøvemålsfordelingen normalfordelt, og hvad kan vi bruge det til?

A

Stikprøvemålsfordelingen for Y-streg er normalfordelt rundt om populationsgennemsnittet når n>30 iflg. den centrale grænseværdisætning. Den har altså et gennemsnit (populationsgennemsnit) og en standardafvigelse (standardfejlen).

Det at stikprøvemålsfordelingen er normalfordelt er fedt fordi vi så kan lave det om til en Z-fordeling og beregne sandsynligheder. Herfra kan vi så opstille en hypotese om populationsparameteren, udtrække en stikprøve med et gennemsnit og så finde sandsynligheden for at trække denne stikprøve givet at hypotesen er sand.

28
Q

Hvad vil det sige at Y-streg er en middelret estimator for populationsgennemsnittet

A

Pga. den centrale grænseværdisætning er Y-streg den bedste estimator for populationsgennemsnittet. Det er en BLUE-estimator (Best Linear Unbiased Estimator).

Y-streg er som estimator middelret (fordeler sig omkring gns), efficient (lille varians) og konsistent (når sample size øges nærmer gennemsnittet sig populationsparameteren).

29
Q

Hvordan estimeres den kausale effekt ud fra de potentielle outcomes, og hvordan knytter “det fundamentale problem ved kausal inferens” sig hertil?

A

Den kausale effekt kan defineres som t = Y1i-Y=0i, altså forskellen på de potentielle outcomes.
Det fundamentale problem ved kausal inferens er, at vi IKKE kan observere både Y1i og Y0i ved det samme individ, kun den ene. Derfor bliver vi nødt til at observere flere individer med variation i treatment og sammenligne deres gennemsnit. Her kommer der risiko for selektionsbias.

30
Q

Hvornår bruger vi t-fordelingen i stedet for z-fordelingen og hvorfor er det smart?

A

Vi bruger t-fordelingen i stedet for z-fordelingen ved mindre stikprøver, fordi t-fordelingen tager højde for antallet af observationer og hvor meget tyngde, der er i “halerne”. Når stikprøven bliver tilpas stor er t-fordelingen = z-fordelingen, og derfor giver det i praksis bedst mening bare at bruge t-fordelingen.

31
Q

Hvad er forskellen på en ensidet og en tosidet hypotesetest?

A

I en tosidet hypotesetest siger HA at forskellen på de to gruppers gennemsnit er forskellig fra 0. I en ensidet hypotesetest siger HA at forskellen på to gruppers gennemsnit er <0 eller >0.

Ensidet: P-værdien er arealet til venstre for t-værdien
Tosidet: P-værdien er arealet til venstre for (-t) og til højre for t.

I praksis er det et spørgsmål om kutyme om vi bruger 1- eller tosidet, for forskellen på grupperne er jo den samme uanset. Men vi bruger ofte tosidet, fordi forkastningsområdet er lidt større, så vi bliver lidt mere præcise.