Statistisk inferens begreber Flashcards

1
Q

Average treatment effekt

A

Den gennemsnitlige effekt vores treatment har på vores udfald.
ATE er sammen med selektionsbias lig forskellen i treatmentgruppens gennemsnitlige udfald og kontrolgruppens gennemsnitlige udfald.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Beskrivende statistisk

A

Beskriver data, ikke statistisk inferens.
Tendens-, sammenhængs- og spredningsmål Fx gennemsnit, standard afvigelse, spredning osv.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Cohens D

A

Et standardiseret mål for effektstørrelsen.
Tommelfingerregel(!): lille effekt: d=0,2; medium effekt: d=0,5; stor effekt: d=0,8

forskel i gennemsnit/SD

OBS: bruges kun for intervalskalerede variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Densityplot

A

grafisk fremstilling af en fordeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Dikotome variable

A

Antager enten 1 eller 0 alt efter om man er i den pågældende kategori (1) eller ej (0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Efficient

A

Den mest efficiente estimator er den estimator med lavest varians, da risikoen for at ramme langt fra populationsparameteret her er mindst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Eksperimentelle data

A

Data fra eksperimenter, hvor treatment er tilfældigt uddelt af undersøgeren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ekstern validitet

A

Kan vores undersøgelse generaliseres til populationen? Ligner stikprøven populationen tilstrækkeligt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Estimat

A

En specifik værdi, som estimaterne kan antage, udregne pba. en stikprøve.
Vores bedste bud på et populationsparameter fx populations gennemsnit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Estimator

A

En regel, der benytter stikprøvedata til at beregne et bud(et estimat) på en (uobserveret populationsparameter)
fx: vi bruger en estimator for populationsgennemsnittet til at estimere populationsgennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Felteksperiment

A

Treatment tildelt uden for laboratorie eller survey

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

inferens

A

Vi bruger noget vi har set (målt og vejet) til at sige noget om noget vi ikke har set (målt og vejet).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Intern validitet

A

Identifikationsantagelse
Fravær af selektionsbias (parallelle trends). Bedst ved stort N, hvis randomiseringen er foretaget succesfuldt. Måler vi det vi tror vi måler eller er der måske nogle baggrunds variable, som spiller ind - altså selektionsbias.
Kan sandsynliggøres (blance-/placebo-test) og styrkes (kontrol), men ikke observeres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Intervalskalerede variable

A

Rangordnede med lige langt mellem kategorierne
Fx højde, alder i år
Diskrete: Falder i enkelte punkter. Fx alder målt i hele år eller indkomst afrundet til 10.000ene
Kontinuerte: Sandsynligheden for at falde i et enkelt punkt er nærmest lig nul. Fx alder målt i dage, timer, sekunder osv. Eller indkomst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Kausal effekt

A

forskellen mellem de potentielle udfald (=udfaldet i det faktiske og udfaldet i det kontrafaktiske).
I en kausalpåstand påvirker den uafhængige variabel x den afhængige variabel y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kausal inferens

A

Da kausalitet ikke kan observeres er der tale om kausal inferens (=”det at udlede et forhold, en størrelse eller et element der ikke fremgår direkte af sammenhængen”)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

konfidensinterval

A

Et interval hvor vi kan sige at populationsgennemsnittet med en vis sikkerhed ligger inden for.
Et statistisk baseret troværdigt bud på et interval, hvorfor populationsparameret befinder sig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Konsistent

A

Når stikprøve størrelsen vokser nærmer stikprøvemålene sig populationsparameterne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Kurtosis

A

Siger noget om spidshed.
>3 spidsere
<3 fladere
= 3 “normal”

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Laboratorie eksperiment

A

Treatment tildelt i laboratorie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Middelret/unbiases

A

Gennemsnittet af stikprøvemål fra en række stikprøver er lig populationsparameteret.

22
Q

Nominelle variable

A

Ingen rangorden fx fritidsinteresse, nationalitet

23
Q

Observationelle data

A

Data fra fx surveys hvor treatment ikke er tilfældigt uddelt dvs. der er ikke manipuleret.

24
Q

Ordinale variable

A

Rangorden, men ikke lige langt mellem kategorierne fx uddannelsesniveau

25
P-værdien
P-værdien er sandsynligheden for at trække en stikprøve og opnå et estimat som afviger mindst lige så meget fra nulhypotesen som det konkrete resultat, givet at H0 er sand.
26
Panel data
Data fra flere enheder indsamlet på flere tidspunkter.
27
Populations fordelingen
Fordelingen i hele populationen på alle mulige værdier. Ofte ukendt
28
Posttreatment variable
Variable bestemt efter treatment fx holdning, motivation. Her må grupperne gerne variere
29
Pretreatment variable
Variable bestemt inden treatment fx alder, køn. Her skal grupperne være ens for at sikre mod selektionsbias.
30
Reabilitet
Hvor præcise er vores mål. Hvis vi ønsker at måle sundhed, hvordan gøres dette så. Er IQ et pålideligt mål for intelligens?
31
Selektionsbias
hvis der i fravær af treatment er en forskel i gruppernes forventede udfald er der tale om en selektionsbias, da grupperne ikke er ceteris paribus (=alt andet lige).
32
Skævhed
Fortæller om de fleste store afvigelser ligger over eller under gennemsnittet. <0 venstreskæv >0 højreskæv =0 symmetrisk
33
Standard afvigelse
Gennemsnitlig afvigelse fra gennemsnittet. Kan siger noget om relativ størrelse af forskel/effekt.
34
standard fejl
* Standardfejlen er standardafvigelsen i stikprøven - den gennemsnitlige afvigelse fra gennemsnittet i stikprøvemålsfordeling. Altså et udtryk for hvor meget vores estimat vil variere fra stikprøve til stikprøve. * Standardfejlen kan estimeres ved at dividere standardafvigelsen i stikprøven med kvadratroden af antal observationer. * Standardfejlen bruges til at beregne t-værdier - hvor mange standardfejl ligger estimatet fra testværdien givet ved nulhypotesen. t-værdien bliver større når standardfejlen bliver mindre. t-værdien kan vi sidenhen bruge til at finde p-værdien. Jo lavere standardfejl, jo højere t-værdi og jo lavere p-værdi
35
Standard normalfordeling
klokke formet og symmetrisk fordeling med Gennemsnittet μ=0, standard afvigelse σ=1. Alle normalfordelinger kan standardiseres dvs. gøres til standard normalfordeling. Dette kaldes også en z-transformation.
36
statistisk inferens
Er et værktøj til at undersøge og afgøre med hvor høj sikkerhed et stikprøveresultat kan generaliseres til en population. Der vil altid være en usikkerhed, ofte vil man sige at populationens gennemsnit ligger inden for X af stikprøven.
37
Stikprøve fordelingen
Fordelingen i stikprøven på alle mulige værdier. viser statistik på én enkelt stikprøve - fx varians og gennemsnit.
38
stikprøvemålsfordelingen
* Vi forestiller os at vi trækker uendeligt mange stikprøver og finder fx gennemsnittet af hver stikprøve. Stikprøvemålsfordelingen vil være fordelingen af disse gennemsnit. * viser statistik på uendeligt mange stikprøver - fx gennemsnittet i alle stikprøver. Ud fra stikprøvemålsfordelingen kan man fx finde det gennemsnitlige gennemsnit i stikprøverne (Y-streg) og den gennemsnitlige standardafvigelse (standardfejlen) .
39
stokastisk variabel
Bestemt med et element af tilfældighed, men det er muligt at beregne og analysere usikkerheden ved denne tilfældighed.
40
Surveyeksperiment
Treatment tildelt i survey fx nogen der får særligt information inden spørgsmål.
41
Tidsinvariante variable
Variere ikke efter måletidspunkt fx køn, social baggrund
42
Tidsserie data
Data for en enhed indsamlet på flere tidspunkter.
43
Tidsvariante variable
Variere muligvis efter måletidspunkt fx holdninger, værdier.
44
Varians
Gennemsnitlig kvadrerede afvigelse fra gennemsnittet. Ofte bruger man dog standardafvigelsen som er kvadratroden af variansen
45
Z-transformation
At gøre en normalfordeling til en standard normalfordeling. Samme som standardisering. Subtraherer gennemsnit og dividere med standardafvigelse
46
t-værdi
t-værdien er antallet af standardafvigelser som den observerede værdi ligger fra den forventede værdi (givet nulhypotesen). Det er her vi bruger 1,96 når vi snakker 95% konfidensinterval.
47
To-sidet test
P-værdien = arealet til højre for t-værdien OG arealet til venstre for t-værdien. Her sætter vi en ikke en retning på. Er mere konservativ end en en-sidet test, da den kræver dobbelt: P to-sidet =2*p en-sidet
48
En-sidet test
P-værdien = arealet til højre for t-værdien Eller arealet til venstre for t-værdien. Her sætter vi en retning på og ser kun på den ene side.
49
Type 1 fejl
Når vi afviser H0 selvom den er sand -> falsk positiv Risikoen for dette svare til signifikansniveauet fx 0,05 (=5%)
50
Type 2 fejl
Falsk negativ - vi accepterer H0 selvom den er falsk. Det er når signifikansniveauet er meget lavt. Risikoen for dette afhænger af type 1 fejlen. Des højere signifikansniveau jo større risiko for type 2 fejl. Afhænger også af hvad, der er sandt ude IRL. * Sandheden langt fra H0 = lille sandsynlighed for type 2 fejl * Meget information/data = lille sandsynlighed for type 2 fejl