Statestik Flashcards

1
Q

Kvalitativ variable?

A

Kvalitative variable er data vi ikke kan måle eller tælle. De antager værdier i form af navne eller labels

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Kvantitative variable

A

Kvantitative variable er målbare numeriske variable, vi deler disse op i kontinuerte og diskrete variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

kontinuerte

A

Kontinuerte variable er fx.

Antal ml. indhold i shampoo flasker
Aktiekurser for Intel
Vægten på værnepligtige
Højden på studerende

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

diskrete variable

A

Diskrete variable er fx.

Antal biler der passerer en bro observeret over flere dage.
Dagsproduktionen af chokoladefrøer på Toms.
Antal personer der har iphones
Antallet af indbyggere i en by

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er Univariate datasæt?

A

fx tider ved marathonløb

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er Bivariate datasæt?

A

fx tider ved marathonløb og køn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er Multivariate datasæt?

A

fx tider ved marathonløb, køn, alder, medlem af sports klub

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvis du havde spurgt fem personer om deres alder, hvordan ville du beregne et gennemsnit?

A

plusset alle aldrene sammen og dividerer med 5 - det er i princippet middelværdien eller gennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan ville du finde en median for alder for de fem personer?

A

Medianen er den midterste observation. altså 2 kvartil eller 50% fraktil. Når vi har ordnet vores tal i rækkefølge er det det midterste tal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad er middelværdien (my)

A

Man lægger alle sine tal sammen fx. afkast og dividerer med antallet af observationer . Også kaldet gennemsnittet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er Variansen?

A

Hvor meget variation er der? hvor meget svinger aktierne. Vi tager fx. alle dagsafkast og trækker gennemsnittet fra og sætter det derefter i ^2 og så dividerer vi antal observationer og minuser med 1.

Vi vil i princippet bare finde ud af hvor kraftig udsvingene er.
Variansen bruges lidt som en mellemregning til standardafvigelsen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er standardafvigelsen (sigma)

A

Man tager kvadratruden af variansen. Man vil gerne have at standardafvigelsen er så lav så mulig. Man er ikke interesseret i at afkastene fx. afviger for meget.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad er Modus (Type tallet )?

A

Det er bare hvilke tal der er hyppigst forekomne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er populationen?

A

Ofte er en population meget stor. Man kan f.eks. ikke veje alle tanglopper i Verden, eller spørge alle mennesker i Danmark hvad de ville stemme til næste Folketingsvalg.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad er en stikprøve

A

En stikprøve er en mindre gruppe indenfor populationen. Der findes forskellige måder at udtage en stikprøve på, men det vigtigste er, at den repræsenterer hele populationen. Man indsamler data fra sin stikprøve, og denne data generaliserer man så til at gælde hele populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad er Observationer

A

Observationer i statistik er de ting, vi måler i vores undersøgelse.
Det totale antal i stikprøven betegner man med n.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hyppigheden for hver observation ?

A

Hyppigheden for hver observation er det antal gange observationen forekommer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Konfidensintervallet

A

angiver det udfaldsrum, hvor det forventes at 95 % af observationerne findes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hvad er fraktiler?

A

Hvis man tager sine data og inddeler dem fra laveste til højeste så kan man beregne medianen (hvis det er ordnet datasæt, hvis der er 7 tal er det den midterste, hvis der er 6 tal tager man de 2 midterste og dividere med 2), kvartil, og fraktil.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Kvartilafstanden

A

hvor bred er spændet. hvor bredt ligger dataerne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

boksplot

A

Man sætter øvre kvartil, nedre kvartil og medianen i en skala og til sidst den mindste og højeste værdi. Dette laver en boks.

22
Q

Hvordan ser normalfordeling ud? Og hvad viser hele arealet under normalfordelingen?

A

Normalfordelingen er formet som en klokke. Hvis data er normalfordelt gælder at medianen er lig med middelværdien. Bredden på normalfordelingen angiver spredningen eller standardafvigelsen.
Jo højere standardafvigelse jo fladere bliver kurven. Midddelværdien angiver positionen på x aksen. Og standardafvigelsen angiver hvor spids normalfordelingen er.

23
Q

Hvad er lighed og forskel mellem normal og t-fordeling?

A

Når man ikke kender variansen laver man en t-fordeling. Stikprøvestørrelsen er nogle gange meget lille. udseendet på en t-fordeling er bestemt af antal frihedsgrader - altså antal observationer af stikprøven n minus 1.

24
Q

Hvornår er en fordeling højreskæv

A

Når fordelingen er plus og den har en hale mod højre.

25
Q

Hvad bliver mest påvirket af ekstreme observationer

A

Det gør gennemsnittet og man siger medianen ikke bliver særlig påvirket af ekstreme observationer.

26
Q

Den mest standard normalfordeling er?

A

Middelværdien 0 og standardafvigelse 1. så bliver det en helt fin klokke.

27
Q

Hvad viser et konfidensinterval?

A

Konfidensinterval angiver sikkerheden ved en statistisk analyse. Der er som oftest en usikkerhed ved en statistisk analyse og denne usikkerhed kan formidles gennem et konfidensinterval som fastlægger at det i et bestemt interval (tit 95%)

28
Q

Og hvad viser hele arealet under normalfordelingen?

A

Fordelingen af alle værdier i stikprøven. Det viser hvordan procenterne er fordelt.

29
Q

Stokastisk variable

A

en variable der bliver påvirket af tilfældigheder.

30
Q

Hvad er lighed og forskel mellem normal og t-fordeling?

A

Hvis vi har små stikprøver så skal vi bruge t-fordelingen. Hvis vi har små stikprøver så er det en forudsætning at vi har at gøre med en poporlation der er tilnærmelsesvis normaltfordelt.
Vi bruger t-fordelingen når vi ikke kender standardafvigelsen σ for populationen. Hvis standardafvigelsen σ for populationen er kendt bruger vi standard normalfordelingen vi kalder også denne z-fordelingen. Er stikprøven stor kan vi ligeledes bruge z-fordelingen. Forskellen på z-fordelingen og t-fordelingen er at t-fordelingen har federe haler i forhold til z-fordelingens klokkeform. I Figuren til venstre er forskellen mellem disse indtegnet.

31
Q

Hvad viser et konfidensinterval?

A

Fortæller os hvad er sandsynligheden for den sande parametre ligger mellem en nedre og øvre grænse.
Vi kan. Med 95% sige at højden for danske drenge ligger mellem nedre og øvre grænse. Altså to tal.
Nedre og øvre grænse er et interval estimat for Den sandemiddelværdi = my

32
Q

Hvor præcist er estimatet.

A

Det kommer an på hvad signifikantniveauet ligger på.

Ringere sikkerhed betyder et mere præsist estimat.

33
Q

Hvad er sammenhæng mellem sikkerhedsniveau og bredden af et konfideninterval?

A

Hvis man har et 5% signifikans niveau så betyder det at man har 95% konfidensniveau. Som er sikkerhedsniveau. Jo højre sikkerhed jeg vil have for at middelværdien ligger mellem nedre og øvre grænse jo breddere bliver konfidensintervallet. Hvilket betyder at man gør afkald på præcisionen.
dvs. hvis man valgte et signifikant niveau på 50% så ville man få et mere smallere interval så kan man være mere præcis fordi man kun er 50% sikker.
Hvis man synes grænserne er for brede så kan man også indsamle en større stikprøve. Men det koster jo penge.

34
Q

Hvordan kan vi ellers reducere bredden af konfidensinterval (dvs. få mere præcise resultater) når vi indsamler data?

A

Vi kan ændre på signifikantsniveauet og Vi kan indsamle en større stikprøve

35
Q

Hvor bred vil konfidensinterval være, hvis vi spurgte alle respondenter i den population vi undersøger?

A

Den ville være smal fordi hvis man har en stor stikprøve så bliver grænserne smallere.

36
Q

Hvad skal man huske når man bregner konfidensintervaller eller laver statistiske beregninger generelt?

A

Dog husk følgende forudsætninger, når du laver KI for middelværdier: Hvis n<30, så tjek for normalfordeling i normalfraktildiagram Hvis du lave KI for standardafvigelse, så tjek for normalfordeling i normalfraktildiagram ALTID!

37
Q

Hvorfor har man brug for hypotesetest og konfidensintervaller i det hele taget, når vi f.eks. arbejder med middelværdier eller andele?

A

Vi har brug for hypotesetest og konfidensintervaller fordi vi kan bestemme et interval som med stor sandsynlighed indeholder den rigtige ukendte middelværdi for hele populationen. Dette interval kaldes for konfidensinterval. To stikprøver kan give to forskellige estimater for middelværdien, hvorfor det er smart at bestemme et konfidensinterval men et vis signifikantniveau

38
Q

Hvordan opstiller man H0 og Ha, hvis man f.eks. vil teste om gennemsnitlig løn bland ejendomsmæglerne er større end 30.000kr.?

A

Vi kan teste om dne ukendte middelværdi i populationen om den kan tænkes at antage en eller anden værdi. Det kan være på baggrund af en stikprøve.

vil teste om gennemsnitlig løn bland ejendomsmæglerne er større end 30.000kr.?

H0: μ≤ 30.000 kr. (større end eller lig med)
H1 : : μ >30.000 kr.

Dette er en tosidet alternativ hypotese fordi vi ender med at forkaste fx H0

39
Q

Hvordan er beslutningsregel for at forkaste H0 hypotesen (dvs. hvordan bruger man p-værdien, husk at p-værdien viser sandsynlighed for at lave en fejlagtig konklusion, når man forkaster H0.)

A

P værdien bruger vi til at be eller afkræfte vores 0-hypotese.
P-værdien angiver sandsynligheden for at få en mere ekstrem teststørrelse. Fordi det er en tosiddet alternativ hypotese.
Hvis man får en teststørrelse der er større end kritiske værdi så kan H0 hypotesen forkastes.
Det vil sige at den forkastes hvis sigma er større end 0,5 som er signifikantniveauet.

40
Q

Hvad viser/betyder signifikansniveau?

A

Signifikantsniveauet (alfa) = Den angiver sandsynligheden for at vi forkaster en sand 0 hypotese.
Vi sætter det oftest til 5% - 10%.

Så sættes en teststørrelse og den fortæller hvor stor er forskellen på det vi har observeret i stikprøven kontra den hypotesetest vi ønsker at teste.

41
Q

Hvad skal man huske når man laver hypotesetests eller laver statistiske beregninger generelt? (svaret er forudsætninger, du må gerne nævne et eksempel)

A

Hvis n> 30 anvendes et t-test uden tjek for normalfordelingen.

42
Q

Hvad måler korrelationskoefficienten?

A

Hvordan to eller flere variabler varierer sammen. Jo grønnere de er jo mere positivt korreleret er de. Jo rødere de er, jo mere negativt korreleret. Jo hvidere de er jo mere korrelere er de ikke på hinanden.
Når de er helt grønne så er de perfekt positivt korreleret. Dvs. sammenhængen mellem at spise frugt og spise frugt er perfekt korreleret. Den ignorer vi og kommentere ikke på.
Det er et tal mellem -1 og 1.

43
Q

Lineær regression

A

Vi bruger lineær regression hvis vi har en variable x som vi mener påvirker en anden variable y.

Y= den forklarede variable. Responsvariablen, afhænige eller indugene variabel. Det er den der bliver påvirket af X

X= kalder vi: Den forklarende variable.

44
Q

Hvad viser hældningskoefficienterne for lineær regression?

A

Helt overordnet er lineære funktioner defineret ved funktionsforskriften y=a*x+b, hvor a og b er reelle tal.
I funktionsforskriften er a hældningskoefficienten og b er skæringen med y-aksen – Det er den som hvis vi lod linjen kører ud så ville den ramme det tal som b er på y- aksen.

Om lineære funktioner kan derudover nævnes, at hvis a er lig med 0, går grafen parallelt med x-aksen, da der i så fald ikke er nogen hældning. Grafen kan derfor hverken være voksende eller aftagende. Når a er et positivt reelt tal, er grafen voksende, og vil vokse opad fra venstre mod højre i hele x-intervallet. Hvis a er et negativt tal, er grafen aftagende, og vil aftage fra højre mod venstre i hele x intervallet.
Hvis b ≠ 0 så vil grafen ikke have nogen punkter tilfælles med x-aksen. Hvis både a og b er lig med 0, er grafen lig med x-aksen. Hvis b er lig med 0, vil grafen altid gå gennem punktet 0,0.
P værdier er grønne – vi kan ikke være sikre på at x har en signifikant effekt på y. Når den er grøn så betyder det at denne variabel kan fjernes.

Eksponentiel = x stiger meget kraftigt. Den har en bue.

45
Q

Forudsætning for lineær regression?

A

Linearitet:
For at benytte lineær regression, er den vigtigste froudsætning, at der er en lineær sammenhæng mellem den forklarende variable X og responsvariablen Y.
Hvis forudsætningen om linearitet, ikke er opfyldt er det alvorligt, vi ser af figurerne at modellen ikke vil beskrive responsvariablen korrekt.

Varianshomogenitet:
Betyder responsvariablen Y skal have samme afvigelse fra regressionslinjen ligegyldig hvilken værdi den uafhængige variabel X har.

Uafhængighed residualer:
Uafhængighed af residualer betyder at hverken værdien af X eller andre residualer påvirker en residual, målefejlen er altså tilfældig.

Normalitet.

46
Q

Hvad er forskel mellem simpel lineær- og multipel lineær regression

A

Hvis der kun er en forklarende variable er der tale om simpel lineær regression. Der er kun én X som påvirker Y.

I freestat: P-værdi: F-test fuld mode: hvis denne er rød kan modellen brugbar, så kan vi fortsætte analysen.
Hvis den var grøn så kunne den ikke bruges.
Hvis den er rød forskastet 0 hypotesen om at ingen af (x) forklarende variablerne har effekt. Mindst én har effekt.
Hvis X variablen bliver rød har den effekt på y variablen og så skal den blive i modellen.
Når P-værdien er lille er vi meget sikre.
R-kvadrat- hvor meget modellen forklarer af variansen i responsvariablen. Det betyder også at hvis alle punkter ligger på en linje så ville R-kvadrat være 100

Simpel lineær regression: hvis man har en eller flere kvantitative variabler så kunne det være man ønskede at undersøge at en om en variable kunne forklares ved den eller andre variabler.
Man kan opstille prædiktionsintervall eller et konfidensinterval
(man kan udtale sig om en enkel værdi ud fra y.)
Prædiktionsinverval: er et enkelt sommerhus på 80 kvm. Og i konfidensinterval er det gennemsnitspris ud fra populationen. Derfor bliver øvre og nedre grænse smallere, da det er en større stikprøve.

Multipel linenær regression:
Kan indeholde flere forklarende variabler.
R- kvadrat: variationen i responsvariablen kan forklares i variationen i de 3 forklarende variable (som er x variablerne)

En dummy variable: Vi forudsætter at der er kvantitative variabler. Så vi kan tage kvalitative variabler og lave dem om til kvantitative.

Udover de forudsætninger som skal være opfyldt ved simpel lineær regression er der i mulitpel lineær regression en forudsætning om multikollinaritet. (flere af de forklarende variabler (x- variabler er kraftig korrelleret med hinanden. Den må ikke være højere end 0,8 og mindre end -0,8.
Der vil være problemer med analysen. Man kan ikke isolere variablerne. Det vil påvirke en anden variable hvis der er korrelation.

47
Q

Hvad ligger der i fejlledet (E)?

A

E står for redisualen eller Error term, hvilket vil sige alle de udefrakommende faktorer, der kan have en påvirkning på responsvariablen. Disse faktorer medregnes ikke i ligningen.

men derudover er hver måling behæftet med tilfældig fejl (ϵiϵi). Det vigtige er at disse fejl er normalfordelt med en spredning som er uafhængig af værdien af xx. Det er altså ikke et krav at alle de observerede punkter ligger præcist på en ret linje, men den måde de afviger fra en ret linje på, skal være tilfældig.

Residualplot. Der er ingen systematik. Det er det bedste.

48
Q

Hvordan kan man forøge modellens forklaringsgrad?

A

R^2 kaldes forklaringsgraden og udtrykker hvor stor en del af variationen i den afhængige variabel y, der forklares/beskrives af den uafhængige variabel.

For at opnå en bedre forklaringsgrad (en bedre model), søges en lineær sammenhæng, hvor flere forklarende variable kan forklare udviklingen i den afhængige variable Y.
Y = a1X1 + a2X2 + a3X3 +…+ akXk + b + E

49
Q

Hvad er det man tester med hypotesetest for hældningskoefficienterne?

A

Hvad er det man tester med hypotesetest for hældningskoefficienterne? - Man laver en hypotesetest af linjens hældning, hvorefter man kigger om den er statistisk signifikant (signifikansnivaeu på 5%)

50
Q

Hvordan kan man forøge modellens forklaringsgrad?

A

Forklaringsgrad/R-kvadreret (R2) = forklaret variation/total variation - For at opnå en bedre forklaringsgrad (en bedre model), søges en lineær sammenhæng, hvor flere forklarende variable kan forklare udviklingen i den afhængige variable Y. Y = a1X1 + a2X2 + a3X3 +…+ akXk + b + E