Anvendt Statistik - Flashcards

1
Q

Hvad er en stikprøve?

A

En stikprøve er en delmængde af en større population, som udvælges for at lave statistiske analyser om hele populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvad er frekvens/hyppighed?

A

Frekvens refererer til antallet af gange en bestemt værdi forekommer i et datasæt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er deskriptiv statistik?

A

Deskriptiv statistik omfatter metoder til at opsummere og beskrive de vigtigste karakteristika af et datasæt. Dette inkluderer beregninger som gennemsnit (middelværdi), median, varians og standardafvigelse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er prædiktiv statistik?

A

Prædiktiv statistik bruges til at lave forudsigelser om fremtidige hændelser baseret på nuværende og historiske data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er kausal inferens?

A

Kausal inferens handler om at fastslå årsag-virkning-forhold fra data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er en hypotesetest?

A

Hypotesetestning er en metode til at afgøre, om en antagelse (hypotese) om en population er sand baseret på stikprøvedata.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvorfor bruger vi en regressionsanalyse?

A

Regressionsanalyse bruges til at modellere og analysere forholdet mellem en afhængig variabel og en eller flere uafhængige variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er nominal data?

A

Nominale data er data, der kan kategoriseres men ikke rangeres. For eksempel, farver (rød, blå, grøn) og frugttyper (æble, banan, pære)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

hvad er ordinal data?

A

Ordinale data er data, der kan både kategoriseres og rangeres. For eksempel, uddannelsesniveau (grundskole, gymnasium, universitet)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

hvad er diskrete data?

A

Diskrete data er numeriske data, der kun kan antage bestemte værdier, ofte hele tal. For eksempel, antallet af børn i en familie (0, 1, 2, …) er diskrete data, fordi man ikke kan have 2,5 børn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er kontinuerte data?

A

Kontinuerte data er numeriske data, der kan antage enhver værdi inden for et interval. For eksempel, højden af personer kan være 170,5 cm, 171,2 cm osv., da højden kan variere kontinuerligt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad bruges pivot tabel til?

A

En pivot tabel er et interaktivt værktøj i Excel, der bruges til at opsummere store mængder data. Pivot tabeller tillader brugere at sortere, tælle og aggregere data på forskellige måder for at finde mønstre og tendenser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad bruges scatterplot til?

A

Et scatter plot er en graf, der viser forholdet mellem to variable med punkter. Hver punkt repræsenterer en observation, og scatter plots bruges ofte til at identificere korrelationer mellem variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er en trendline?

A

En trendline er en linje i en graf, der indikerer den generelle retning eller tendens af datapunkter. Trendlines bruges til at identificere mønstre og forudsige fremtidige værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvad bruges barplot til?

A

Et bar plot er et diagram med rektangulære søjler, der repræsenterer data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvad bruges en pie chart til?

A

Et pie chart er et cirkeldiagram opdelt i sektorer, der repræsenterer data. Hver sektor viser andelen af en kategori i forhold til det samlede datasæt, og hele cirklen repræsenterer 100% af dataene.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvad er forskellen mellem Gennemsnit, Median, og Typetal?

A

Gennemsnit er summen af alle værdier divideret med antallet af værdier.

Median er den midterste værdi, når data er sorteret i stigende rækkefølge.

Typetal er den værdi, der forekommer hyppigst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hvad er outliers?

A

Outliers er datapunkter, der ligger langt fra de andre data og kan påvirke resultaterne af statistiske analyser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hvad er en histogram?

A

Et histogram er en graf, der viser fordelingen af numeriske data ved at opdele data i intervaller (bins) og vise antallet af observationer i hvert interval.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hvad er simpel lineær regression

A

Simpel lineær regression er en statistisk metode, der modellerer forholdet mellem to variable ved at tilpasse en lige linje til dataene. Linjen beskriver, hvordan den afhængige variabel ændrer sig, når den uafhængige variabel ændrer sig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hvad er standardafvigelse (σ)?

A

Et mål for spredningen af data omkring gennemsnittet. Standardafvigelsen er kvadratroden af variansen, og den viser, hvor meget data varierer fra gennemsnittet i gennemsnit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hvad er varians (σ²)?

A

Gennemsnittet af de kvadrerede afvigelser fra gennemsnittet. Det er et mål for, hvor spredt dataene er omkring gennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hvad er kvartiler?

A

Værdier, der deler et datasæt i fire lige store dele. Første kvartil (Q1) er den værdi, under hvilken 25% af dataene ligger. Anden kvartil (Q2) er medianen, under hvilken 50% af dataene ligger, og tredje kvartil (Q3) er den værdi, under hvilken 75% af dataene ligger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hvad percentiler?

A

Værdier, der deler et datasæt i 100 lige store dele. For eksempel er den 25. percentil den værdi, under hvilken 25% af observationerne ligger, og den 90. percentil er den værdi, under hvilken 90% af observationerne ligger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Hvad er kovarians

A

Et mål for, hvordan to variable varierer sammen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Hvad er korrelation?

A

Et standardiseret mål for styrken og retningen af en lineær sammenhæng mellem to variable. Korrelationen varierer mellem -1 og 1, hvor 1 angiver en perfekt positiv sammenhæng, -1 angiver en perfekt negativ sammenhæng, og 0 angiver ingen lineær sammenhæng.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Hvad er OLS?

A

Ordinary Least Squares er en metode til at estimere koefficienterne i en lineær regressionsmodel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

Hvad er en sansynlighedsteori?

A

Sandsynlighedsteori er studiet af tilfældige hændelser og hvordan sandsynligheder fordeles over disse hændelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

Hvad er stokastisk variabel?

A

En stokastisk variabel er en variabel, der kan tage forskellige værdier med forskellige sandsynligheder. Der findes to hovedtyper: diskrete og kontinuerte stokastiske variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

Hvad er en udfaldsrum?

A

Udfaldsrum er mængden af alle mulige udfald for en given stokastisk variabel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

Hvad er en hændelse?

A

En hændelse er et (eller flere) udfald fra et udfaldsrum. For eksempel er “at slå 5 med en terning” en hændelse. Sandsynligheden for en hændelse er summen af sandsynlighederne for de udfald, der udgør hændelsen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

Hvad er binomialfordeling?

A

Binomialfordelingen beskriver sandsynligheden for et bestemt antal successer i en række uafhængige forsøg, hvor hvert forsøg har to mulige udfald (succes eller fiasko) og samme sandsynlighed for succes. Parametrene er antallet af forsøg (n) og sandsynligheden for succes (p).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

Hvad er poisson fordeling?

A

Poisson-fordelingen anvendes til at modellere antallet af hændelser, der sker i en fastlagt tidsperiode eller område, når hændelserne sker med en kendt gennemsnitshyppighed og uafhængigt af tiden siden den sidste hændelse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

Hvad er hypergeometrisk fordeling

A

Den hypergeometriske fordeling beskriver sandsynligheden for et bestemt antal successer i et bestemt antal træk fra en endelig population uden tilbageførsel, hvor der er en kendt antal successer i populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

Hvad er en normalfordeling?

A

En normalfordeling, også kaldet en Gaussisk fordeling, er en symmetrisk fordeling omkring gennemsnittet. Kurvens form er klokkeformet, og størstedelen af værdierne ligger tæt på gennemsnittet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

Hvad er en uniform fordeling?

A

En uniform fordeling er en, hvor der er lige stor sandsynlighed for
alle udfald (inden for et interval).

37
Q

Hvad er standardnormalfordeling?

A

Standardisering af en normalfordeling betyder at omregne til en standard normalfordeling, hvor gennemsnittet er 0 og variansen er 1.

38
Q

Hvad er en eksponentielfordeling?

A

Eksponentielfordeling handler om, hvor lang tid der går mellem noget sker. Fx hvis vi ved, at tordenbragene kommer i et bestemt tempo, kan vi bruge eksponentielfordelingen til at forudsige, hvornår det næste tordenbrag vil komme.

39
Q

Hvad er den centrale grænsesætning (CLT)?

A

Gennemsnit er normalfordelt, selv hvis den variabel
man tager et gennemsnit af ikke er normalfordelt

Mere info: Den centrale grænsesætning er en magisk regel, der siger, at hvis vi tager mange små stykker data og lægger dem sammen, vil resultatet næsten altid ligne en klokkeformet kurve. Det betyder, at selvom dataene oprindeligt kommer fra forskellige steder eller er meget forskellige, vil deres gennemsnit ende med at se meget ens ud og danne en pæn kurve.

40
Q

Hvad er en population?

A

En population er hele gruppen, vi vil sige noget om. Det kan være alle mennesker i en by, alle elever i en skole, eller alle dyr i en skov.

41
Q

Hvad er en stikprøve?

A

En stikprøve er en mindre gruppe, vi udvælger fra populationen for at undersøge noget.

42
Q

Hvad menes der med stikprøver med og uden tilbagelægning?

A

Når vi tager en stikprøve med tilbagelægning, lægger vi personen eller tingen tilbage i gruppen efter at have valgt den, så den kan blive valgt igen.

Uden tilbagelægning betyder, at vi ikke lægger den tilbage, så den ikke kan blive valgt igen.

43
Q

Hvad er sansynlighedsbaseret stikprøvetagning?

A

Sandsynlighedsbaseret stikprøvetagning er, når vi vælger personer eller ting fra en gruppe baseret på sandsynligheder. Det sikrer, at hver person eller ting har en kendt og lige stor chance for at blive valgt.

44
Q

Hvad er bekvemmelighedsbaseret stikprøvetagning?

A

Bekvemmelighedsbaseret stikprøvetagning er, når vi vælger personer eller ting, der er nemme at få fat i. For eksempel, hvis vi spørger folk på gaden, fordi de er nemme at finde.

45
Q

Hvad er vurderingsbaseret stikprøvetagning?

A

Vurderingsbaseret stikprøvetagning er, når vi vælger personer eller ting, som vi mener er bedst til vores undersøgelse. For eksempel, at spørge eksperter inden for et felt i stedet for tilfældige personer.

46
Q

Hvad er stratificeret stikprøvetagning?

A

Stratificeret stikprøvetagning indebærer, at vi deler populationen op i mindre grupper (strata) og trækker en tilfældig stikprøve fra hver gruppe. Dette sikrer, at vi får repræsentanter fra alle grupper.

47
Q

Hvad er over-sampling?

A

Over-sampling betyder, at vi bevidst vælger flere fra en bestemt gruppe for at sikre, at denne gruppe er tilstrækkeligt repræsenteret i stikprøven.

48
Q

Hvad er et konfidensinterval?

A

Et interval, der beregnes omkring et estimat (fx gennemsnit) med et bestemt sikkerhedsniveau (fx 95%). Det angiver det område, hvor den sande populationsparameter forventes at ligge med en given sandsynlighed.

49
Q

Hvad er en t-fordeling?

A

En fordeling, der ligner normalfordelingen, men har bredere haler. Den bruges især når standardafvigelsen skal estimeres fra en stikprøve, og den har få frihedsgrader.

Jo flere observationer, desto mere ligner t-fordelingen normalfordelingen.

50
Q

Hvilken fordeling bruges når vi skal estimere variansen?

A

Når vi ikke kender den sande populationsstandardafvigelse (σ), estimerer vi standardafvigelsen (s) fra stikprøven og bruger t-fordelingen til at beregne konfidensintervallet for gennemsnittet.

51
Q

Hvilken fordeling skal der bruges hvis vi allerede kender variansen?

A

Når vi kender den sande populationsstandardafvigelse (σ), kan vi bruge normalfordelingen til at beregne konfidensintervallet for gennemsnittet.

52
Q

Hvad er frihedsgrader?

A

Antallet af uafhængige værdier i en stikprøve, der bruges til at beregne en statistisk parameter.

53
Q

Hvad er en konfidensniveau?

A

Sandsynligheden for at konfidensintervallet indeholder den sande populationsparameter. Typiske konfidensniveauer er 90%, 95%, og 99%.

54
Q

Hvad er en p-værdi?

A

sandsynligheden for at opnå de resultater, som ses i undersøgelsen. Bruges til at vurdere statistisk signifikans.

55
Q

Hvad er en hypotesetest (igen)?

A

En metode til at finde ud af, om en antagelse er rigtig eller ej. Man tester, om en påstand holder ved hjælp af data.

56
Q

Hvad er en alternativhypotese (Ha)

A

En påstand om, at der er en forskel eller effekt. For eksempel kan man sige, at et nyt medicin virker bedre end en gammel medicin. Dette er det modsatte af nulhypotesen.

56
Q

Hvad er en nulhypotese (H0)?

A

En påstand om, at der ikke er nogen forskel eller effekt. For eksempel kan man sige, at et nyt medicin ikke virker bedre end en gammel medicin. Det er udgangspunktet, man starter med at teste.

56
Q

Hvad er en type I fejl?

A

At forkaste nulhypotesen, selvom den er sand.

57
Q

Hvad er en type II fejl?

A

At ikke at forkaste nulhypotesen, selvom den er falsk.

58
Q

Hvad er en teststatistik?

A

Et tal, man beregner fra data for at finde ud af, om man skal forkaste nulhypotesen. Eksempler inkluderer z-score og t-score.

59
Q

Hvad er en 1-sidet test?

A

En 1-sidet hypotese tester, om en parameter er større eller mindre end en bestemt værdi, men ikke begge dele. For eksempel, H0: µ1 ≤ µ2 og Ha: µ1 > µ2.

En hypotesetest, hvor man kun ser på én retning af forskellen.

60
Q

Hvad er en 2-sidet test?

A

En 2-sidet hypotese tester, om en parameter er forskellig fra en bestemt værdi, både større og mindre. For eksempel, H0: µ1 = µ2 og Ha: µ1 ≠ µ2.

En hypotesetest, hvor man ser på begge retninger af forskellen.

61
Q

Hvad er en χ²-fordeling?

A

En sandsynlighedsfordeling, der ofte bruges til at teste hypoteser om varians og fordelingen af kategoriske data.

62
Q

Hvad er power (β)?

A

Vi vælger selv sandsynligheden (“power”) for
ikke at forkaste en falsk nulhypotese

63
Q

Hvad er signifikansniveau (α)?

A

Vi vælger selv signifikansniveauet
for at forkaste en sand nulhypotese

64
Q

Hvad er forskellen mellem t-statistik og en z-statistik?

A

t-statistik bruges, når stikprøvestørrelsen er lille, og/eller populationens standardafvigelse er ukendt.

z-statistik bruges, når stikprøvestørrelsen er stor, og/eller populationens standardafvigelse er kendt.

65
Q

Hvad er en binær variabel?

A

En binær variabel er en type variabel, der kun kan tage en af to mulige værdier feks. 0 og 1. Disse værdier repræsenterer typisk to modsatte tilstande, muligheder eller kategorier.

66
Q

Hvad vil man med en analyse hvor man sammenligner gennemsnit?

A

En analyse for at se, om gennemsnittene af to grupper er statistisk forskellige. Dette kan gøres ved hjælp af t-tests eller konfidensintervaller.

67
Q

Hvad vil man med en analyse hvor man sammenligner andele?

A

En analyse for at se, om andelene af en bestemt begivenhed er forskellige mellem to grupper. Man bruger konfidensintervaller og hypotesetests til dette formål.

68
Q

Hvad er ANOVA?

A

NOVA er en statistisk metode til at sammenligne gennemsnit mellem flere end to grupper for at se, om der er signifikante forskelle mellem dem.

69
Q

Hvad er goodness of fit?

A

Goodness-of-fit testen undersøger, hvor godt en observeret datamængde passer til en forventet fordeling, ofte brugt til at teste for normalitet.

70
Q

Hvad bruger vi en f-fordeling til?

A

F-fordelingen bruges til at sammenligne variansen mellem to populationer.

71
Q

Hvad er between-treatment variability?

A

Between-treatment variability måler, hvor meget variabilitet der er mellem grupper i en ANOVA.

72
Q

Hvad er within-treatment variability

A

Within-treatment variability måler, hvor meget variabilitet der er inden for grupper i en ANOVA.

73
Q

Hvad er observeret frekvens?

A

Hvor mange observationer ligger i intervallet.

74
Q

Hvad er forventet frekvens?

A

Hvor mange observationer vil vi forvente ligger i intervallet, givet population er normalfordelt.

75
Q

Hvad er determinationskoefficient (R²)

A

En måleenhed, der viser, hvor godt dataene passer til regressionsmodellen; R²-værdien ligger mellem 0 og 1.

76
Q

Hvad er b_0?

A

Dette er den værdi, som y antager, når x er 0. Det repræsenterer den gennemsnitlige værdi af y, når x er 0. I praksis er det hvor linjen skærer y-aksen.

77
Q

Hvad er b_1?

A

Dette er stigningen af linjen og repræsenterer ændringen i y for hver enhed ændring i x. Hvis b_1 er positiv, betyder det, at y stiger og omvendt.

78
Q

Hvad er den øvre grænse?

A

Det er den højeste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.

79
Q

Hvad er den nedre grænse?

A

Det er den laveste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.

80
Q

Hvad er en multipel lineær regression?

A

En lineær regression med flere uafhængige variable. Modellen skrives som: y = β₀ + β₁x₁ + … + βₖxₖ + ε, hvor ε repræsenterer tilfældig støj.

81
Q

Hvad bruges Analysis ToolPak til?

A

Et Excel plug-in, der bruges til at udføre statistiske analyser, herunder lineær regression.

82
Q

Hvad er Y^(y-hat)?

A

Generelt bruges y^ som notation til at skelne mellem de observerede værdier y g de forudsagte eller estimerede værdier y^

83
Q

Hvad er en klyngeanalyse?

A

En statistisk metode, der grupperer observationer i klynger. Formålet er at identificere subgrupper i data uden på forhånd at kende disse grupper, f.eks. markedssegmentering eller kundemønstre.

84
Q

Hvad er k-means clustering?

A

En algoritme til at inddele data i k klynger baseret på deres karakteristika.

85
Q

Hvad er hierarkisk klyngeanalyse?

A

En metode, der gradvist inddeler data i mindre klynger.

86
Q

Hvad er faktoranalyse?

A

En statistisk metode til at identificere underliggende faktorer, der påvirker flere observerbare variable.

87
Q

Hvad er en fler-faktor model?

A

En udvidelse af faktoranalyse, hvor flere faktorer kan påvirke de observerbare variable.