Anvendt Statistik - Flashcards

Question

Hvad er kovarians

Answer 1

Et mål for, hvordan to variable varierer sammen.

Answer 2

Et standardiseret mål for styrken og retningen af en lineær sammenhæng mellem to variable. Korrelationen varierer mellem -1 og 1, hvor 1 angiver en perfekt positiv sammenhæng, -1 angiver en perfekt negativ sammenhæng, og 0 angiver ingen lineær sammenhæng.

Answer 3

Ordinary Least Squares er en metode til at estimere koefficienterne i en lineær regressionsmodel.

Answer 4

Sandsynlighedsteori er studiet af tilfældige hændelser og hvordan sandsynligheder fordeles over disse hændelser.

Answer 5

En stokastisk variabel er en variabel, der kan tage forskellige værdier med forskellige sandsynligheder. Der findes to hovedtyper: diskrete og kontinuerte stokastiske variable.

Answer 6

Udfaldsrum er mængden af alle mulige udfald for en given stokastisk variabel.

Answer 7

En hændelse er et (eller flere) udfald fra et udfaldsrum. For eksempel er "at slå 5 med en terning" en hændelse. Sandsynligheden for en hændelse er summen af sandsynlighederne for de udfald, der udgør hændelsen.

Answer 8

Binomialfordelingen beskriver sandsynligheden for et bestemt antal successer i en række uafhængige forsøg, hvor hvert forsøg har to mulige udfald (succes eller fiasko) og samme sandsynlighed for succes. Parametrene er antallet af forsøg (n) og sandsynligheden for succes (p).

Answer 9

Poisson-fordelingen anvendes til at modellere antallet af hændelser, der sker i en fastlagt tidsperiode eller område, når hændelserne sker med en kendt gennemsnitshyppighed og uafhængigt af tiden siden den sidste hændelse.

Answer 10

Den hypergeometriske fordeling beskriver sandsynligheden for et bestemt antal successer i et bestemt antal træk fra en endelig population uden tilbageførsel, hvor der er en kendt antal successer i populationen.

Answer 11

En normalfordeling, også kaldet en Gaussisk fordeling, er en symmetrisk fordeling omkring gennemsnittet. Kurvens form er klokkeformet, og størstedelen af værdierne ligger tæt på gennemsnittet.

Answer 12

En uniform fordeling er en, hvor der er lige stor sandsynlighed for alle udfald (inden for et interval).

Answer 13

Standardisering af en normalfordeling betyder at omregne til en standard normalfordeling, hvor gennemsnittet er 0 og variansen er 1.

Answer 14

Eksponentielfordeling handler om, hvor lang tid der går mellem noget sker. Fx hvis vi ved, at tordenbragene kommer i et bestemt tempo, kan vi bruge eksponentielfordelingen til at forudsige, hvornår det næste tordenbrag vil komme.

Answer 15

Gennemsnit er normalfordelt, selv hvis den variabel man tager et gennemsnit af ikke er normalfordelt Mere info: Den centrale grænsesætning er en magisk regel, der siger, at hvis vi tager mange små stykker data og lægger dem sammen, vil resultatet næsten altid ligne en klokkeformet kurve. Det betyder, at selvom dataene oprindeligt kommer fra forskellige steder eller er meget forskellige, vil deres gennemsnit ende med at se meget ens ud og danne en pæn kurve.

Answer 16

En population er hele gruppen, vi vil sige noget om. Det kan være alle mennesker i en by, alle elever i en skole, eller alle dyr i en skov.

Answer 17

En stikprøve er en mindre gruppe, vi udvælger fra populationen for at undersøge noget.

Answer 18

Når vi tager en stikprøve med tilbagelægning, lægger vi personen eller tingen tilbage i gruppen efter at have valgt den, så den kan blive valgt igen. Uden tilbagelægning betyder, at vi ikke lægger den tilbage, så den ikke kan blive valgt igen.

Answer 19

Sandsynlighedsbaseret stikprøvetagning er, når vi vælger personer eller ting fra en gruppe baseret på sandsynligheder. Det sikrer, at hver person eller ting har en kendt og lige stor chance for at blive valgt.

Answer 20

Bekvemmelighedsbaseret stikprøvetagning er, når vi vælger personer eller ting, der er nemme at få fat i. For eksempel, hvis vi spørger folk på gaden, fordi de er nemme at finde.

Answer 21

Vurderingsbaseret stikprøvetagning er, når vi vælger personer eller ting, som vi mener er bedst til vores undersøgelse. For eksempel, at spørge eksperter inden for et felt i stedet for tilfældige personer.

Answer 22

Stratificeret stikprøvetagning indebærer, at vi deler populationen op i mindre grupper (strata) og trækker en tilfældig stikprøve fra hver gruppe. Dette sikrer, at vi får repræsentanter fra alle grupper.

Answer 23

Over-sampling betyder, at vi bevidst vælger flere fra en bestemt gruppe for at sikre, at denne gruppe er tilstrækkeligt repræsenteret i stikprøven.

Answer 24

Et interval, der beregnes omkring et estimat (fx gennemsnit) med et bestemt sikkerhedsniveau (fx 95%). Det angiver det område, hvor den sande populationsparameter forventes at ligge med en given sandsynlighed.

Answer 25

En fordeling, der ligner normalfordelingen, men har bredere haler. Den bruges især når standardafvigelsen skal estimeres fra en stikprøve, og den har få frihedsgrader. Jo flere observationer, desto mere ligner t-fordelingen normalfordelingen.

Answer 26

Når vi ikke kender den sande populationsstandardafvigelse (σ), estimerer vi standardafvigelsen (s) fra stikprøven og bruger t-fordelingen til at beregne konfidensintervallet for gennemsnittet.

Answer 27

Når vi kender den sande populationsstandardafvigelse (σ), kan vi bruge normalfordelingen til at beregne konfidensintervallet for gennemsnittet.

Answer 28

Antallet af uafhængige værdier i en stikprøve, der bruges til at beregne en statistisk parameter.

Answer 29

Sandsynligheden for at konfidensintervallet indeholder den sande populationsparameter. Typiske konfidensniveauer er 90%, 95%, og 99%.

Answer 30

sandsynligheden for at opnå de resultater, som ses i undersøgelsen. Bruges til at vurdere statistisk signifikans.

Answer 31

En metode til at finde ud af, om en antagelse er rigtig eller ej. Man tester, om en påstand holder ved hjælp af data.

Answer 32

En påstand om, at der er en forskel eller effekt. For eksempel kan man sige, at et nyt medicin virker bedre end en gammel medicin. Dette er det modsatte af nulhypotesen.

Answer 33

En påstand om, at der ikke er nogen forskel eller effekt. For eksempel kan man sige, at et nyt medicin ikke virker bedre end en gammel medicin. Det er udgangspunktet, man starter med at teste.

Answer 34

At forkaste nulhypotesen, selvom den er sand.

Answer 35

At ikke at forkaste nulhypotesen, selvom den er falsk.

Answer 36

Et tal, man beregner fra data for at finde ud af, om man skal forkaste nulhypotesen. Eksempler inkluderer z-score og t-score.

Answer 37

En 1-sidet hypotese tester, om en parameter er større eller mindre end en bestemt værdi, men ikke begge dele. For eksempel, H0: µ1 ≤ µ2 og Ha: µ1 > µ2. En hypotesetest, hvor man kun ser på én retning af forskellen.

Answer 38

En 2-sidet hypotese tester, om en parameter er forskellig fra en bestemt værdi, både større og mindre. For eksempel, H0: µ1 = µ2 og Ha: µ1 ≠ µ2. En hypotesetest, hvor man ser på begge retninger af forskellen.

Answer 39

En sandsynlighedsfordeling, der ofte bruges til at teste hypoteser om varians og fordelingen af kategoriske data.

Answer 40

Vi vælger selv sandsynligheden (“power”) for ikke at forkaste en falsk nulhypotese

Answer 41

Vi vælger selv signifikansniveauet for at forkaste en sand nulhypotese

Answer 42

t-statistik bruges, når stikprøvestørrelsen er lille, og/eller populationens standardafvigelse er ukendt. z-statistik bruges, når stikprøvestørrelsen er stor, og/eller populationens standardafvigelse er kendt.

Answer 43

En binær variabel er en type variabel, der kun kan tage en af to mulige værdier feks. 0 og 1. Disse værdier repræsenterer typisk to modsatte tilstande, muligheder eller kategorier.

Answer 44

En analyse for at se, om gennemsnittene af to grupper er statistisk forskellige. Dette kan gøres ved hjælp af t-tests eller konfidensintervaller.

Answer 45

En analyse for at se, om andelene af en bestemt begivenhed er forskellige mellem to grupper. Man bruger konfidensintervaller og hypotesetests til dette formål.

Answer 46

NOVA er en statistisk metode til at sammenligne gennemsnit mellem flere end to grupper for at se, om der er signifikante forskelle mellem dem.

Answer 47

Goodness-of-fit testen undersøger, hvor godt en observeret datamængde passer til en forventet fordeling, ofte brugt til at teste for normalitet.

Answer 48

F-fordelingen bruges til at sammenligne variansen mellem to populationer.

Answer 49

Between-treatment variability måler, hvor meget variabilitet der er mellem grupper i en ANOVA.

Answer 50

Within-treatment variability måler, hvor meget variabilitet der er inden for grupper i en ANOVA.

Answer 51

Hvor mange observationer ligger i intervallet.

Answer 52

Hvor mange observationer vil vi forvente ligger i intervallet, givet population er normalfordelt.

Answer 53

En måleenhed, der viser, hvor godt dataene passer til regressionsmodellen; R²-værdien ligger mellem 0 og 1.

Answer 54

Dette er den værdi, som y antager, når x er 0. Det repræsenterer den gennemsnitlige værdi af y, når x er 0. I praksis er det hvor linjen skærer y-aksen.

Answer 55

Dette er stigningen af linjen og repræsenterer ændringen i y for hver enhed ændring i x. Hvis b_1 er positiv, betyder det, at y stiger og omvendt.

Answer 56

Det er den højeste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.

Answer 57

Det er den laveste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.

Answer 58

En lineær regression med flere uafhængige variable. Modellen skrives som: y = β₀ + β₁x₁ + ... + βₖxₖ + ε, hvor ε repræsenterer tilfældig støj.

Answer 59

Et Excel plug-in, der bruges til at udføre statistiske analyser, herunder lineær regression.

Answer 60

Generelt bruges y^ som notation til at skelne mellem de observerede værdier y g de forudsagte eller estimerede værdier y^

Answer 61

En statistisk metode, der grupperer observationer i klynger. Formålet er at identificere subgrupper i data uden på forhånd at kende disse grupper, f.eks. markedssegmentering eller kundemønstre.

Answer 62

En algoritme til at inddele data i k klynger baseret på deres karakteristika.

Answer 63

En metode, der gradvist inddeler data i mindre klynger.

Answer 64

En statistisk metode til at identificere underliggende faktorer, der påvirker flere observerbare variable.

Answer 65

En udvidelse af faktoranalyse, hvor flere faktorer kan påvirke de observerbare variable.