Anvendt Statistik - Flashcards
Hvad er en stikprøve?
En stikprøve er en delmængde af en større population, som udvælges for at lave statistiske analyser om hele populationen.
Hvad er frekvens/hyppighed?
Frekvens refererer til antallet af gange en bestemt værdi forekommer i et datasæt.
Hvad er deskriptiv statistik?
Deskriptiv statistik omfatter metoder til at opsummere og beskrive de vigtigste karakteristika af et datasæt. Dette inkluderer beregninger som gennemsnit (middelværdi), median, varians og standardafvigelse.
Hvad er prædiktiv statistik?
Prædiktiv statistik bruges til at lave forudsigelser om fremtidige hændelser baseret på nuværende og historiske data.
Hvad er kausal inferens?
Kausal inferens handler om at fastslå årsag-virkning-forhold fra data.
Hvad er en hypotesetest?
Hypotesetestning er en metode til at afgøre, om en antagelse (hypotese) om en population er sand baseret på stikprøvedata.
Hvorfor bruger vi en regressionsanalyse?
Regressionsanalyse bruges til at modellere og analysere forholdet mellem en afhængig variabel og en eller flere uafhængige variabler.
Hvad er nominal data?
Nominale data er data, der kan kategoriseres men ikke rangeres. For eksempel, farver (rød, blå, grøn) og frugttyper (æble, banan, pære)
hvad er ordinal data?
Ordinale data er data, der kan både kategoriseres og rangeres. For eksempel, uddannelsesniveau (grundskole, gymnasium, universitet)
hvad er diskrete data?
Diskrete data er numeriske data, der kun kan antage bestemte værdier, ofte hele tal. For eksempel, antallet af børn i en familie (0, 1, 2, …) er diskrete data, fordi man ikke kan have 2,5 børn.
Hvad er kontinuerte data?
Kontinuerte data er numeriske data, der kan antage enhver værdi inden for et interval. For eksempel, højden af personer kan være 170,5 cm, 171,2 cm osv., da højden kan variere kontinuerligt.
Hvad bruges pivot tabel til?
En pivot tabel er et interaktivt værktøj i Excel, der bruges til at opsummere store mængder data. Pivot tabeller tillader brugere at sortere, tælle og aggregere data på forskellige måder for at finde mønstre og tendenser.
Hvad bruges scatterplot til?
Et scatter plot er en graf, der viser forholdet mellem to variable med punkter. Hver punkt repræsenterer en observation, og scatter plots bruges ofte til at identificere korrelationer mellem variable.
Hvad er en trendline?
En trendline er en linje i en graf, der indikerer den generelle retning eller tendens af datapunkter. Trendlines bruges til at identificere mønstre og forudsige fremtidige værdier.
Hvad bruges barplot til?
Et bar plot er et diagram med rektangulære søjler, der repræsenterer data.
Hvad bruges en pie chart til?
Et pie chart er et cirkeldiagram opdelt i sektorer, der repræsenterer data. Hver sektor viser andelen af en kategori i forhold til det samlede datasæt, og hele cirklen repræsenterer 100% af dataene.
Hvad er forskellen mellem Gennemsnit, Median, og Typetal?
Gennemsnit er summen af alle værdier divideret med antallet af værdier.
Median er den midterste værdi, når data er sorteret i stigende rækkefølge.
Typetal er den værdi, der forekommer hyppigst.
Hvad er outliers?
Outliers er datapunkter, der ligger langt fra de andre data og kan påvirke resultaterne af statistiske analyser.
Hvad er en histogram?
Et histogram er en graf, der viser fordelingen af numeriske data ved at opdele data i intervaller (bins) og vise antallet af observationer i hvert interval.
Hvad er simpel lineær regression
Simpel lineær regression er en statistisk metode, der modellerer forholdet mellem to variable ved at tilpasse en lige linje til dataene. Linjen beskriver, hvordan den afhængige variabel ændrer sig, når den uafhængige variabel ændrer sig.
Hvad er standardafvigelse (σ)?
Et mål for spredningen af data omkring gennemsnittet. Standardafvigelsen er kvadratroden af variansen, og den viser, hvor meget data varierer fra gennemsnittet i gennemsnit.
Hvad er varians (σ²)?
Gennemsnittet af de kvadrerede afvigelser fra gennemsnittet. Det er et mål for, hvor spredt dataene er omkring gennemsnittet.
Hvad er kvartiler?
Værdier, der deler et datasæt i fire lige store dele. Første kvartil (Q1) er den værdi, under hvilken 25% af dataene ligger. Anden kvartil (Q2) er medianen, under hvilken 50% af dataene ligger, og tredje kvartil (Q3) er den værdi, under hvilken 75% af dataene ligger.
Hvad percentiler?
Værdier, der deler et datasæt i 100 lige store dele. For eksempel er den 25. percentil den værdi, under hvilken 25% af observationerne ligger, og den 90. percentil er den værdi, under hvilken 90% af observationerne ligger.
Hvad er kovarians
Et mål for, hvordan to variable varierer sammen.
Hvad er korrelation?
Et standardiseret mål for styrken og retningen af en lineær sammenhæng mellem to variable. Korrelationen varierer mellem -1 og 1, hvor 1 angiver en perfekt positiv sammenhæng, -1 angiver en perfekt negativ sammenhæng, og 0 angiver ingen lineær sammenhæng.
Hvad er OLS?
Ordinary Least Squares er en metode til at estimere koefficienterne i en lineær regressionsmodel.
Hvad er en sansynlighedsteori?
Sandsynlighedsteori er studiet af tilfældige hændelser og hvordan sandsynligheder fordeles over disse hændelser.
Hvad er stokastisk variabel?
En stokastisk variabel er en variabel, der kan tage forskellige værdier med forskellige sandsynligheder. Der findes to hovedtyper: diskrete og kontinuerte stokastiske variable.
Hvad er en udfaldsrum?
Udfaldsrum er mængden af alle mulige udfald for en given stokastisk variabel.
Hvad er en hændelse?
En hændelse er et (eller flere) udfald fra et udfaldsrum. For eksempel er “at slå 5 med en terning” en hændelse. Sandsynligheden for en hændelse er summen af sandsynlighederne for de udfald, der udgør hændelsen.
Hvad er binomialfordeling?
Binomialfordelingen beskriver sandsynligheden for et bestemt antal successer i en række uafhængige forsøg, hvor hvert forsøg har to mulige udfald (succes eller fiasko) og samme sandsynlighed for succes. Parametrene er antallet af forsøg (n) og sandsynligheden for succes (p).
Hvad er poisson fordeling?
Poisson-fordelingen anvendes til at modellere antallet af hændelser, der sker i en fastlagt tidsperiode eller område, når hændelserne sker med en kendt gennemsnitshyppighed og uafhængigt af tiden siden den sidste hændelse.
Hvad er hypergeometrisk fordeling
Den hypergeometriske fordeling beskriver sandsynligheden for et bestemt antal successer i et bestemt antal træk fra en endelig population uden tilbageførsel, hvor der er en kendt antal successer i populationen.
Hvad er en normalfordeling?
En normalfordeling, også kaldet en Gaussisk fordeling, er en symmetrisk fordeling omkring gennemsnittet. Kurvens form er klokkeformet, og størstedelen af værdierne ligger tæt på gennemsnittet.
Hvad er en uniform fordeling?
En uniform fordeling er en, hvor der er lige stor sandsynlighed for
alle udfald (inden for et interval).
Hvad er standardnormalfordeling?
Standardisering af en normalfordeling betyder at omregne til en standard normalfordeling, hvor gennemsnittet er 0 og variansen er 1.
Hvad er en eksponentielfordeling?
Eksponentielfordeling handler om, hvor lang tid der går mellem noget sker. Fx hvis vi ved, at tordenbragene kommer i et bestemt tempo, kan vi bruge eksponentielfordelingen til at forudsige, hvornår det næste tordenbrag vil komme.
Hvad er den centrale grænsesætning (CLT)?
Gennemsnit er normalfordelt, selv hvis den variabel
man tager et gennemsnit af ikke er normalfordelt
Mere info: Den centrale grænsesætning er en magisk regel, der siger, at hvis vi tager mange små stykker data og lægger dem sammen, vil resultatet næsten altid ligne en klokkeformet kurve. Det betyder, at selvom dataene oprindeligt kommer fra forskellige steder eller er meget forskellige, vil deres gennemsnit ende med at se meget ens ud og danne en pæn kurve.
Hvad er en population?
En population er hele gruppen, vi vil sige noget om. Det kan være alle mennesker i en by, alle elever i en skole, eller alle dyr i en skov.
Hvad er en stikprøve?
En stikprøve er en mindre gruppe, vi udvælger fra populationen for at undersøge noget.
Hvad menes der med stikprøver med og uden tilbagelægning?
Når vi tager en stikprøve med tilbagelægning, lægger vi personen eller tingen tilbage i gruppen efter at have valgt den, så den kan blive valgt igen.
Uden tilbagelægning betyder, at vi ikke lægger den tilbage, så den ikke kan blive valgt igen.
Hvad er sansynlighedsbaseret stikprøvetagning?
Sandsynlighedsbaseret stikprøvetagning er, når vi vælger personer eller ting fra en gruppe baseret på sandsynligheder. Det sikrer, at hver person eller ting har en kendt og lige stor chance for at blive valgt.
Hvad er bekvemmelighedsbaseret stikprøvetagning?
Bekvemmelighedsbaseret stikprøvetagning er, når vi vælger personer eller ting, der er nemme at få fat i. For eksempel, hvis vi spørger folk på gaden, fordi de er nemme at finde.
Hvad er vurderingsbaseret stikprøvetagning?
Vurderingsbaseret stikprøvetagning er, når vi vælger personer eller ting, som vi mener er bedst til vores undersøgelse. For eksempel, at spørge eksperter inden for et felt i stedet for tilfældige personer.
Hvad er stratificeret stikprøvetagning?
Stratificeret stikprøvetagning indebærer, at vi deler populationen op i mindre grupper (strata) og trækker en tilfældig stikprøve fra hver gruppe. Dette sikrer, at vi får repræsentanter fra alle grupper.
Hvad er over-sampling?
Over-sampling betyder, at vi bevidst vælger flere fra en bestemt gruppe for at sikre, at denne gruppe er tilstrækkeligt repræsenteret i stikprøven.
Hvad er et konfidensinterval?
Et interval, der beregnes omkring et estimat (fx gennemsnit) med et bestemt sikkerhedsniveau (fx 95%). Det angiver det område, hvor den sande populationsparameter forventes at ligge med en given sandsynlighed.
Hvad er en t-fordeling?
En fordeling, der ligner normalfordelingen, men har bredere haler. Den bruges især når standardafvigelsen skal estimeres fra en stikprøve, og den har få frihedsgrader.
Jo flere observationer, desto mere ligner t-fordelingen normalfordelingen.
Hvilken fordeling bruges når vi skal estimere variansen?
Når vi ikke kender den sande populationsstandardafvigelse (σ), estimerer vi standardafvigelsen (s) fra stikprøven og bruger t-fordelingen til at beregne konfidensintervallet for gennemsnittet.
Hvilken fordeling skal der bruges hvis vi allerede kender variansen?
Når vi kender den sande populationsstandardafvigelse (σ), kan vi bruge normalfordelingen til at beregne konfidensintervallet for gennemsnittet.
Hvad er frihedsgrader?
Antallet af uafhængige værdier i en stikprøve, der bruges til at beregne en statistisk parameter.
Hvad er en konfidensniveau?
Sandsynligheden for at konfidensintervallet indeholder den sande populationsparameter. Typiske konfidensniveauer er 90%, 95%, og 99%.
Hvad er en p-værdi?
sandsynligheden for at opnå de resultater, som ses i undersøgelsen. Bruges til at vurdere statistisk signifikans.
Hvad er en hypotesetest (igen)?
En metode til at finde ud af, om en antagelse er rigtig eller ej. Man tester, om en påstand holder ved hjælp af data.
Hvad er en alternativhypotese (Ha)
En påstand om, at der er en forskel eller effekt. For eksempel kan man sige, at et nyt medicin virker bedre end en gammel medicin. Dette er det modsatte af nulhypotesen.
Hvad er en nulhypotese (H0)?
En påstand om, at der ikke er nogen forskel eller effekt. For eksempel kan man sige, at et nyt medicin ikke virker bedre end en gammel medicin. Det er udgangspunktet, man starter med at teste.
Hvad er en type I fejl?
At forkaste nulhypotesen, selvom den er sand.
Hvad er en type II fejl?
At ikke at forkaste nulhypotesen, selvom den er falsk.
Hvad er en teststatistik?
Et tal, man beregner fra data for at finde ud af, om man skal forkaste nulhypotesen. Eksempler inkluderer z-score og t-score.
Hvad er en 1-sidet test?
En 1-sidet hypotese tester, om en parameter er større eller mindre end en bestemt værdi, men ikke begge dele. For eksempel, H0: µ1 ≤ µ2 og Ha: µ1 > µ2.
En hypotesetest, hvor man kun ser på én retning af forskellen.
Hvad er en 2-sidet test?
En 2-sidet hypotese tester, om en parameter er forskellig fra en bestemt værdi, både større og mindre. For eksempel, H0: µ1 = µ2 og Ha: µ1 ≠ µ2.
En hypotesetest, hvor man ser på begge retninger af forskellen.
Hvad er en χ²-fordeling?
En sandsynlighedsfordeling, der ofte bruges til at teste hypoteser om varians og fordelingen af kategoriske data.
Hvad er power (β)?
Vi vælger selv sandsynligheden (“power”) for
ikke at forkaste en falsk nulhypotese
Hvad er signifikansniveau (α)?
Vi vælger selv signifikansniveauet
for at forkaste en sand nulhypotese
Hvad er forskellen mellem t-statistik og en z-statistik?
t-statistik bruges, når stikprøvestørrelsen er lille, og/eller populationens standardafvigelse er ukendt.
z-statistik bruges, når stikprøvestørrelsen er stor, og/eller populationens standardafvigelse er kendt.
Hvad er en binær variabel?
En binær variabel er en type variabel, der kun kan tage en af to mulige værdier feks. 0 og 1. Disse værdier repræsenterer typisk to modsatte tilstande, muligheder eller kategorier.
Hvad vil man med en analyse hvor man sammenligner gennemsnit?
En analyse for at se, om gennemsnittene af to grupper er statistisk forskellige. Dette kan gøres ved hjælp af t-tests eller konfidensintervaller.
Hvad vil man med en analyse hvor man sammenligner andele?
En analyse for at se, om andelene af en bestemt begivenhed er forskellige mellem to grupper. Man bruger konfidensintervaller og hypotesetests til dette formål.
Hvad er ANOVA?
NOVA er en statistisk metode til at sammenligne gennemsnit mellem flere end to grupper for at se, om der er signifikante forskelle mellem dem.
Hvad er goodness of fit?
Goodness-of-fit testen undersøger, hvor godt en observeret datamængde passer til en forventet fordeling, ofte brugt til at teste for normalitet.
Hvad bruger vi en f-fordeling til?
F-fordelingen bruges til at sammenligne variansen mellem to populationer.
Hvad er between-treatment variability?
Between-treatment variability måler, hvor meget variabilitet der er mellem grupper i en ANOVA.
Hvad er within-treatment variability
Within-treatment variability måler, hvor meget variabilitet der er inden for grupper i en ANOVA.
Hvad er observeret frekvens?
Hvor mange observationer ligger i intervallet.
Hvad er forventet frekvens?
Hvor mange observationer vil vi forvente ligger i intervallet, givet population er normalfordelt.
Hvad er determinationskoefficient (R²)
En måleenhed, der viser, hvor godt dataene passer til regressionsmodellen; R²-værdien ligger mellem 0 og 1.
Hvad er b_0?
Dette er den værdi, som y antager, når x er 0. Det repræsenterer den gennemsnitlige værdi af y, når x er 0. I praksis er det hvor linjen skærer y-aksen.
Hvad er b_1?
Dette er stigningen af linjen og repræsenterer ændringen i y for hver enhed ændring i x. Hvis b_1 er positiv, betyder det, at y stiger og omvendt.
Hvad er den øvre grænse?
Det er den højeste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.
Hvad er den nedre grænse?
Det er den laveste værdi, vi forventer for parameteren inden for det valgte konfidensniveau.
Hvad er en multipel lineær regression?
En lineær regression med flere uafhængige variable. Modellen skrives som: y = β₀ + β₁x₁ + … + βₖxₖ + ε, hvor ε repræsenterer tilfældig støj.
Hvad bruges Analysis ToolPak til?
Et Excel plug-in, der bruges til at udføre statistiske analyser, herunder lineær regression.
Hvad er Y^(y-hat)?
Generelt bruges y^ som notation til at skelne mellem de observerede værdier y g de forudsagte eller estimerede værdier y^
Hvad er en klyngeanalyse?
En statistisk metode, der grupperer observationer i klynger. Formålet er at identificere subgrupper i data uden på forhånd at kende disse grupper, f.eks. markedssegmentering eller kundemønstre.
Hvad er k-means clustering?
En algoritme til at inddele data i k klynger baseret på deres karakteristika.
Hvad er hierarkisk klyngeanalyse?
En metode, der gradvist inddeler data i mindre klynger.
Hvad er faktoranalyse?
En statistisk metode til at identificere underliggende faktorer, der påvirker flere observerbare variable.
Hvad er en fler-faktor model?
En udvidelse af faktoranalyse, hvor flere faktorer kan påvirke de observerbare variable.