Anvendt Statistik - Flashcards
Hvad er en stikprøve?
En stikprøve er en delmængde af en større population, som udvælges for at lave statistiske analyser om hele populationen.
Hvad er frekvens/hyppighed?
Frekvens refererer til antallet af gange en bestemt værdi forekommer i et datasæt.
Hvad er deskriptiv statistik?
Deskriptiv statistik omfatter metoder til at opsummere og beskrive de vigtigste karakteristika af et datasæt. Dette inkluderer beregninger som gennemsnit (middelværdi), median, varians og standardafvigelse.
Hvad er prædiktiv statistik?
Prædiktiv statistik bruges til at lave forudsigelser om fremtidige hændelser baseret på nuværende og historiske data.
Hvad er kausal inferens?
Kausal inferens handler om at fastslå årsag-virkning-forhold fra data.
Hvad er en hypotesetest?
Hypotesetestning er en metode til at afgøre, om en antagelse (hypotese) om en population er sand baseret på stikprøvedata.
Hvorfor bruger vi en regressionsanalyse?
Regressionsanalyse bruges til at modellere og analysere forholdet mellem en afhængig variabel og en eller flere uafhængige variabler.
Hvad er nominal data?
Nominale data er data, der kan kategoriseres men ikke rangeres. For eksempel, farver (rød, blå, grøn) og frugttyper (æble, banan, pære)
hvad er ordinal data?
Ordinale data er data, der kan både kategoriseres og rangeres. For eksempel, uddannelsesniveau (grundskole, gymnasium, universitet)
hvad er diskrete data?
Diskrete data er numeriske data, der kun kan antage bestemte værdier, ofte hele tal. For eksempel, antallet af børn i en familie (0, 1, 2, …) er diskrete data, fordi man ikke kan have 2,5 børn.
Hvad er kontinuerte data?
Kontinuerte data er numeriske data, der kan antage enhver værdi inden for et interval. For eksempel, højden af personer kan være 170,5 cm, 171,2 cm osv., da højden kan variere kontinuerligt.
Hvad bruges pivot tabel til?
En pivot tabel er et interaktivt værktøj i Excel, der bruges til at opsummere store mængder data. Pivot tabeller tillader brugere at sortere, tælle og aggregere data på forskellige måder for at finde mønstre og tendenser.
Hvad bruges scatterplot til?
Et scatter plot er en graf, der viser forholdet mellem to variable med punkter. Hver punkt repræsenterer en observation, og scatter plots bruges ofte til at identificere korrelationer mellem variable.
Hvad er en trendline?
En trendline er en linje i en graf, der indikerer den generelle retning eller tendens af datapunkter. Trendlines bruges til at identificere mønstre og forudsige fremtidige værdier.
Hvad bruges barplot til?
Et bar plot er et diagram med rektangulære søjler, der repræsenterer data.
Hvad bruges en pie chart til?
Et pie chart er et cirkeldiagram opdelt i sektorer, der repræsenterer data. Hver sektor viser andelen af en kategori i forhold til det samlede datasæt, og hele cirklen repræsenterer 100% af dataene.
Hvad er forskellen mellem Gennemsnit, Median, og Typetal?
Gennemsnit er summen af alle værdier divideret med antallet af værdier.
Median er den midterste værdi, når data er sorteret i stigende rækkefølge.
Typetal er den værdi, der forekommer hyppigst.
Hvad er outliers?
Outliers er datapunkter, der ligger langt fra de andre data og kan påvirke resultaterne af statistiske analyser.
Hvad er en histogram?
Et histogram er en graf, der viser fordelingen af numeriske data ved at opdele data i intervaller (bins) og vise antallet af observationer i hvert interval.
Hvad er simpel lineær regression
Simpel lineær regression er en statistisk metode, der modellerer forholdet mellem to variable ved at tilpasse en lige linje til dataene. Linjen beskriver, hvordan den afhængige variabel ændrer sig, når den uafhængige variabel ændrer sig.
Hvad er standardafvigelse (σ)?
Et mål for spredningen af data omkring gennemsnittet. Standardafvigelsen er kvadratroden af variansen, og den viser, hvor meget data varierer fra gennemsnittet i gennemsnit.
Hvad er varians (σ²)?
Gennemsnittet af de kvadrerede afvigelser fra gennemsnittet. Det er et mål for, hvor spredt dataene er omkring gennemsnittet.
Hvad er kvartiler?
Værdier, der deler et datasæt i fire lige store dele. Første kvartil (Q1) er den værdi, under hvilken 25% af dataene ligger. Anden kvartil (Q2) er medianen, under hvilken 50% af dataene ligger, og tredje kvartil (Q3) er den værdi, under hvilken 75% af dataene ligger.
Hvad percentiler?
Værdier, der deler et datasæt i 100 lige store dele. For eksempel er den 25. percentil den værdi, under hvilken 25% af observationerne ligger, og den 90. percentil er den værdi, under hvilken 90% af observationerne ligger.
Hvad er kovarians
Et mål for, hvordan to variable varierer sammen.
Hvad er korrelation?
Et standardiseret mål for styrken og retningen af en lineær sammenhæng mellem to variable. Korrelationen varierer mellem -1 og 1, hvor 1 angiver en perfekt positiv sammenhæng, -1 angiver en perfekt negativ sammenhæng, og 0 angiver ingen lineær sammenhæng.
Hvad er OLS?
Ordinary Least Squares er en metode til at estimere koefficienterne i en lineær regressionsmodel.
Hvad er en sansynlighedsteori?
Sandsynlighedsteori er studiet af tilfældige hændelser og hvordan sandsynligheder fordeles over disse hændelser.
Hvad er stokastisk variabel?
En stokastisk variabel er en variabel, der kan tage forskellige værdier med forskellige sandsynligheder. Der findes to hovedtyper: diskrete og kontinuerte stokastiske variable.
Hvad er en udfaldsrum?
Udfaldsrum er mængden af alle mulige udfald for en given stokastisk variabel.
Hvad er en hændelse?
En hændelse er et (eller flere) udfald fra et udfaldsrum. For eksempel er “at slå 5 med en terning” en hændelse. Sandsynligheden for en hændelse er summen af sandsynlighederne for de udfald, der udgør hændelsen.
Hvad er binomialfordeling?
Binomialfordelingen beskriver sandsynligheden for et bestemt antal successer i en række uafhængige forsøg, hvor hvert forsøg har to mulige udfald (succes eller fiasko) og samme sandsynlighed for succes. Parametrene er antallet af forsøg (n) og sandsynligheden for succes (p).
Hvad er poisson fordeling?
Poisson-fordelingen anvendes til at modellere antallet af hændelser, der sker i en fastlagt tidsperiode eller område, når hændelserne sker med en kendt gennemsnitshyppighed og uafhængigt af tiden siden den sidste hændelse.
Hvad er hypergeometrisk fordeling
Den hypergeometriske fordeling beskriver sandsynligheden for et bestemt antal successer i et bestemt antal træk fra en endelig population uden tilbageførsel, hvor der er en kendt antal successer i populationen.
Hvad er en normalfordeling?
En normalfordeling, også kaldet en Gaussisk fordeling, er en symmetrisk fordeling omkring gennemsnittet. Kurvens form er klokkeformet, og størstedelen af værdierne ligger tæt på gennemsnittet.