statistik Flashcards

1
Q

Deskriptiv statistik

A

Deskriptiv statistik handlar om att beskriva och summera data från ett stickprov på ett sätt som ger en översiktlig bild av dess egenskaper. Det fokuserar på att ge en översikt av datans centrala egenskaper och spridning.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Inferentiell statistik

A

Inferentiell statistik används för att dra slutsatser om en population baserat på data från ett stickprov. Det handlar om att generalisera resultaten från stickprovet till hela populationen och att bedöma osäkerheterna i dessa generaliseringar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Parameter

A

En parameter är ett mått på en egenskap i populationen. Till exempel kan medelvärdet för alla högskolestudenter i Sverige betraktas som en parameter.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Estimat

A

Ett estimat är det värde eller den uppskattning som beräknas från ett stickprov och som används för att försöka närma sig eller uppskatta en parameter i populationen. Till exempel kan medelvärdet för de studenter du faktiskt har mätt betraktas som ett estimat av det sanna medelvärdet i populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

T-test

A

T-test är en statistisk metod som används för att jämföra medelvärdena mellan två grupper och avgöra om skillnaden mellan grupperna är statistiskt signifikant. Det används ofta när man vill utvärdera om en intervention har haft en signifikant effekt på en mätbar variabel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad händer med influensen vid låg representativt ?

A

Om ditt stickprov inte är representativt för den population du försöker dra slutsatser om kan det leda till osäkerheter och felaktiga inferenser. En hög grad av representativitet är viktig för att kunna generalisera resultaten från stickprovet till hela populationen. Om ditt stickprov inte är representativt, kan du inte vara säker på att de slutsatser du drar gäller för hela populationen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad händer med deskriptiv statistik vid mätfel ?

A

Mätfel, som inkluderar fel i datainsamling och mätningar, kan påverka kvaliteten på deskriptiv statistik. Om mätfel inträffar kan medelvärden, standardavvikelser och andra deskriptiva mått bli missvisande. Det är därför viktigt att minimera mätfel i stickprovet för att få noggranna deskriptiva resultat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

vad är Z-värden ?

A

Z-värden är ett mått som används inom statistik för att kvantifiera avvikelsen mellan en specifik datapunkt och medelvärdet i en datamängd, uttryckt i termer av standardavvikelsen. Z-värdet används i samband med normalfördelningen (även känd som Gaussisk fördelning) och är en viktig komponent inom statistik och inferentiell statistik. Det hjälper oss att förstå hur avlägsen en observation är från genomsnittet i termer av standardavvikelsen och ger oss ett sätt att jämföra observationer på olika skalor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Barplot (stapeldiagram):

A

En barplot används främst för att visualisera kategoriska variabler, där varje stapel representerar en unik kategori eller grupp. Varje stapel sträcker sig vertikalt uppåt och dess höjd representerar antalet observationer eller frekvensen av den kategorin.
Det är särskilt användbart för att jämföra frekvenser eller andelar mellan olika kategorier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Histogram:

A

Ett histogram används för att visualisera fördelningen av kontinuerliga variabler. Istället för att dela in i diskreta kategorier, delas datan in i intervall (bin) på den kontinuerliga skalan.
På x-axeln finns de olika intervallen och på y-axeln representeras frekvensen eller antalet observationer som faller inom varje intervall.
Ett histogram ger en bild av hur datan är fördelad över det kontinuerliga spannet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Boxplot (lådagram):

A

En boxplot ger en grafisk representation av kvartilerna (Q1, Q2 eller medianen, och Q3) samt eventuella utliggare i datan.
Det används för att visualisera fördelningen och spridningen av data och hjälper till att identifiera potentiella outliers (värden som är betydligt avvikande från resten av datan).
Boxens längd representerar interkvartilavståndet (Q3 - Q1), och linjen inuti rutan är medianen. Eventuella utliggare representeras som punkter utanför “whiskers” som sträcker sig från boxen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Scatterplot (punktdiagram):

A

Ett scatterplot används för att visualisera sambandet mellan två kontinuerliga variabler. Den ena variabeln placeras på x-axeln och den andra på y-axeln.
Scatterplot är användbara för att identifiera mönster, samband och outliers i datan och ger en visuell representation av hur de två variablerna relaterar till varandra.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Korrelation:

A

Korrelation är ett mått på hur två variabler relaterar till varandra. Det används för att kvantifiera graden och riktningen av sambandet mellan två variabler.
Två vanliga mått på korrelation är Pearsons produktmomentkorrelation och Spearmans rangkorrelationskoefficient.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Pearsons produktmomentkorrelation:

A

Mäter styrkan och riktningen av ett linjärt samband mellan två kontinuerliga variabler.
Kan variera från -1 (perfekt negativ korrelation) till +1 (perfekt positiv korrelation), med 0 som ingen korrelation.
Känslig för extremvärden och kräver normalfördelade variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Spearmans rangkorrelationskoefficient:

A

Mäter graden av monoton (icke-linjär) samband mellan två variabler.
Använder rankade värden istället för de faktiska observationerna, vilket gör den mindre känslig för extremvärden.
Mindre kraftfull än Pearsons korrelation för att upptäcka linjära samband men mer flexibel för att identifiera andra typer av samband.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Regression:

A

Regression är en statistisk metod som används för att modellera sambandet mellan två variabler, vanligtvis en beroende variabel (Y) och en oberoende variabel (X). Den mest grundläggande formen av regression kallas enkel linjär regression

17
Q

I en enkel linjär regression används följande formel

A

I en enkel linjär regression används följande formel för att modellera sambandet mellan två variabler, där ‘Y’ är den beroende variabeln och ‘X’ är den oberoende variabeln: Y=b0+b1X

18
Q

Nominalskala:

A

Den nominala skalan används för att kategorisera data i olika grupper eller kategorier.
Data på nominalskalan är i form av namn eller etiketter som representerar olika kategorier, men det finns ingen rangordning eller naturlig ordning mellan kategorierna.
Exempel: Könsidentifikation (man, kvinna), favoritfärg (röd, blå, grön) eller länders namn.

19
Q

Intervallskalan

A

intervallskalan bygger på en ordning mellan datapunkterna och har konstanta intervall mellan värdena.
Det finns ingen absolut nollpunkt på intervalskalan, vilket innebär att nollpunkten är arbiträr och representerar frånvaron av någonting. Man kan utföra addition och subtraktion på värden, men multiplikation och division saknar mening.
Exempel: Temperatur mätt i Celsius eller Fahrenheit, årtal (beroende av hur nollpunkten definieras).

20
Q

Kvotskala:

A

Kvotskalan har samma egenskaper som intervalskalan, men har en absolut nollpunkt som representerar frånvaron av den mätta egenskapen. Det innebär att det går att utföra alla matematiska operationer på dessa värden (tillägg, subtraktion, multiplikation och division).
Kvotskalan är den mest informativa och kraftfulla av de fyra skalorna eftersom den möjliggör förhållanden och proportioner mellan värden att jämföras på ett meningsfullt sätt.
Exempel: Längd, vikt, tid, inkomst, ålder (när det inte finns negativa värden).

21
Q

Ordinalskala:

A

Ordinalskalan används för att rangordna data i en hierarkisk ordning där vissa objekt eller observationer är mer eller mindre än andra, men avståndet mellan dessa rangordnade objekt är inte konstant eller mätbart.
Med andra ord, på en ordinalskala kan du fastställa vilket objekt som kommer före eller efter ett annat objekt, men du kan inte säga hur mycket de skiljer sig åt.
Ordinaldata kan representeras i form av rangordnade kategorier eller betygsskalor.
Exempel: Utbildningsnivå (låg, medel, hög), smärtgrad (ingen smärta, mild smärta, måttlig smärta, svår smärta), kundnöjdhet (mycket nöjd, nöjd, neutral, missnöjd, mycket missnöjd).

22
Q

Normalfördelningen,

A

Normalfördelningen, även känd som Gaussisk fördelning, är en symmetrisk sannolikhetsfördelning med ett välkänt klockformigt mönster.

Den är kännetecknad av sitt medelvärde (centrum) och standardavvikelse (spridning).
Många naturliga och slumpmässiga fenomen följer en normalfördelning, vilket gör den mycket viktig inom statistik.

Normalfördelning beskriver hur mycket av datan som faller inom vissa standardavvikelseintervall från medelvärdet.

23
Q

Standardavvikelsen

A

Standardavvikelsen mäter spridningen eller variationen av datan.

Den beräknas genom att ta roten ur varians (genomsnittlig kvadrerad avvikelse från medelvärdet).

En hög standardavvikelse indikerar att datan är mer spridd från medelvärdet, medan en låg standardavvikelse indikerar att datan är närmare medelvärdet.

Standardavvikelsen används ofta för att bedöma spridningen i en normalfördelning.

24
Q

Typvärde (modus):

A

Typvärdet är det värde som förekommer oftast i en datamängd.
En datamängd kan ha en modus (unimodal), flera modus (multimodal), eller inga modus alls om alla värden är unika.
Typvärdet är särskilt användbart för att beskriva frekvensen av kategoriska eller diskreta värden.

25
Q

Median (mittvärde):

A

Medianen är det mittersta värdet i en datamängd när värdena är ordnade i stigande eller fallande ordning.
Om datan har ett udda antal observationer är medianen det mittersta värdet. Om datan har ett jämnt antal observationer är medianen genomsnittet av de två mittersta värdena.
Medianen är mindre känslig för extrema värden än medelvärdet och används när det finns skift eller utliggare i datan.

26
Q

Medelvärde (genomsnitt):

A

Medelvärdet är det vanligaste sättet att beskriva centrala tendensen i en datamängd.
Det beräknas genom att summera alla värden och sedan dela summan med antalet värden.

Formel: summan av alla världen delade på antalet ger medelvärdet


.

27
Q

Extremvärden

A

Extremvärden, även kända som utliggare eller avvikande värden, är observationer i en datamängd som avviker signifikant från de övriga observationerna. Dessa värden ligger långt från det genomsnittliga eller förväntade värdet i datan och kan påverka analyser och resultat om de inte hanteras korrekt.

28
Q

Statistisk signifikans

A

Statistisk signifikans är ett viktigt begrepp inom statistik som används för att utvärdera om en observerad skillnad eller effekt i data är verklig eller om den kan vara resultatet av slumpmässig variation. När resultatet är statistiskt signifikant innebär det att det finns en hög grad av förtroende för att den observerade skillnaden inte beror på slumpen utan är ett pålitligt och återupprepbar resultat.

För att fastställa statistisk signifikans används vanligtvis hypotestester. Här är grunderna för hur det fungerar:

Formulering av nollhypotes (H0) och alternativ hypotes (H1):
Nollhypotes (H0) är en antagande som säger att det inte finns någon signifikant skillnad eller effekt i datan. Det är det som testas mot.
Alternativ hypotes (H1 eller Ha) är en antagande som säger att det finns en signifikant skillnad eller effekt i datan.
Insamling av data:
Data samlas in genom observationer eller experiment.
Val av statistiskt test:
Beroende på typen av data och frågan som ställs, väljs ett lämpligt statistiskt test. Exempel inkluderar t-test, chi-två test, ANOVA, korrelationstest, osv.
Beräkning av teststatistik och p-värde:
Teststatistiken beräknas baserat på data och testets egenskaper.
P-värdet (p-value) är sannolikheten att observera resultatet om nollhypotesen är sann. Ju lägre p-värdet är, desto mer stöd finns det för alternativ hypotes.
Sammanfattning av resultat:
Om p-värdet är mindre än ett förutbestämt signifikansnivå (oftast kallad alfa-nivå, vanligtvis satt till 0,05), förkastas nollhypotesen.
Om p-värdet är större än alfa-nivån behålls nollhypotesen.
Om nollhypotesen förkastas och det finns en signifikant skillnad mellan grupper eller en signifikant effekt i datan, säger vi att resultatet är statistiskt signifikant. Detta betyder att vi har tillräckligt starka bevis för att stödja alternativ hypotesen.

Det är viktigt att komma ihåg att statistisk signifikans inte nödvändigtvis innebär praktisk eller klinisk betydelse. En resultat kan vara statistiskt signifikant men ha en så liten effekt att den inte har någon praktisk relevans. Därför är det viktigt att utöver statistisk signifikans också överväga storleken på effekten och dess praktiska implikationer.

29
Q

Variationsbredd

A

Ett sätt att mäta spridningen är att beräkna skillnaden mellan det största och minsta värdet. Detta mått kallas variationsbredd. Det beräknas genom att subtrahera det minsta värdet från det största.
Variationsbredd=största värdet - minsta värdet

30
Q
A