Statistik Flashcards

1
Q

Vad menas med skalnivå?

A

Anger hur en variabels variabelvärden förhåller sig till varandra. Skalnivån avgör vilken typ av analyser vi kan göra med en variabel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Ge ex på kategorisk skalnivåer.

A
Nominalskala = Kan ej rangordnas ex kön, yrke, favoritfilm.
Ordinalskala = Kan rangordnas men ej avståndsbedömas ex utbilningsnivå, många enkätfrågor.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Ge ex på numerisk skalnivå.

A
Kvotskala = Kan avståndsbedömas och har absolut nollpunkt, alla antal och andelar.
Intervallskala = Kan avståndsbedömas men saknar nollpunkt, temperatur i Celsius och årtal.
Diskreta = kan bara vara heltal ex antal besök på socialkontoret.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vad är en linjär regression?

A

När vi söker efter en linjär modell som beskriver sambandet mellan våra variabler, kallar man detta linjär regression eller regressionsanalys. Vad vi söker är alltså en linje som våra markerade punkter avviker så lite från som möjligt.
Enkel linjär regression är således där y (vertikal) är den beroende (den som påverkas) variabeln och x (horisontell) är den oberoende (den som påverkar). Interceptet med y-axeln a och lutningen b beräknas så att felet jämfört med observerade data blir så litet som möjligt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Vad menas med logistisk regression?

A

logistisk regression är en matematisk metod med vilken man kan analysera mätdata.

Metoden lämpar sig bäst då man är intresserad av att undersöka om det finns ett samband mellan en responsvariabel (Y), som endast kan anta två möjliga värden, och en förklarande variabel (X).

Exempel:

Man är intresserad av att studera om det finns ett samband mellan mängden tjära i lungorna (X) och huruvida lungcancer föreligger (Y). Responsvariabeln kan endast anta de två värdena ‘Ja’ eller ‘Nej’, medan den förklarande variabeln (i princip) kan anta vilka positiva värden som helst.

Det är inte meningsfullt att försöka beskriva ett eventuellt samband mellan X och Y på en linjär form, så som är brukligt vid enkel linjär regressio

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Vad menas med Centralmått?

A

Centralmåttet tillhör den beskrivande statistiken. Centralmåttet för en grupp beskriver var tyngdpunkten i gruppen ligger. De flesta individerna i gruppen ligger i närheten av gruppens centralmått. Det finns flera olika centralmått som alla har sitt användningsområde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Vad menas med Spridningsmått?

A

Spridningsmått är inom statistik och matematisk statistik ett sammanfattande mått på utspridningen av observerade data eller en sannolikhetsfördelning. De vanligaste spridningsmåtten är standardavvikelsen, variansen och percentilavståndet (av vilket det ofta använda kvartilavståndet är ett specialfall).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Beskrivs;
Medelvärde
Median
Typvärde

A
Medelvärde = När vi ska beräkna medelvärdet av ett antal värden, då adderar vi första alla värdena och dividerar sedan summan vi får med antalet värden. Ett medelvärde eller medium är ett lägesmått för ett genomsnittligt värde av ett urval eller en population. I dagligt tal menar man med medelvärde normalt det aritmetiska medelvärdet.
Median = Median är inom statistiken det värde för ett ordnat datamaterial som delar materialet i två lika stora delar och är ett medelvärde sådant att det överskrides lika ofta som det underskrides av värden i det givna materialet.
Typvärde = Typvärde (kallas även modalvärde)[1] i ett statistiskt datamaterial är det värde som förekommer flest gånger. En mängd kan ha mer än ett typvärde, eftersom det kan finnas flera olika värden som alla är lika (och mest) förekommande. Typvärde används ofta i grupper där de olika värdena inte är tal (exempelvis bilmärken, färger, sjukdomar eller nationaliteter).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Vilka termer tillhör gruppen lägesmått?

A

Median, Medelvärde, Typvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Vad menas med standardavvikelse?

A

Med standardavvikelsen menar vi ett mått på den genomsnittliga avvikelsen från medelvärdet i en serie observationsvärden. Ju större standardavvikelsen är, desto större är spridningen bland våra observationsvärden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Vad menas med Variationsvidd?

A

Variationsbredd eller variationsvidd är inom statistik ett mått på skillnaden mellan det minsta och största värdet i ett givet material. Variationsbredden räknas ut genom att ta skillnaden mellan det största eller maximala och det minsta eller minimala värdet i en datatabell.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad menas med kvartiler?

A

Ett bättre sätt att beskriva spridningen runt medianen är att dela in observationsvärdena i kvartiler. Kvartil betyder fjärdedel och dessa kvartiler kommer vi fram till genom att dela in våra storlekssorterade observationsvärden i fyra lika stora grupper.

Det finns fem viktiga värden att hålla koll på när vi ska dela in våra observationsvärden i kvartiler:

Det högsta värdet och det lägsta värdet, som är de mest extrema observationsvärdena vi har åt vardera hållet i serien. Dessa motsvarar alltså det största och det minsta värdet som vi använde då vi räknade ut variationsbredden tidigare i avsnittet.

Vi behöver även känna till medianen, som ju delar våra storlekssorterade observationsvärden i två lika stora delar.

De två sista värdena som vi måste ta reda på är den nedre kvartilen, som delar de lägre 50 % av värdena i två lika stora delar, och den övre kvartilen, som delar upp de högre 50 % av värdena i två lika stora delar. Detta innebär att 25 % av våra observationsvärden kommer att vara mindre än den nedre kvartilen och 75 % av observationsvärdena kommer att vara mindre än den övre kvartilen.

Ofta betecknar man den nedre kvartilen som Q1, medianen som Q2 och den övre kvartilen som Q3.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Vad menas med kvartilavstånd?

A

Skillnaden mellan den övre och den nedre kvartilen kallas för kvartilavståndet. Detta motsvarar variationsbredden för de 50 % av värdena som befinner sig i mitten av serien av observationsvärden. Därigenom är kvartilavståndet ett mått på hur stor spridningen är i närheten av medianen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Vad menas med deskriptiv statistik?

A

Att mäta kvantitativt, olika slags mätnivåer, hur man beskriver materialets fördelning, central och spridningsmått, tabeller och diagram.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Lådagram

A

Lådagram
Med hjälp av de begrepp rörande kvartiler som vi har introducerat ovan kan vi åskådliggöra spridningen runt medianen med hjälp av lådagram.

Ett lådagram ritas på en tallinje och består av en låda (rektangel) vars vänstra respektive högra sida befinner sig vid den nedre respektive den övre kvartilen. Observationsvärdenas medianvärde är även markerat med en vertikal linje inuti lådagrammet. Från lådans respektive sidor sträcker sig en vågrät linje ut till det största respektive lägsta observationsvärdet i serien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Förklara begreppet normaldistribution (normalfördelning).

A

Normal distribution, also known as the Gaussian distribution, is a probability distribution that is symmetric about the mean, showing that data near the mean are more frequent in occurrence than data far from the mean. In graph form, normal distribution will appear as a bell curve.

17
Q

Vad är normalfördelningens “empiriska grundregler”

A
  • Arean under ytan är alltid 100%
  • Ca 68 % av alla observationer återfinns inom -1 och +1 standardavvikelse från medelvärdet.
  • Ca 95 % av alla observationer återfinns inom -2 och +2 standardavvikelser.
  • Ca 99,7 % av alla observationer återfinns inom -3 och +3 standardavvikelser.
18
Q

Vid normalfördelning kan kurvorna se olika ut, varför då?

A

Varför ser de olika ut?
• Beroende på vad medelvärdet är så förskjuts kurvan i sidled (övre bild)
• Standardavvikelsens storlek avgör formen på kurvan (nedre bild).
Vid Positive skew (right-skew) är Mode och median mer åt vänster.
Vid Negative skew (left-skew) är Mode och median mer år höger.

19
Q

Om datan är normalfördelad vilken typ av test kan väljas?

A

Parametriskt test
Test som ex jämför
medelvärden.

20
Q

Om datan inte är normalfördelad, vilken typ av test kan väljas?

A

Icke-parametriskt test, test som ex jämför

medianvärden.

21
Q

Vad menas med parametrisk statistik?

A

Kräver att data är normalfördelad (storlek på urval –
Central Limit Theorem)

Data ska vara i intervall- eller kvotskala (ev. ordinal) Alla typer av skalor
Medelvärde och standardavikelse
Exempel på test: t-test, ANOVA, linjär regression

Ytterligare antaganden för olika test

22
Q

Vad menas med icke parametrisk statistik?

A

Okänd eller skev bakomliggande fördelning
Alla typer av skalor
Median, variationsvidd, kvartilavstånd
Exempel på test: Wilcoxons test, Kruskal Wallis, Chi2,
logistisk regression

23
Q

Vad menas med inferens statistik

A

Att dra slutsatser om egenskaperna hos en population på basis av
egenskaperna hos ett urval.
Population - urval (n) - intervention/undersökning - effekt/utfall.

24
Q

Förklara Null hypothesis H0

A
  • Assumes no effect, no difference, no relationship etc.
  • Assumed to be ”true” until evidence indicates otherwise (retaining H0).
  • Thus we aim to disprove the null hypothesis (rejecting H0).
25
Q

Förklara Alternative hypothesis H1

A
  • Assumes an effect, a difference, a relationship etc.

* Usually our research question.

26
Q

Vad säger oss Probability and P-value?

A

P < 0.05  reject the null hypothesis, as there is only a small chance of the results occurring if the null hypothesis were true
”Results are statistically significant at the 5% level”
P ≥ 0.05  retain the null hypothesis, as there is insufficient evidence to reject the null hypothesis
”This does not mean that the null hypothesis is true, just that we don’t have enough evidence to reject it”

27
Q

Vad är ett Type I error?

A

Hittar nåt som inte finns (falskt positivt).

28
Q

Vad är ett Type II errors?

A

Hittar inte det som finns (falskt negativt)

29
Q

Vad menas med konfidensintervall?

A

• Eftersom vi inte undersökt hela studiepopulationen kan vi inte vara absolut säkra på att vårt estimat stämmer • Osäkerheten kan beskrivas med ett konfidensintervall • Konfidensintervallets bredd speglar osäkerheten i undersökningsresultatet
smalt – liten osäkerhet
brett – större osäkerhet

30
Q

Vad menas 95% konfidensintervall?

A

A 95% level of confidence means that 95% of the confidence intervals calculated
from these random samples will contain the true population mean. In other words,
if you conducted your study 100 times you would produce 100 different confidence
intervals. We would expect that 95 out of those 100 confidence intervals will
contain the true population mean.

31
Q

Terminologi, beskriv Y variabeln.

A

Y = is the variable that you are investigating.
• Dependent variable
• Response variable (in Rcmdr)
• Outcome

32
Q

Terminologi, beskriv X variablen.

A

X = is the variable/s that you think can explain Y.
• Independent variable
• Explanatory variable (Rcmdr)
• Factor (always categorical)
• Covariate (is always numerical)
• Predictor (can be either categorical or numerical)

33
Q

Beskriv Numerical data, 2 groups

A

Differences between two groups
• Independent (unpaired) t-test • Assumption: Dependent variable should be approximately normallydistributed (Shapiro-Wilk Test) and equal variance in each group
(Levene’s test)
Differences within one group
• Dependent (paired) t-test • Assumption: Dependent variable should be approximately normallydistributed

34
Q

Numerical data, > two groups

A

Differences between more than two groups
• One-way analysis of variance (ANOVA)
• The one-way ANOVA is used to determine whether there are any
statistically significant differences between the means of three or
more independent (unrelated) groups.
• Assumption: Normal distribution and Homogeneity of variance

35
Q

Vad är syftet med ett Chi squared test?

A

chi-squared test (also chi-square or χ2 test) is a statistical hypothesis test that is valid to perform when the test statistic is chi-squared distributed under the null hypothesis, specifically Pearson’s chi-squared test and variants thereof. Pearson’s chi-squared test is used to determine whether there is a statistically significant difference between the expected frequencies and the observed frequencies in one or more categories of a contingency table.

In the standard applications of this test, the observations are classified into mutually exclusive classes. If the null hypothesis that there are no differences between the classes in the population is true, the test statistic computed from the observations follows a χ2 frequency distribution. The purpose of the test is to evaluate how likely the observed frequencies would be assuming the null hypothesis is true.

36
Q

Vad menas med korrelations (coefficient)

A

• A correlation coefficient (r) is a number that quantifies the
linear relationship between two numerical variables
• Ranges from -1 to 1 (0=no correlation; +/-1=perfect correlation)• Only measures the relationship/association – not cause/effect• Pearson correlation – parametric
• Spearman’s rank correlation coefficient – non-parametric.
• Is best visualised in a X-Y diagram called scatterplot