Statistik 3, HT-22 Flashcards

1
Q

● Population

A

teoretiskt begrepp, det vi är intresserade av (t.ex. alla läkare i Sverige)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

● Parameter

A

– värde som beskriver populationen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

● Estimat

A

värde som vi mätt eller beräknat från stickprovet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Z-Värde

A

● Ett sätt att skriva om (transformera) data så att varje värde beskriver hur
många standardavvikelser det är från medelvärdet

● Ändrar bara enheten på data, inte värdena (jmfr. att skriva om miles till km)

● z-värden innebär en standardisering av data, så att man enklare kan
jämföra variabler med varandra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Variationsbredd

A

skillnaden mellan det högsta och lägsta värdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Variansanalys ANOVA

A

Variansanalys är en statistisk metod som används för att ta reda på om stickprovsmedelvärden skiljer sig signifikant från varandra. Man är dock inte, som vid t-test, begränsad till endast två stick- provsmedelvärden utan kan ha hur många grupper (nivåer på den oberoende variabeln) som helst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Varians & Standardavvikelse

A

värde under vilket en viss andel av fördelningen ligger

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Utts 2. The difference between statistical signi cance and practi-cal importance, especially when using large sample sizes.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Utts 3.
The difference between finding “no effect” or “no differ-
ence” and finding no statistically signicant effect or difference,

especially when using small sample sizes.

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Utts

  1. When it can be concludedthat a relationshipis one of cause
    and effect, and when it cannot, including the difference between
    randomized experiments and observationalstudies.
A

Resisting the temptation to make a causal conclusion is par-
ticularly dif cult when a causal conclusion is logical, or when

one can think of reasons for how the cause and effect mecha-
nism may work. Therefore, when illustrating this concept for

students, it is important to give many examples and to discuss
how confounding variables may account for the relationship.
Fortunately, examples are easy to nd. Most major newspapers
and Internet newssitesreport observationalstudiesseveral times

a week, and they often make a possibly erroneous causal con-
clusion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

T-test oberoende

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

T-test Beroende

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

● Stickprov

A

Praktiskt begrepp, de värden vi har mätt (t.ex. alla läkare i vår undersökning)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Statistisk power. 2 p
Skriv in ditt svar här

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Statistik 1
Vid Statistik 1 ligger fokus på deskriptiv statistik, och vi går in mer på hypotesprövning och inferentiell atistik vid Statistik 2.st
Stickprov:

A

Stickprovet är ett antal observationer, mätvärden på en variabel (ex. 10 personers reaktionstid när de har druckit en kopp kaffe)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standarvvikelse

A

● Roten ur summan av kvadraten av alla observationers avvikelse från
medelvärdet delat med antalet datapunkter minus ett

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Spridningmått

A

innebär olika mått på hur data är fördelad

18
Q

Spearmans rangkorelationskoefficient (rs)

A

● Baserad på observationers rangordning istället för deras z-värden

● Används t.ex. när data är på ordinalskala, när data inte är normalfördelad
eller när det förekommer extremvärden

● Kan också användas för monotona icke-linjära samband

19
Q

Samplingsfördelning.

A
20
Q

Sampelvariation:

A

Statistik 2 och 3
Vid Statistik 2 går vi igenom grunder för statistisk hypotesprövning och inferentiell statistik, och vi återkommer också till en del av dessa resonemang och principer vid Statistik 3
Sampelvariation: (Eng. sampling error. Detta begrepp används inte i litteraturen, men är användbart för att förstå en viktig aspekt av den inferentiella statistiken här.) Det handlar om att slumpmässigt dragna stickprov varierar slumpmässigt. Det är en källa till statistisk osäkerhet som vi kan beräkna, och ange tex som ett 95 % konfidensintervall när vi vill använda m för att estimera µ. Sampelvariationen påverkas av två saker: 1. den sanna variationen i populationen, och 2. storleken på stickprovet (ex. blir vi mer säkra i våra bedömningar av det sanna medelvärdet om 1. människors reaktionstid generellt inte varierar så mycket, och/eller 2. om vi många observationer i vårt stickprov).

21
Q

Regressionskoefficient. 2 p
Skriv in ditt svar här

A
22
Q

Regression

A

● Används för att förutsäga värdet av en variabel baserat på värdet av en
annan

● Innefattar en (eller flera) regressionskoefficient(er) och ett intercept

● Till skillnad från korrelation är det viktigt att skilja på vilken variabel som är
beroende och oberoende variabel

23
Q

Population:

A

Population: Det är alla mätningar som vi är intresserade av i vår undersökning. Inom den inferentiella statistiken är populationen alla möjliga mätningar på en variabel som intresserar oss. Observera att populationen här alltså handlar om något oändligt, i stil med: om vi hade kunnat ta alla möjliga mätningar av det som intresserar oss (ex. alla möjliga mätningar av reaktionstid för människor som druckit en kopp kaffe). Det vanliga inom forskning är ju att vi faktiskt vill lära oss mer om fenomen som gäller större grupper (tex människor generellt, eller gymnasieelever i Sverige). Vid Statistik 2 ägnar ni mer tid åt detta (så begreppet utvecklas mer nedan).

24
Q

Percentiler & kvartiler

A

värde under vilket en viss andel av fördelningen ligger

25
Q

Pearsons produktmomentkorrelationskoefficient (r)

A

● Standardiserat mått på samvarians, på intervallet r = [-1, 1]

● Kom ihåg: z-värden för en variabel är alltid både positiva och negativa

● Om positiva värden multipliceras med positiva och negativa multipliceras med negativa blir r
positiv, om positiva värden multipliceras med negativa (och tvärtom) blir r negativ

26
Q

Parameter:

A

Parameter: Stickprovets värden kan fungera som estimat av populationsvärden, parametrar, som då är de sanna värdena (tex µ, σ). Dessa kan vi inte mäta upp, så vi estimerar dem.

27
Q

p-värde. 2 p
Skriv in ditt svar här

A
28
Q

Om p-värden

A

Om p-värden

P = Sannolikheten att du kommer att observera
samma effekt eller en mer extrem effekt, givet att
nollhypotesen är sann

P ≠ Sannolikheten att nollhypotesen är sann
P ≠ Sannolikheten att du skulle få ett signifikant
resultat vid 95% av framtida mätningar.

29
Q

Oberoende variansanalys – beroende variansanalys

A

Oberoende variansanalys – beroende variansanalys
Vid oberoende variansanalys har man olika individer i olika nivåer på den oberoende variabeln (dvs. en mellanindividsdesign). Vid beroende variansanalys har man antingen samma eller matcha- de individer i olika nivåer på den oberoende variabeln (en inom- individsdesign).

30
Q

Normalfördelningen (En modell)

A

● En teoretisk fördelning av data med
många användbara egenskaper

● Väldigt många typer av data är
(approximativt) normalfördelade (t.ex.
längd, reaktionshastighet etc.)

● Många statistiska test kräver
(approximativt) normalfördelad data

31
Q

Massignifikans. 2 p
Skriv in ditt svar här

A
32
Q

Mann-Whitney & Wilcoxon

A

Mann-Whitney & Wilcoxon

Används när data inte uppfyller de parametriska
kraven, till exempel vid en sned fördelning eller när
data är på ordinalskala.

Mann-Whitney används vid oberoende design och
Wilcoxon vid beroende design.

33
Q

Korrelation

A

● Ett mått på samvariation

● Kan vara positiv eller negativ

● Innebär inte kausalt samband

34
Q

Konfidensintervall (KI)

A

Konfidensintervall: För att ange den statistiska pricksäkerheten för ett estimat så kan vi ange konfidensintervall kring estimatet. Det vanliga är att intervallet anger 95 % konfidens (anges ibland som ±1,96 SE, se nedan om standardfel, SE). Intervallet anger vår statistiska osäkerhet (i andra sammanhang kan de kallas osäkerhetsintervall, eller felmarginal).
Vad säger konfidensintervallet? Svar: Om vi hade tagit ett oändligt antal stickprov av denna storlek och beräknat 95 % KI kring varje stickprovsmedelvärde, då hade 95 % (eller 19 av 20) av alla dessa konfidensintervall täckt populationsmedelvärdet µ. Vi tillåter oss att förenkla detta en aning, och vi kan då säga vi är 95 % säkra på att det sanna värdet ligger inom det 95 %-iga konfidensintervall som vi har beräknat utifrån våra stickprovsdata (mer om sannolikhet och konfidens nedan).

35
Q

Hypotesprövning:

A

Hypotesprövning: Vid Statistik 1 gör ni även hypotesprövning av korrelation, för att bedöma om ett samband är statistiskt signifikant. Då handlar det om inferentiell statistik, något som vi fördjupar oss mer i vid Statistik 2 (mer om hypotesprövning igen längre ner). Vad du gör vid Statistik 1 är att du beräknar korrelationen i stickprovet (ex. r = -0,11), och du hypotesprövar (signifikanstestar) för att bedöma sannolikheten att denna korrelation (eller en ännu starkare) uppstått givet att nollhypotesen är sann. På så sätt bedömer du om korrelationen är statistiskt signifikant.

36
Q

Förklarad varians:

A

Förklarad varians: Korrelationskoefficienten anger graden av samvariation mellan två variabler x och y (ex. r = -0,21). Den kvadrerade korrelationskoefficienten, determinationskoefficienten (ex. r2 = 0, 044 eller 4,4 % delad varians) anger på motsvarande sätt samvariationen mellan variablerna, som andelen förklarad varians. Den anger hur stor andel av variationen på x som kan förklaras av variationen på y (och tvärtom). Det viktiga, och luriga, här är att ”förklaras av” inte alls handlar om kausalitet, utan ska förstås som ”fångas av”, eller ”delas av”.
Både r och r2 anger alltså samvariation, inte orsakssamband. Förklarad varians kan helt enkelt förstås som ”delad varians”. Tex. om sambandet mellan extraversion och skostorlek är r = -0,21, så kan 4,4 % av variansen i extraversion förklaras av variansen i skostorlek, de har 4,4 % delad varians. (Vi arbetar inte så mycket med detta inom denna kurs. Determinationskoefficienten, R2, återkommer inom senare metodkurser, i samband med multipel regressionsanalys. Den som är nyfiken och vill förstå detta lite bättre, har bra beskrivningar tex i inledningen av bokens kapitel om multipel regressionsanalys.)

37
Q

Förklara kortfattat (ca. en mening) vad som definierar ett extremvärde (outlier). 1 p
Skriv in ditt svar här

A

Extremvärde: Eng. outlier. Den exakta definitionen av extremvärde kan variera (och om man har extremvärden i sin studie så anger man hur man valt att definiera extremvärde). Det som är viktigt att förstå, är att ett extremvärde inte är ett värde som ligger i utkanten av en fördelning. Extremvärden är värden som ”verkar fel”, det vill säga värdet avviker så mycket från övriga värden att det tycks tillhöra en annan fördelning, eller tyder på en felinmatning eller liknande. Extremvärden behöver identifieras och hanteras, på ett eller annat sätt, vilket du kan läsa mer om i boken (till Statistik 3).

38
Q

Estimat

A

Estimat: Deskriptiv statistik beskriver stickprovets värden (de värden som vi har mätt upp, tex m, sd). När ett stickprovsvärde används för att estimera, skatta, motsvarande parameter, så kallas det för ett estimat.

39
Q

När man använder Cohen för att avgöra en styrka vid korrelation mellan vilka siffror kan man avgöra korrealtionens styrka? Från svag till stark…

A

Enligt Cohen:

r = 0.1 – svag korrelation
r = 0.3 – medelstark korrelation
r = 0.5 – stark korrelation

40
Q

Chi2-test

A

Chi2-test används när all data är på nominalskala, det vill säga i kategorier.
Vi jämför vårt observerade utfall med det utfall som skulle bli om all data var jämnt fördelat över
kategorierna.

41
Q
  1. Understandingthat variabilityis natural, and that “normal” is not the same as “average.”
A

When testing we can reach a standard within a sample population. It does not mean that this particular sample reflect the average of a larger population. Ex Height.

42
Q
  1. Common sources of things that can taint a survey & experiments
A

-Poor wording of questions,
-Volunteer response
- Socially desirable answers.