Statistik 3, HT-22 Flashcards
● Population
teoretiskt begrepp, det vi är intresserade av (t.ex. alla läkare i Sverige)
● Parameter
– värde som beskriver populationen
● Estimat
värde som vi mätt eller beräknat från stickprovet
Z-Värde
● Ett sätt att skriva om (transformera) data så att varje värde beskriver hur
många standardavvikelser det är från medelvärdet
● Ändrar bara enheten på data, inte värdena (jmfr. att skriva om miles till km)
● z-värden innebär en standardisering av data, så att man enklare kan
jämföra variabler med varandra
Variationsbredd
skillnaden mellan det högsta och lägsta värdet
Variansanalys ANOVA
Variansanalys är en statistisk metod som används för att ta reda på om stickprovsmedelvärden skiljer sig signifikant från varandra. Man är dock inte, som vid t-test, begränsad till endast två stick- provsmedelvärden utan kan ha hur många grupper (nivåer på den oberoende variabeln) som helst.
Varians & Standardavvikelse
värde under vilket en viss andel av fördelningen ligger
Utts 2. The difference between statistical signi cance and practi-cal importance, especially when using large sample sizes.
Utts 3.
The difference between finding “no effect” or “no differ-
ence” and finding no statistically signicant effect or difference,
especially when using small sample sizes.
Utts
- When it can be concludedthat a relationshipis one of cause
and effect, and when it cannot, including the difference between
randomized experiments and observationalstudies.
Resisting the temptation to make a causal conclusion is par-
ticularly dif cult when a causal conclusion is logical, or when
one can think of reasons for how the cause and effect mecha-
nism may work. Therefore, when illustrating this concept for
students, it is important to give many examples and to discuss
how confounding variables may account for the relationship.
Fortunately, examples are easy to nd. Most major newspapers
and Internet newssitesreport observationalstudiesseveral times
a week, and they often make a possibly erroneous causal con-
clusion.
T-test oberoende
T-test Beroende
● Stickprov
Praktiskt begrepp, de värden vi har mätt (t.ex. alla läkare i vår undersökning)
Statistisk power. 2 p
Skriv in ditt svar här
Statistik 1
Vid Statistik 1 ligger fokus på deskriptiv statistik, och vi går in mer på hypotesprövning och inferentiell atistik vid Statistik 2.st
Stickprov:
Stickprovet är ett antal observationer, mätvärden på en variabel (ex. 10 personers reaktionstid när de har druckit en kopp kaffe)
Standarvvikelse
● Roten ur summan av kvadraten av alla observationers avvikelse från
medelvärdet delat med antalet datapunkter minus ett
Spridningmått
innebär olika mått på hur data är fördelad
Spearmans rangkorelationskoefficient (rs)
● Baserad på observationers rangordning istället för deras z-värden
● Används t.ex. när data är på ordinalskala, när data inte är normalfördelad
eller när det förekommer extremvärden
● Kan också användas för monotona icke-linjära samband
Samplingsfördelning.
Sampelvariation:
Statistik 2 och 3
Vid Statistik 2 går vi igenom grunder för statistisk hypotesprövning och inferentiell statistik, och vi återkommer också till en del av dessa resonemang och principer vid Statistik 3
Sampelvariation: (Eng. sampling error. Detta begrepp används inte i litteraturen, men är användbart för att förstå en viktig aspekt av den inferentiella statistiken här.) Det handlar om att slumpmässigt dragna stickprov varierar slumpmässigt. Det är en källa till statistisk osäkerhet som vi kan beräkna, och ange tex som ett 95 % konfidensintervall när vi vill använda m för att estimera µ. Sampelvariationen påverkas av två saker: 1. den sanna variationen i populationen, och 2. storleken på stickprovet (ex. blir vi mer säkra i våra bedömningar av det sanna medelvärdet om 1. människors reaktionstid generellt inte varierar så mycket, och/eller 2. om vi många observationer i vårt stickprov).
Regressionskoefficient. 2 p
Skriv in ditt svar här
Regression
● Används för att förutsäga värdet av en variabel baserat på värdet av en
annan
● Innefattar en (eller flera) regressionskoefficient(er) och ett intercept
● Till skillnad från korrelation är det viktigt att skilja på vilken variabel som är
beroende och oberoende variabel
Population:
Population: Det är alla mätningar som vi är intresserade av i vår undersökning. Inom den inferentiella statistiken är populationen alla möjliga mätningar på en variabel som intresserar oss. Observera att populationen här alltså handlar om något oändligt, i stil med: om vi hade kunnat ta alla möjliga mätningar av det som intresserar oss (ex. alla möjliga mätningar av reaktionstid för människor som druckit en kopp kaffe). Det vanliga inom forskning är ju att vi faktiskt vill lära oss mer om fenomen som gäller större grupper (tex människor generellt, eller gymnasieelever i Sverige). Vid Statistik 2 ägnar ni mer tid åt detta (så begreppet utvecklas mer nedan).
Percentiler & kvartiler
värde under vilket en viss andel av fördelningen ligger
Pearsons produktmomentkorrelationskoefficient (r)
● Standardiserat mått på samvarians, på intervallet r = [-1, 1]
● Kom ihåg: z-värden för en variabel är alltid både positiva och negativa
● Om positiva värden multipliceras med positiva och negativa multipliceras med negativa blir r
positiv, om positiva värden multipliceras med negativa (och tvärtom) blir r negativ
Parameter:
Parameter: Stickprovets värden kan fungera som estimat av populationsvärden, parametrar, som då är de sanna värdena (tex µ, σ). Dessa kan vi inte mäta upp, så vi estimerar dem.
p-värde. 2 p
Skriv in ditt svar här
Om p-värden
Om p-värden
P = Sannolikheten att du kommer att observera
samma effekt eller en mer extrem effekt, givet att
nollhypotesen är sann
P ≠ Sannolikheten att nollhypotesen är sann
P ≠ Sannolikheten att du skulle få ett signifikant
resultat vid 95% av framtida mätningar.
Oberoende variansanalys – beroende variansanalys
Oberoende variansanalys – beroende variansanalys
Vid oberoende variansanalys har man olika individer i olika nivåer på den oberoende variabeln (dvs. en mellanindividsdesign). Vid beroende variansanalys har man antingen samma eller matcha- de individer i olika nivåer på den oberoende variabeln (en inom- individsdesign).
Normalfördelningen (En modell)
● En teoretisk fördelning av data med
många användbara egenskaper
● Väldigt många typer av data är
(approximativt) normalfördelade (t.ex.
längd, reaktionshastighet etc.)
● Många statistiska test kräver
(approximativt) normalfördelad data
Massignifikans. 2 p
Skriv in ditt svar här
Mann-Whitney & Wilcoxon
Mann-Whitney & Wilcoxon
Används när data inte uppfyller de parametriska
kraven, till exempel vid en sned fördelning eller när
data är på ordinalskala.
Mann-Whitney används vid oberoende design och
Wilcoxon vid beroende design.
Korrelation
● Ett mått på samvariation
● Kan vara positiv eller negativ
● Innebär inte kausalt samband
Konfidensintervall (KI)
Konfidensintervall: För att ange den statistiska pricksäkerheten för ett estimat så kan vi ange konfidensintervall kring estimatet. Det vanliga är att intervallet anger 95 % konfidens (anges ibland som ±1,96 SE, se nedan om standardfel, SE). Intervallet anger vår statistiska osäkerhet (i andra sammanhang kan de kallas osäkerhetsintervall, eller felmarginal).
Vad säger konfidensintervallet? Svar: Om vi hade tagit ett oändligt antal stickprov av denna storlek och beräknat 95 % KI kring varje stickprovsmedelvärde, då hade 95 % (eller 19 av 20) av alla dessa konfidensintervall täckt populationsmedelvärdet µ. Vi tillåter oss att förenkla detta en aning, och vi kan då säga vi är 95 % säkra på att det sanna värdet ligger inom det 95 %-iga konfidensintervall som vi har beräknat utifrån våra stickprovsdata (mer om sannolikhet och konfidens nedan).
Hypotesprövning:
Hypotesprövning: Vid Statistik 1 gör ni även hypotesprövning av korrelation, för att bedöma om ett samband är statistiskt signifikant. Då handlar det om inferentiell statistik, något som vi fördjupar oss mer i vid Statistik 2 (mer om hypotesprövning igen längre ner). Vad du gör vid Statistik 1 är att du beräknar korrelationen i stickprovet (ex. r = -0,11), och du hypotesprövar (signifikanstestar) för att bedöma sannolikheten att denna korrelation (eller en ännu starkare) uppstått givet att nollhypotesen är sann. På så sätt bedömer du om korrelationen är statistiskt signifikant.
Förklarad varians:
Förklarad varians: Korrelationskoefficienten anger graden av samvariation mellan två variabler x och y (ex. r = -0,21). Den kvadrerade korrelationskoefficienten, determinationskoefficienten (ex. r2 = 0, 044 eller 4,4 % delad varians) anger på motsvarande sätt samvariationen mellan variablerna, som andelen förklarad varians. Den anger hur stor andel av variationen på x som kan förklaras av variationen på y (och tvärtom). Det viktiga, och luriga, här är att ”förklaras av” inte alls handlar om kausalitet, utan ska förstås som ”fångas av”, eller ”delas av”.
Både r och r2 anger alltså samvariation, inte orsakssamband. Förklarad varians kan helt enkelt förstås som ”delad varians”. Tex. om sambandet mellan extraversion och skostorlek är r = -0,21, så kan 4,4 % av variansen i extraversion förklaras av variansen i skostorlek, de har 4,4 % delad varians. (Vi arbetar inte så mycket med detta inom denna kurs. Determinationskoefficienten, R2, återkommer inom senare metodkurser, i samband med multipel regressionsanalys. Den som är nyfiken och vill förstå detta lite bättre, har bra beskrivningar tex i inledningen av bokens kapitel om multipel regressionsanalys.)
Förklara kortfattat (ca. en mening) vad som definierar ett extremvärde (outlier). 1 p
Skriv in ditt svar här
Extremvärde: Eng. outlier. Den exakta definitionen av extremvärde kan variera (och om man har extremvärden i sin studie så anger man hur man valt att definiera extremvärde). Det som är viktigt att förstå, är att ett extremvärde inte är ett värde som ligger i utkanten av en fördelning. Extremvärden är värden som ”verkar fel”, det vill säga värdet avviker så mycket från övriga värden att det tycks tillhöra en annan fördelning, eller tyder på en felinmatning eller liknande. Extremvärden behöver identifieras och hanteras, på ett eller annat sätt, vilket du kan läsa mer om i boken (till Statistik 3).
Estimat
Estimat: Deskriptiv statistik beskriver stickprovets värden (de värden som vi har mätt upp, tex m, sd). När ett stickprovsvärde används för att estimera, skatta, motsvarande parameter, så kallas det för ett estimat.
När man använder Cohen för att avgöra en styrka vid korrelation mellan vilka siffror kan man avgöra korrealtionens styrka? Från svag till stark…
Enligt Cohen:
r = 0.1 – svag korrelation
r = 0.3 – medelstark korrelation
r = 0.5 – stark korrelation
Chi2-test
Chi2-test används när all data är på nominalskala, det vill säga i kategorier.
Vi jämför vårt observerade utfall med det utfall som skulle bli om all data var jämnt fördelat över
kategorierna.
- Understandingthat variabilityis natural, and that “normal” is not the same as “average.”
When testing we can reach a standard within a sample population. It does not mean that this particular sample reflect the average of a larger population. Ex Height.
- Common sources of things that can taint a survey & experiments
-Poor wording of questions,
-Volunteer response
- Socially desirable answers.