Tentfrågor Flashcards
T-test
hypotesprövning där man vill jämföra om skillnad föreligger mellan två normalfördelade populationer där man inte känner det exakta värdet på standardavvikelsen.
Ett t-test är ett sätt att pröva om medelvärdet skiljer sig mellan två grupper, men t-testet är inte lämpligt när man behöver jämföra många grupper.
Variansanalys
ANOVA testar hypotesen att alla medelvärden är lika.
- Eftersom vi då testar alla medelvärden på samma gång kan vi då göra det med 95 procents säkerhet – det blir bara ett test.
- En analysmetod för att undersöka samband, (förkortat ANOVA från engelskans Analysis of variance) är en grupp statistiska metoder för hypotesprövning och används för att undersöka skillnader i medelvärde mellan fler än två grupper.
Regressionsanalys
Regressionsanalys, regression, är en gren inom statistik där målet är att skapa en funktion som bäst passar observerade data. Vid enkel linjär regression utgår man från att en rät linje kan anpassas till data och regressionsekvationen är då
y=a+bx
där y (vertikal) är den beroende (den som påverkas) variabeln och x (horisontell) är den oberoende (den som påverkar). Interceptet med y-axeln a och lutningen b beräknas så att felet jämfört med observerade data blir så litet som möjligt. Felet kan beräknas med exempelvis minstakvadratmetoden eller maximum likelihood.
Linjär regression förutsätter att variablerna är på intervallskalenivå.
Syftet med regressionsanalyser är att undersöka sambandet mellan olika variabler - t.ex. inkomst och remitteringar. Man kan inte utifrån en sådan analys veta om det är ett kausaltsamband d.v.s. om den ena av variablerna (och i så fall vilken) påverkar den andra, men man kan se om det finns ett samband eller ej.
Vid regressionsanalys kan determinationskoefficienten räknas fram genom att kvadrera korrelationskoefficienten (r)
Förklaringsgrad R2
I ”Model Summary” får vi ett mått på den oberoende variablens förklaringskraft, det vill säga hur väl variationen i den oberoende variabeln förklarar variationen i den beroende variabeln.
Determinationskoefficienten (=r2=r^2=R2) är en koefficient som anger hur stor del av variationerna i den beroende variabeln (y) som kan förklaras av variationer i den oberoende variabeln (x) under förutsättning att sambandet mellan x och y är linjärt.
Modellens F-värde
F= explained variance / unexpected variance
or
F= between-group variability / in-group variability
Svaret får vi i tabellen ”ANOVA”. Det SPSS gör är att räkna ut ett så kallat F-värde. Grundprincipen är att den jämför variationen inom grupperna med variationen mellan grupperna. Ju större variationen mellan grupperna är, och ju mindre variationen inom grupperna är, desto större blir F. SPSS jämför sedan F-värdet med ett kritiskt värde, som beror på hur många personer som ingår i analysen. Om F-värdet är större än det kritiska värdet drar vi slutsatsen att det finns signifikanta skillnader mellan minst två av grupperna. Signifikansvärdet utläser vi längst till höger i tabellen, inringat i bild 2. Om värdet är under ,050 är resultatet signifikant med 95 procent säkerhet. I det här fallet blev signifikansvärdet ,012. Vi kan alltså med 95 procents säkerhet säga att åtminstone två av medelvärdena skiljer sig åt på ett sätt som inte beror på slumpen.
Om variansanalysen visar på ett icke-signifikant resultat, är det meningslöst att gå vidare och undersöka skillnader mellan enskilda grupper – alla grupperna kan sägas ha samma medelvärde. Men i det här fallet ser vi nu att det finns signifikanta skillnader, och det är då givetvis intressant att se vilka grupper som skiljer sig åt. För att göra det behöver vi göra ett så kallat post hoc-test.
An F-test is any statistical test in which the test statistic has an F-distribution under the null hypothesis. It is most often used when comparing statistical models that have been fitted to a data set, in order to identify the model that best fits the population from which the data were sampled. Exact F-tests mainly arise when the models have been fitted to the data using least squares.
TVi kan alltså med 95 procents säkerhet säga att åtminstone två av medelvärdena skiljer sig åt på ett sätt som inte beror på slumpen.)
Modellens β- skattningar
Non-standard
Hur mycket den oberoende variablen påverkar den beroende. I SPSS beteckans detta ofta så att man först räknar ut ett intercept varpå man kollar hur mycket varje steg i den oberoende påverkar den beroende variablen. Detta brukar i SPSS även standardiseras så att totala variansen blir 1.
Standardized
med hur stor procent den oberoende variabeln påverkar den beroende, t.ex. 0,5 -> påverkar med 50%
In statistics, standardized coefficients or beta coefficients are the estimates resulting from an analysis carried out on independent variables that have been standardized so that their variances are 1. Therefore, standardized coefficients refer to how many standard deviations a dependent variable will change, per standard deviation increase in the predictor variable. Standardization of the coefficient is usually done to answer the question of which of the independent variables have a greater effect on the dependent variable in a multiple regression analysis, when the variables are measured in different units of measurement (for example, incomemeasured in dollars and family size measured in number of individuals).
Dummy variabel
Är en variabel som antar värdet 0 eller 1 såsom t.ex kön (man =0 kvinna=1)
In statistics and econometrics, particularly in regression analysis, a dummy variable is one that takes the value 0 or 1 to indicate the absence or presence of some categorical effect that may be expected to shift the outcome.
Dummy variables are used as devices to sort data into mutually exclusive (ömsesidit uteslutande) categories (such as male/female, smoker/non-smoker, etc.).
Determinationskoefficienten R2
Är en koefficient som anger hur stor del av variationerna i den beroende variabeln (y) som kan förklaras av variationer i den oberoende variabeln (x) under förutsättning att sambandet mellan x och y är linjärt. Determinationskoefficienten kallas ofta förklaringsgrad. Vid enkel linjär regression kan den även räknas fram genom att kvadrera korrelationskoefficienten (r).
Intercept
→ I formeln är y en variabel (exempelvis kroppslängd) och x är en annan variabel (exempelvis ålder). a och b är konstanter, d.v.s. fasta tal. Värdena på a och b bestämmer hur linjen ser ut.
Konstanten a brukar kallas för intercept och b för regressionskoefficient. (y = a + bx)
a y-intercept is a point where the graph of a function or relation intersects with the y-axis of the coordinate system. It also acts as a reference point for slopes and some graphs.[1] As such, these points satisfy x=0
Linjärt samband
Ett svårdefinierat begrepp som enklast kan åskådliggöras med hjälp av diagram.
Ex: Vart och ett av de två punktdiagrammen nedan beskriver sambandet mellan två variabler, x och y. Av diagrammen visar det vänstra ett tydligt linjärt samband. Det högra visar ett mycket tydligt samband som inte är linjärt. Sådana samband kallas ibland för krökta.
diagram vänster: /
diagram höger: U
Vardagligt skulle man kanske kunna säga att ett samband är linjärt om det statistiska materialet, avbildat som ett punktdiagram, väl ansluter sig till en (tänkt) symmetriaxel (ett slags linje). Så är det till vänster ovan, men inte till höger.
Regressionsanalys
(Regressionsanalys) Vi kan utifrån ett spridningsdiagram där vi ser ett linjärt samband (antingen positivt eller negativt) beskriva sambandet med en linjär modell eller med andra ord beskriva sambandet som en linjär ekvation på formen.
Positivism
Benämning på olika filosofiska riktningar som strävat efter att grunda tänkandet på “fakta”, det vill säga kunskap som baseras på sinneserfarenhet.
Genom empiriska studier försöker forskaren hitta egenskaper hos studieobjektet som återkommer också i andra fall och situationer. När man kartlagt ett tings regelbundenheter ger detta möjlighet att förutsäga, och ingripa i, ett skeende. Det som kan förutsägas (till exempel att jorden kommer att snurra ett varv runt solen under nästa år) är det som kan betraktas som kunskap. Det som inte kan vägas eller mätas betraktas som mindre intressant och man tenderar att se verkligheten som linjär.
Deduktiv ansats
Utgår från en teori för att formulera en empirisk hypotes.
Deduktion är i formella logiska system, som satslogik och predikatlogik, identiskt med härledning av slutsatser från givna premisser. Deduktion är här ett syntaktiskt begrepp, vilket betyder att det är möjligt att med slutledningsreglerna kontrollera följdriktigheten av deduktionen. Man behöver således inte känna till meningen av, utan endast relationer mellan, de ord som uppträder i premisser och slutsats.
Ett formellt deduktivt system består av ett antal axiom och minst en slutledningsregel. Metafysiska och kunskapsteoretiska resonemang har ofta en deduktiv karaktär. Argumentationen bygger vanligen på premisser, som antas vara självklara och slutledningsregler vilka oftast inte redovisas.
Centroid
Medelvärdet för diskrimantens z-värden för alla objekt inom en viss kategori eller grupp. Ex. en två grupps diskriminantanalys har två centroider, en för föremålen i vardera av de två grupperna.
In geometry, the centroid, geometric center, or barycenter of a plane figure or two-dimensional shape X is the intersection of all straight lines that divide X into two parts of equal moment about the line. Informally, it is the “average” (arithmetic mean) of all points of X. The definition extends to any object X in n-dimensional space: its centroid is the intersection of all hyperplanes that divide X into two parts of equal moment.
cut-off-värde
In many cases, only one side of the range is usually of interest, such as with markers of pathology including cancer antigen 19-9, where it is generally without any clinical significance to have a value below what is usual in the population.
Therefore, such targets are often given with only one limit of the reference range given, and, strictly, such values are rather cut-off values or threshold values. They may represent both standard ranges and optimal health ranges. Also, they may represent an appropriate value to distinguish healthy person from a specific disease, although this gives additional variability by different diseases being distinguished. For example, for NT-proBNP, a lower cut-off value is used in distinguishing healthy babies from those with acyanotic heart disease, compared to the cut-off value used in distinguishing healthy babies from those with congenital nonspherocytic anemia.
kvot-skala
Utgör den högsta datanivån. Om variabeln antar en absolut noll-punkt där egenskapen upphör har vi en kvotskala variabel (Ålder) exempel: Lön startar med noll, ålder, längd kvotskala, en skala i vilken avstånden mellan skalstrecken är lika stora genom hela skalan och vilken dessutom innehåller en absolut nollpunkt. Kelvinskalan för temperatur är ett exempel på kvotskalor.
variabel
Är något som kan ändras. Inom matematiken och datavetenskapen betecknar den ett namngivet objekt som används för att representera ett okänt värde, till exempel ett reellt tal. Variabler används i öppna utsagor. De kan anses stå i motsats till konstanter som är oföränderliga, liksom till parametrar som hålls konstanta under en given process eller beräkning.
Kommunalitet
Den totala variansen som en variabel delar med alla andra variabler som ingår i en analys.
Faktor
Linjär kombination (variatvärde) av originalvariablerna. Faktorerna representerar de underliggande dimensionerna som summerar eller beräknar för den ursprungliga uppsättningen av observerade variabler.
Korrelation
Ett begrepp inom statistik som anger styrkan och riktningen av ett samband mellan två variabler. Det kallas även korrelationskoefficient, eller bivariat analys.
Korrelationen uttrycks som ett värde mellan 1 och -1, där 0 anger inget samband, 1 anger maximalt positivt samband och -1 anger maximalt negativt samband.
För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man - eller annorlunda uttryckt, ju lyckligare man är, desto rikare är man. En stark negativ korrelation, som -0,9, betyder i stället att ju rikare man är, desto mindre lycklig är man. En korrelation på eller nära 0 betyder att det inte finns något linjärt samband mellan de två variablerna. Däremot är ett korrelationsvärde på eller nära 0 möjligt att få när det finns ett icke-linjärt samband. Ett exempel på detta vore om både höga och låga värden på rikedom hade samband med höga värden på lycka. Det innebär att även om samband och korrelation ibland används som synonymer, så är egentligen korrelation en specialsituation av samband.
Redogör för klusteranalys metoden
Klusteranalys är en multivariat metod, där man använder sig av flera variabler med olika fördelning, för att gruppera områden i olika kategorier.
Klusteranalys används generellt för att upptäcka dolda grupper av data där observationerna liknar varandra mer än vad de liknar observationer hos andra grupper.
I uppgifterna i tenterna betraktar vi två vanliga metoder för klusteranalys: K-means och hierarkisk klustring som finns tillgängliga i SPSS. K-means algoritmen skapar K grupper av n datavektorer så att skillnaderna mellan grupperna maximeras och skillnaderna inom grupperna minimeras.
**Faktorrotation **
Tabellen visar de så kallade faktorladdningarna – hur mycket olika variabler ”laddar” på olika faktorer. Ju högre laddning, desto mer förklaras variabeln av den bakomliggande faktorn.
Outlier
Kan även benämnas extremvärde. Är en observation som numeriskt särskiljer sig från andra observationer.
En outlier är en observation som är numeriskt långt från resten av uppgifterna. En avvikande observation, eller “avvikare”, är en som verkar avvika markant från andra sampel i provet. Ett exempel är om ett gäng ungar alla springer 100 meter på 10 sekunder medan en unge springer samma på 6 sekunder.
En faktors egenvärde
Ju högre egenvärde (aka eigenvalue) desto mer av variationen i datamaterialet förklarar faktorn. Det är alltså en “summering” av variationen som faktorn innehåller.