Kap 3 Flashcards
Vilka är de två olika varianterna av variabler?
Deterministisk variabel: har ett bestämt värde.
Stokastisk variabel: kan tillta flera värden, slumpvis.
Vad innebär centralmått och förklara de tre olika typerna?
Centralmått gör en stor mängd data överskådlig med en enda siffra.
Det aritmetiska medelvärdet
-är det mest använda centralmåttet, dess svaghet är dock att det lätt blir påverkat av outliers, extrema stora eller små värden i ett dataset. Se sida 3 i sammanfattningen för att se hur det beräknas.
Medianen
- är det mittersta värdet i ett dataset, vi arrangerar datan i kronologisk ordning och tar det mittersta värdet. Är det två värden som är i mitten plussar man de två och delar i två. Medianen är bäst att använda då det finns outliers.
Typvärde/Modal
-är det mest frekvent återkommande värdet i ett dataset. ex. 2,1,4,6,3,1,2
Modal: 1 och 2
Två viktiga begrepp som kan kopplas till medianen är Percentiler och Box plots, vad innebär dessa?
Percentiler:
Medianen som tidigare nämnts delar upp datan i två delar med 50% i varje del. Den kan även kallas den femtionde percentilen. I många fall är man intresserad av percentiler utöver den mittersta, vanliga percentiler är 25 och 75.
(Se hur man räknar på s 3 i sammanfattningen.)
Box plots
När vi har räknat ut percentiler kan vi konstruera en box plot. Den är bra för att jämföra olika dataset och är effektivt för att detektera outliers.
Outliers är observationer som spridda så långt ut i extremen att de blir irrelevanta.
Vad är Geometriska medelvärdet (geometric mean return) och för vad används det?
Är ett multiplikativt medelvärde och är relevant att använda när man utvärderar avkastning ex. genom ränta på ränta effekten.
Gr- R: utgör den % årliga avkastningen.
Vad innebär Spridningsmått och vad innebär Range?
Förutom att hitta centralmått är det viktigt att analysera hur datan varierar runt medelvärdet.
Range är det enklaste spridningsmåttet som mäter skillnaden mellan det största och minsta värdet i ett dataset.
Range: Maximum värdet - minimi värdet
Vad innebär absolut spridningsmått, MAD?
Ett bra spridningsmått ska innefatta skillnader mellan alla observationer och inte bara extremvärden som range. MADen är ett medelvärde av de absoluta skillnaderna mellan observationerna och medelvärdet.
(se sida 4 i sammanfattningen för uträkningsexempel)
Vad innebär Varians och standardavvikelse?
Används ofta för statistisk inferens, när man vill uttala sig om populationen utefter stickprov. Är de mest använda spridningsmåtten. Tillskillnad från MADen som väger stora och små avvikelser lika, ger variansen större avvikelser, större vikt.
(se sida 5 i sammanfattningen för uträkningsexempel)
Vad används Variationskoefficienten till (The coefficient of variation)?
-används för att jämföra två eller flera dataset som har olika medelvärden eller olika typer av mått. Exempelvis från sampeldatasätter eller Populations datasetet.
(se sida 5 i sammanfattningen för uträkningsexempel)
Vad innebär Mean variance analysis och Sharpe ratio?
Mean variance analysis
- används för att utvärdera avkastning i termer av dess medelvärde och dess varians (risk). Investeringar med högre avkastning ger oftast högre risk.
Sharpe ratio
-Uttrycker hur väl avkastningen kompenserar för risken för ex. investeringen i en aktie. Välj alltid den som ger högst värde.
Pop.medelvärdet står för förväntade avkastningen
och pop.sigma för tillgångens risk.
Det beräknas xbar-Rbar/s
Rbar: Är den genomsnittliga avkastningen för en riskfri investering (En investering utan varians).
Vad innebär Chebyshev’s Theorem?
Chebyshev’s theorem används för att fastställa proportionen av observationer som faller inom ett viss intervall ex. 2 s mer och 2s mindre än medelvärdet.
K= är antalet standaravvikelser åt man adderar och subbtraherar med.
Formeln är 1-1/k^2 (upphöjt i 2)
Fördelen är att man kan använda denna beräkning även om datasettet inte är normalfördelat.
Vad innebär den empiriska regeln?
Kan tillämpas om datan är symmetrisk och klockformad och illustrerar det andelen observationer som faller inom 1,2, och 3 standardavvikelser från medelvärdet.
Ungefärligt 68% av alla observationer faller inom intervallet x±s
Ungefärligt 95% av alla observationer faller inom intervallet x±2s
Ungefärligt 100% (99,7%) av alla observationer faller inom intervallet x±3s.
Vad innebär grupperad data?
När man räknar spridningsmått på grupperad data måste man modifiera formlerna.
Många gånger är grupperad data distribuerad i form av relativ frekvensfördelning snarare än endast frekvensfördelning. Medelvärdet av grupperad data kan beskrivas som ”weighted mean” varpå den relativa frekvensen är som en vikt av mittpunkten.
(se sida 6 i sammanfattningen för uträkningsexempel)
Vad innebär Kovarians och korrelation?
Kovarians
Används för att mäta relationen mellan två variabler, x och y. Samma sak som med scatterplot fast här gör man det numeriskt.
Ett objektivt numeriskt mått som visar riktningen på den linjära relationen mellan två variabler kallas kovarians. Den linjära relationen kan vara positiv (om x är över medelvärdet tenderar y att också vara det) och negativ (om x är över medelvärdet tenderar y att inte vara det). Om kovariansen är 0 finns ingen relation. Svagheten är att man inte kan mäta styrkan av relationen.
Korrelationskoefficienten
-Ett lättare sätt att tolka relationen är med korrelationskoefficienten; den beskriver både styrkan och riktningen på den linjära relationen. Värdet av korrelationskoefficienten faller mellan -1 och 1. En perfekt positiv relation har värde 1, en perfekt negativ relation har värde - 1. Ett värde på -0,8 innebär en stark negativ relation medan ett värde på 0,12 innebär en svag positiv relation.
(se sida 6 i sammanfattningen för uträkningsexempel)
Hur konstruerar man en boxplot?
1.
- arrangera observationerna från minsta till största
- identifiera minsta värdet, 25 percentilen, 50 percentilen, 75 percentilen och det största värdet.
Beräkna en percentil som faller mellan två värden på följande sätt:
ex. Undre värdet+ %(övrevärdet -undrevärdet)
2. identifiera de olika värdena: minsta största och de tre percentilerna.
3. Rita upp diagramet.
4.Identifiera outliers:
Beräkna IQR: Q1-Q3
-dra ett streck från Q1 och ett från Q3 som är IQRx 1.5 långt. Alla värden som hamnar utanför dessa är outliers. och betecknas med en asteriks.
Varför använder man z-värde?
Det gör man för att standardizera värden så att de går att jämföra med varandra.
Ex En person som har fått 50 poäng på två tentor. Då de olika tentorna kan ha olika medelvärde och standard avvikelser så så behöver man göra om det till ett z-värde för att kunna jämföra.
Vad betyder då ett Z värde ex 1.5?
Det betydet att det givna stickporvsävrdet är 1.5 standaravvikelser över medelvärdet.