Fråga 6 - Histogram respektive QQ-plot Flashcards
Hur skapas ett histogram?
Histogram är en sorts stapeldiagram som visar hur många datapunkter det finns för varje egenskapsintervall. Histogrammet är ett sätt att ge överblick över hur en åtminstone ganska stor grupp objekt fördelar sig på de förekommande värdena i en viss dimension, till exempel en mätning som har utförts på alla objekten.
Histogram kan användas för att jämföra fördelningar genom till exempel funktionen histfit som kan plotta ut formen för en N(0,1) fördelning.
Ett histogram delar de variabla värdena i lika stora intervaller för att vi sedan ska se antalet datapunkter i varje intervall.
Hur skapas en QQ-plot?
En Q-Q plot är en grafisk metod för att jämföra två sannolikhetsfördelningar. Ofta består ett av dataseten av samplad data medan det andra utgör en standardfördelning. Genom att plotta kvantil mot kvantil fås en uppfattning om huruvida det samplade datat är en standardfördelning och om det överensstämmer med den jämförda fördelningen.
Det vi gjorde för jämförelse med en normalfödelad variabel Fx = N:
{◼ Sortera historiska avkastningar så att y1≤ y2 ≤ … ≤ yn
◼ Då kommerF−1(i/n)= y för i = 1, …, n
Yi
◼ MenN−1(n/n)= N−1(1)=för en normalfördelad variabel
◼ Därför plottas ofta(N −1((i − 0,5)/ n), y )(t.ex. Matlab) i
◼ Om en Q-Q plot approximativt är en rät linje är FY(x) en bra fördelningsfunktion för y}
Hur kan vi använda QQ-plots för att studera en fördelnings egenskaper?
En Q-Q-plot är en spridningsdiagram som skapas genom att plotta två uppsättningar kvantiler mot varandra. Om båda uppsättningarna kvantiler kom från samma fördelning, borde vi se punkterna som bildar en linje som är ungefär rak.
Q-Q-plots: Bra metod för att visualisera en slumpvariabels
egenskaper. Om en Q-Q plot approximativt är en rät linje är F(x) en bra fördelningsfunktion för y.
Det vi gjorde i Inlämning 1 var att sortera alla avkastningar i storleksordning stigande. Vi kunde således se på eventuella svansar vad y har för egenskaper (?).
Hur kan vi använda histogram för att studera en fördelnings egenskaper?
I och med att vi kan skapa histogram för kända fördelningsfunktioner kan vi på så vis jämföra histogram för vårt data och jämföra vårt data med förväntad fördelning. Histogrammet visar hur data fördelas och mängd för varje intervall. (På så vis kan vi med histogram se en tydligare trend för var datapunkter ligger, till skillnad från med QQ plots där vi snarare ser tydligare var vi har outliers…)