Statistiek Flashcards
Cirkeldiagram
Cirkeldiagram
Stap 1. aantal realisaties tellen, bv. 56 mannen 30 vrouwen. = ABSOLUTE FREQUENTIE
X = variabele, realisatie = x1, x2, x3
Absolute frequentieverdeling: tabel met 1 variabele met 1 of 2 kolommen.
Stap 2. Relatieve frequentie berekenen delen door n
Stap 3: visualiseren van relatieve frequenties
Van absolute naar relatieve frequentie
Delen van realisatie door N
Van relatieve frequenties naar procenten = $variabele/90 * 100 = PROCENTEN.
Staafidagram
x = nominale variabel y = relatieve of absolute frequentie
Histogram
Leeftijd 1.
21, 20, … (90 verschillende leeftijd)
Stap 2. Groeperen ofwel klasseren
]a, b] alle leeftijden zijn groter dan a maar kleinder dan b
KLASSENBREEDTE: b - a
n = 90
Klassen FQ klassenbreedte = 5
]15, 20] 22
Stap 3. Keuze ABSOLUTE OF Relatieve frequentie = delen door n
Dus bv. 22/90 = 0.24
Stap 4. Waarden aflezen van een histogram = oppervlakte
(oppervlakte = basis = klassenbreedte = 5) KEER DE HOOGTE 0.048 =
Oppervlaktes stellen absolute frequenties VOOR.
basis =
Verschillen Histogram / staafdiagram
Gelijke KLASSENBREEDTES = dan maakt relatieve of absolute fq niks uit.
NIET GELIJKE KLASSENBREEDTES
Histogram raken de hoeken elkaar.
Staafdiagram vooral bij aantal waarden beperkt is = NOMINAAL, ORDINAAL.
Histogram = meerdere waarden, = INTERVAL OF RATIO.
NIET GELIJKE KLASSENBREEDTE = Lengte x KLASSENbreedte = OPPERVLAKTE.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Histogram verdeling,
Scheef rechts en scheef links & Symmetrisch
Stappen 1.
Klassenbreedtes = gelijk = 4 mogelijke histogrammen.
- Relatieve frequenties = ke
Hoogte = gelijk aan ABSOLUTE frequenties of dfan wel de oppervlakte
Oppervlakte -= gelijk aan rELATIEVE Frequenties dan wel de oppervlakte
SCHEEF NAAR RECHTS:
Bestaat uit jongeren (bulk aan de linker kant)
Bestaat uit ouderen (minder massa aan de rechter kant)
Meesta massa ligt links en UITLOPER NAAR RECHTS
Scheef naar Links
Meeste massa ligt RECHTS (bestaat uit ouderen bulk aan de RECHTER KANT)
En we hebben een uitloper naar links.
SYMMETRISCH
Cumulatieve FrequentieCURVE
F(x) = ?
Leeftijd Absolute FQ Cumulatieve ABSOLUTE FQ
18 1 1
19 8 9
CUMULATIEVE ABSOLUTE FQ = OPTELLING DIE X ZIJN OF JONGER.
het symbool: F(x)
Het is kleinder
F ( 16) = 1
Compact om te zeggen dat er 1 persoon is dat 16 jaar is of JONGER.
Centrummaten of locatiematen
zegt iets of de locatie v/d verdeling
Gemiddelde = alle aantallen optellen door N / mean$variabele,… ligt vaak i’/h CENTRUM v/d VERDELING, HISTOGRAM = MEESTE OPPERVLAKTE = GEMIDDELDE.
Scheef naar rechts: meeste massa links = gemiddelde eerder links.
Scheef naar links: meeste massa rechts = gemiddelde eerder rechts
Symmetrisch = hoogste oppervlakte
Het gemiddelde berekenen obv een FQ verdeling
DE ABSOLUTE FREQUENTIE HORENDE BIJ DE UNIEKE WAARDE = kleine griekse F
ABSOLUTE FQ unieke waarde MAAL de FREQUENTIES = gemiddelde
bv.
16 jaar x 18 + 17 jaar x 24 / n = 41 = gemiddelde.
Mediaan =
1. SORTEREN VAN KLEIN NAAR GROOT, de waarden sorteren. in het geval van 16 jaar = 18.
Middelste persoon = niet de MEDIAAN
MAAR DE LEEFTIJD dus DE LEEFTIJD.
Modus:
Is de klasse of waarde met de hoogste Frequentie
Spreidingsmaten
Hoeveel varieert de variabele i.d steekproef.
VARIATIEBREEDTE: De GROOTSTE minus de KLEINSTEbinnen 1 waarde.
GEMIDDELDE ABSOLUTE STANDAARD AFWIJKING:
(x1 - x|)+ (x2 - x|) (x3,… - x}) daar de som van gedeeld door N
= dus AFHANKELIJK van de grootte N
VARIANTIE:
STEEKPROEFVARIANTIE
sn2x: (x1- x})2+ /(x2 - x})2 ,-
VARIANTIE:
s2x = 1 / n-1
STANDAARDDEVIATIE:
sn = De vierkantswortel daarvan.
sX = stdev
Interkwartielafstand:
F(x)/ 100
P75 - P25 = SYMBOOL Q
P25 = 1e kwartiel P75 = 3e kwartiel
Interkwartielinterval
[p25, p75]
in R
QUANTILE = KWARTIELEN IN R.
Spreidingmaat D
= spreidingsmaat bij nominale variabelen
1- Frequentie v/d modus/n
1 - 1 / aantal
Boxplot
BEPALEN VAN OUTLIERS
P25 - 1.5 x G - alles wat KLEINER IS dan de uitkomst = een outlier
p75 + 1.5 x G - alles wat GROTER IS dan de uitkomst = een outlier
OUTLIERS visueel tekenen op een BOXPLOT
Grootste waarde geen outlier - horizontale
Kleinste waarde geen outlier - horizontale
Box = p25 en p75 Mediaan = i/h midden
Bivariate frequentieverdeling
Univariate verdeling °
Bivariate > univariate meer informatie
Altijd univariate afleiden uit bivariaat
Door getallen op te tellen
800 950 1000 IQ HOOG 9 + 9 + 2 = 20 Gemiddeld 7 6 7 = 2- 16
Spreidingsdiagram
Is er samenhang?
Perfect lineaire samenhang - rechte lijn omhoog - positieve samenhang /
Perfect lineaire samenhang - rechte lijn omlaag - negatieve samenhang \
Geen samenhang - verspreid
Samenhang
Covariantie
CorrelatieCoefficient
Kendall’s tau
lineair vs niet-lineair
monotoon vs niet monotone
1 / n-1 (x - x|)(yi- y|)+ som,….
COVXU = 0 bij positieve samenhang COVxy = < 0 bij negatieve samenhang COVXY = ~ 0 = geen samenhang
Rxy = COVXY/Sx * SY
Als COVXY positief = rxy = positief
Als COVXY negatief = rxy = negatief
Cor
r = 1 perfect
r = -1 pefect negatieve samenhang
r = 0
Kendall’s Tau - visualiseren.
yi - y| / xi - x|
formule
Lineaire door een rechte kan positief en
Interval = Correlatie ipv kendall’s
Monotoon en niet LINEAIR VERBAND = lineaire maar aparte stijging (exponentieel)
Niet monotone lineair verband = swinging.
Boxplot
regressielijn
Correlatiecoefficient VISUALISEREN spreidingsrdiagram dmv een REGRESSIELIJN
FORMULE indien het lineair verband NIET PERFECT is.
Y = b0 + b1X
b1 = Rxy * Sy / Sx b0 = yi - b1 * x|
FORMULE INDIEN HET LINEAIR VERBAND PERFECT IS
b1 = Yj - ti \ xj - xi
b0 = yi - b1 * x1