statistiek 1 deel 2 / populatie-kans Flashcards
Populatieschatting
Discreet
populatie
kansverdeling
Discreet: 0,1,2,3 - niet complex voor de STEEKPROEF overnemen
Verdelingsfunctie voor DISCREET:
Bv. Benton Visual Retention test: 10 opgaven!!!
11 MOGELIJKE waarden = kleine letter p!!!!!!!!!!!!!!!
0 goed, 1 goed, 2 goed 3 goed, 4 goed, 5 goed, 6 goed, 7 goed, 8 goed, 9 goed, 10.
POPULATIE = ONEINDIG VEEL ELEMENTEN GROOT
DE VARIABELE KAN EEN EINDIG ELEMENTEN AANNEMEN.
FORMELE NOTATIE: P(X = xi):
Dat is de KANS dat de variabele X de waarde xi aanneemt.
Kans is de relatieve frequentie van xi i/d populatie
fi: = ABSOLUTE FQ van xi
in een steekproef van ONEINDIG ELEMENTEN. = 0 lim,…
KANSVERDELING = I/D POPULATIE (relatieve frequentieverdeling = steekproef)
ZELFDE ALS I/D STEEKPROEF.
Cumulatieve verdelingsfunctie F(X)(x) = de kans dat waarde van variabele X kleiner is dan of gelijk is aan x.
Staafdiagram.
Continu: andere statistische technieken.
Verdelingsfunctie voor CONTINUE VARIABELEN
P (x = x) = ?
Dichtheidsfunctie
eigenschappen dichtheidsfunctie
P (X = x) = 0 : de kans dat een variabele een waarde aanneemt in een continu verdeelde waarde = 0.
Niet ALLE kanen zijn 0
P (X <_ x ) =/ 0 : kleiner of groter dan.
OPLETTEN!
P (X <_ x) of P (X < x) CONTINUE VARIABELEN MAAKT DAT NIET UIT WANT HET IS ALTIJD 0 bij CONTINU.
Groot verschil met DISCREET!
Dichtheidsfunctie P (X = x) = 0 kansen inkleuren oppervlakte f (x) x = kansdichtheid JE MOET DAARVOOR DE CUMALATIEVE VERDELINGSFUNCTIE kijken Het afleiden van functies. F ( x + b ) - F (x) / B
Niet wiskundige manier begrijpen
Visualisatie dichtheidsfunctie
Histogram tekenen = relatieve frequentie gelijk, kan die groepen aanpassen (klassenbreedte), oneindig veel.
Klassenbreedte van 0 = de dichtheidsfunctie lim b -> 0
Geidealiseerd HISTOGRAM - oneindig veel klassen
Wat is de Kans van een persoon om een IQ TUSSEN DE 90 EN 110 krijgen?
P ( 90 < X < 110 )
door te INTEGREREN
lange griekse fx(x) dx
HISTOGRAM Rechthoek OPPERVLAKTES ZIJN RELATIEVE FREQUENTIES = KANS OPPERVLAKTE TE BEREKENEN VAN DE STAAF 1 OPPERVLAKTE TE BEREKENEN VAN DE STAAF 2 HET OPTELLEN VAN DE STAFEN
Driehoek± lengte x breedte / 2
Hoe kom je dan aan die numerieke waarden?
Door P (x1 < X < x2)
bv. x1 90 en x2 110
door
F(X)(x2) - F(X)(x1) =
EIGENSCHAPPEN Dichtheidsfunctie
Kan nooit NEGATIEF ZIJN ( geen NEGATIEVE WAARDEN)
OPPERVLAKTE ONDER DE DICHTHEIDSFUNCTIE VAN UITERST LINKS TOT UITERST RECHTS MOET GELIJK ZIJN AAN 1
bv. 50 x 0.2 = 10 = geen dichtheidsfunctie
1 = totale oppervlakte
- visualiseren
2.
POPULATIE/
GEMIDDELDE discreet/continu
VARIANTIE
DISCRETE VARIABELEN: EENVOUDIGER
POPULATIEGEMIDDELDE/GEMIDDELDE MOET DAN DUIDELIJK ZIJN UIT CONTEXT OF STEEKPROEF.
E(X) OF Ux, mu = gemiddelde of VERWACHTINGSWAARDE
E(X) som (X= xi)xi !!!!!!!!!!!!!!!!!!1
(X = x)xi = de KANSVERDELING
formule van de STEEKPROEFGEMIDDELDE obv de FREQUENTIEVERDELING
1/n naar binnen brengen -> f / n
-> absolute frequentie / n
-> = relatieve frequentie
V (X) = POPULATIEVARIANTIE
o2x = POPULATIEVARIANTIE
o2 = POPULATIEVARIANTIE
Analogie met de variantie i/d steekproef -> sn2x
CONTINU
V(X) = nooit .
Het gemiddelde over alle elementen in een dichtheidsfunctie, ->
gelijkaardig dichtheidsfunctie/ frequentieverdeling maal xi
BIVARIATE kansverdelingen
COVARIANTIE
CORRELATIECOEFFICIENT rho
Gelijkaardig aan de KANSVERDELINGEN i/d STEEKPROEF
Discrete VARIABELEN
Score op 5 (0 tot 5
score Leeftijd Y X 0 10 11 1 0.003 0.0002 2 3 4
P (X = xi en Y = yi) = ?
P (X = 0 en Y = 10) = 0.03
MARGINALE VERDELINGEN
Hoeveel kinderen halen een 4 of 5 op de benton retention test
Toetsen of
- P (X = x1 en Y = y1) = GEMEENSCHAPPELIJK PROCENT = 0.003
- Univariate verdelingen afleiden xi en yi X1 = 0.003 + 0.0002 = x1 = 0.00302
- ONAFHANKELIJK indien P (X = xi) * (maal) P (Y = yi) = MOET GELIJKAARDIG ZIJN AAN STAP 1.
- ALS ELKE CEL GELIJKAARDIG = ONAFHANKELIJK.
BELANKGRIJK = C0VX
NUTTIGE STELLINGEN
Stelling 1
ALS X en Y ONAFHANKELIJK ZIJN = COVXY = 0
Stelling 2
E(a) = a = Iedereen heeft een inkomen van 2000 euro, oneindig grote groep met mensen die allemaal 2000 euro verdienen. Dus het gemiddelde inkomen = gelijk aan de constante als het inkomen gelijk is.
Stelling 3
Voor een variabele Y = X + a:
Geldt dat het populatiegemiddelde van Y = X + een constante
vb Iedereen in populatie krijgt opslag (a) 50
X = oorspronkelijk loon 100
Y = loon na opslag 150
Stelling 4 Voor een variabele Y = aX geldt dat: E(Y) = aE (X) waarbij a een constante is vb omrekenen Euro naar Dollar
a = 1.13 X = inkomen in euro Y = Inkomen in dollar
Stelling 5
E (X + Y) = ( E)X som (E)Y
E (X - Y) = (E)x - (verschil) - (E)Y
Alle personen leggen 2 testen af (score test 1) (Score test 2) = score 1 + 2 = score EXY
Stelling 6
Voor twee ONAFHANKELIJKE variabelen X en Y geldt dat:
E(XY) = ( EX) * (EY)
Stelling 7
V (a) = 0 met a een constante
Iedereen heeft 2000 euro inkomen i/d maand bij niemand = GEEN VARIABILITEIT
Stelling 8 Voor een variabele Y = X + a (V) Y = V (X) Iedereen krijgt in de populatie 100 euro opslag (a) X = oorspronkelijk loon 100 Y = Loon na de opslag
(X) 100 + (a) 100 = 200 (Y)
Stelling 9 Voor een variabele Y = aX geldt dat: V (Y) = a 2 V (X) vb omrekenen van euro naar dollar a: 1.13 X: inkomen in Euro Y: inkomen in dollar (Y = 1.13 x X)
Stelling 10
De variantie van een som, gelijk is aan een som van de varianties + 2 keer de COVXY
Alle personen leggen 2 testen af
X score eerste test
Y score tweede test
Invloed positieve COVARIANTIE - mensen die het goed doen op de 1e test doen het ook goed op de 2e test.
Invloed negatieve Covariantie - mensen die het slecht doen op de 1e test doen het ook slecht op de 2e test.
INDIEN X en Y onAFHANkeLIJK zijn
volgt dan V (X + Y) = V (X) + V (Y)
Stelling:
V (X - Y) = V (X) - V (Y) - 2 * COVXY
Binominale verdeling
Populatie studenten
Antwoordmogelijkheden (A, B, C, D)
1 antwoord = correct
Alle studenten moeten gokken
Binominale VERDELING: zal de KANSVERDELING weergeven om K correcte antwoorden te geven op examen met N antwoorden.
Kans op succes = p dus (1 op 4 om goed te gokken op A) = 0.25 of 1/4
p: kans op succes
K: aantal succesen
N: maximaal aantal successen
P (x = k) geeft de kans op SUCCES bij N herhalingen
scuces = correct beantwoorden vraag k = aantal succes waarin wij GEINTERESSEERD zijn (x= 0 , x = 1 )
BINOMIDALE VERDELING - STAAFDIAGRAM
POWERBINOM
EERSTE R cOMMANDO
= X = 0
2
Normale verdeling
standaardiseren
Normale verdeling ~ continu variabele
Notatie normale verdeling X ~ (u, o2)
E (X) = u
V (X) = o2
Door elke keuze van u en o2 verandert de verdeling.
Gemiddelde = altijd het hoogste punt i/d grafiek.
Verschillende u -> ander hoogste punt i/d grafiek
Hogere variantie -> meer spreiding
Lage variantie -> minder spreiding
R output - voor de standaardnormale verdeling -
Oplossing met integraal P(x1 < X < x2)
- Het standaardiseren is het maken van u = 0 en o2 = 1
X ~ (0, 1)
Oplossing met integraal P(x1 < X < x2)
Hoe? -> met R-output
Pnorm:
P = cumulatieve kans waarin we geinteresseerd zijn
norm = omdat normaal verdeling
bv.
Pnorm (-3)
= P (X < -3)
Standaardnormale verdeling = Symmetrisch
= P (X < 0 ) = -.5
Oppervlakte samen = altijd 1!
P ( X > x) = P (X < x) Dit betekent dat de kans aan de ene kant: -1.96 gelijk is aan de andere kant 1.96
We willen de kans berekenen P ( X < -2 ) = 1 - P ( X < 2)
met r- output
Pnorm (2): kans
= 1 - pnorm (2) [kans) = P (X - 2) (!!!!!!!!!!!!!)
We willen de kans berekenen P ( X < 1.55) de kans dat X kleiner is dan 1.55
Via r:
Pnorm (1.55) -> 0.939…….
WAT ALS JE EEN NORMALE VERDELING HEBT MAAR U = 0 OF o2 = 1?
-»»»»>. heel belangrijke stelling
Normale verdeling standaardiseren door de variabele te transformeren door i/d teller het verschil te kijken van het verschill tussen gemiddelde en u en delen door sigma.
X-u/o = Z
= Z ~ (0, 1)
Toepassing X ~ N (1, 4) wat is P (X < 3)
(3 - 1) / wortel 4’
° 2/ 2 -»»»» pnorm (1)
P (X <3) = 0.8444444
x2 verdeling
T-verdeling
x2 verdeling
X1 ~ N ( 0, 1)
1 parameter = AANTAL VRIJHEIDSGRADEN = K = het GEMIDDELDE
Er geldt dat E (Y) = K
Er geldt dat V (Y) = 2 * K
VISUEEL
x2 verdeling = niet KLOKVORMIG zoals de normaal verdeling
Aantal vrijheidsgraden toeeneemt, niet kennen.
x2 verdeling in R
P (Y < 16.93) ? = ? wanneer Y ~ 2/28 (28 = vrijheidsgraden)
Pchisq (16.93), 28)
——> r berekent de kans.
T-verdeling
enkel vrijheidsgraden
E (T) = 0
V (T) = k / k-2
T-verdeling
Zwaardere staarten dan standaardnormale - T-VERDELING IETS TRAGER NAAR 0
Naarmate het aantal vrijheids toeneemt beter naar STANDAARDNORMALE VERDELING
PAS ALS HET ONEINDIG IS = STANDAARDNORMAAL.
in R kansen berekenen?
P (T < 1) = ? met T ~ T2
Pt (1, 2)
0.7886751
Binominaal - EXTRA UITLEG.
Heeft twee uitkomsten
Succes geen succes
Geslaagd niet geslaagd
7 personen, wat is de kans dat exact 4 van hen leiden aan een ziekte.
3 onbekenden:
N = maximaal aantal succesen = 7
k = aantal gewenste succesen, wat wens ik te obsereveren? -> hoeveel mensen hoop ik te observeren? = 4 op
p = de kans op een succes
Wat is mijn opgave het hebben van een succes?
Afhankelijk daarvan opzoek gaan naar de juiste kans.
X ~ B ( N , p) VB, 2
10 leerlingen
3 meisjes 7 jongens
Willekeurig trek ik 3 personen, wat is de kans dat EXACT 2 DAARVAN JONGENS ZIJN.
N = 3 leerlingen NIET 10!!!!!!!!!!!!!!!!!!!
K = 2
p = PROPORTIE VERDELING VAN JONGENS = 7/10 !!!!!!!!!!!!!!!!! 0.7
NORMALE VERDELING
- extra
qnorm/pnorm
IQ - u = 100
o = 15
variantie = 15 2
X ~ N (100, 15 2)
Normale verdeling = SYMMETRISCH
Gemiddelde = hoogste punt op de curven - verdeling in 2 delen.
50% links, 50% rechts.
Variantie hoe breed of hoe smel de verdeling. Grote variantie -> brede curve. Kleine variantie -> smalle curve.
Standaardnormaal verdeling Z ~ (0, 1) (u = 0, o2 = 1) Symmetrisch Iedere normaal verdeling -> omzetten naar standaardnormale verdeling. Dan kan je kansen berekenen. Normaal -> standaardverdeling
Hoe?
Kansen berekenen als we niet gebruik maken van tabel. Adhv R.
Z = X - u / o (stdev/sigma)
Wat is de KANS onder de WAARDE: 1.645 (z)?
Welk commando?
Qnorm
Dan ben ik geinteresseerd in een QUANTIEL een WAARDE.
Dus dan moet je een KANS in R. (bv. 0.95 -> waarde)
output qnorm = waarde
qnorm (0.95) = output is een waarde waaronder 95% onder ligt.
Pnorm
Je HEBT een WAARDE maar wilt daarvan de KANS weten
Pnorm (1.645) = 95%
output pnorm = kans
Voorbeeld standaarddiseren
+ 2 eigenschappen normaalverdeling
IQ ~ N (100, 15 2)
P ( X < 123) ?
z = x| - u / o
(alles wat je links doet moet ook rechts)
Stap 1
P (X < 123) = P(X -u < 123 - u)
Stap 2 (er mist nog wat - om het doen te lijken op de z-x| = u/o) -> delen door de variantie 123 - u / wortel 5
Stap 3
P ( X < 123) = P (123 - 100 / 5)
= 1.5333333
= P ( Z < 1.53)
IQ 123 = z = 1.53
Geinteresseerd in de kans? (je weet de WAARDE maar je WILT de KANS)
Pnorm (1.53)
= 0.9313,…. dat is de KANS dus 93% v/d populatie heeft iq lager dan 123.
2 EIGENSCHAPPEN NORMAALVERDELING
- De TOTALE KANS ONDER DE CURVE = 1 of 100% - kans onder en boven..
- SYMMETRIE
CHI
T
CHI-kwadraat Scheef verdeeld ASSYMETRISCH Dit kan je uitrekenen met de CHI-KWADRAAT HOORT BIJ CONTINU = geen exacte KANSEN TOTAAL ONDER DE CURVE OPPERVLAK = 1 ENKEL POSITIEVE WAARDEN.
1- pchisq = MOGELIJK
Qchisq: voor WAARDE onder de CHI-KWADRAAT (ingeven kans)
Pchisq: een KANS onder de CHI-KWADRAAT verdeling (ingeven waarde)
Maar wel
De kans dat je een waarde observeer die groter is dan een bepaalde waarde
P (X> a),
De kans dat je een waarde observeer die kleiner is dan een bepaalde waarde
P (x < a)
De kans dat je een waarde observeer die TUSSENwaarde 1 en waarde 2 ligt.
P (a < X < b)
Y ~ X2 (k)
E (Y) = k vrijheidsgraden = 8
V (Y) = 2 * vrijheidsgraden = 2*8
t-verdeling X ~t (k) Eigenschappen breder dan normale verdeling visueel Aantal vrijheidsgraden als parameter Gemiddelde = altijd 0 SYMMETRISCH
E ( X ) = 0
V ( X ) = k/ k-2
ONEINDIG AANTAL VRIJHEIDSGRADEN > standaardnormaal
Groot gaat standaard normaal benaderen.
Exacte kansen niet berekenen want continu
r
qt : waarde wil weten (je hebt kans)
pt: ik wil de kans weten (je hebt waarde)