statistiek 1 deel 2 / populatie-kans Flashcards

1
Q

Populatieschatting
Discreet
populatie
kansverdeling

A

Discreet: 0,1,2,3 - niet complex voor de STEEKPROEF overnemen
Verdelingsfunctie voor DISCREET:

Bv. Benton Visual Retention test: 10 opgaven!!!
11 MOGELIJKE waarden = kleine letter p!!!!!!!!!!!!!!!
0 goed, 1 goed, 2 goed 3 goed, 4 goed, 5 goed, 6 goed, 7 goed, 8 goed, 9 goed, 10.

POPULATIE = ONEINDIG VEEL ELEMENTEN GROOT
DE VARIABELE KAN EEN EINDIG ELEMENTEN AANNEMEN.

FORMELE NOTATIE: P(X = xi):
Dat is de KANS dat de variabele X de waarde xi aanneemt.
Kans is de relatieve frequentie van xi i/d populatie

fi: = ABSOLUTE FQ van xi
in een steekproef van ONEINDIG ELEMENTEN. = 0 lim,…

KANSVERDELING = I/D POPULATIE (relatieve frequentieverdeling = steekproef)
ZELFDE ALS I/D STEEKPROEF.

Cumulatieve verdelingsfunctie F(X)(x) = de kans dat waarde van variabele X kleiner is dan of gelijk is aan x.

Staafdiagram.

Continu: andere statistische technieken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Verdelingsfunctie voor CONTINUE VARIABELEN
P (x = x) = ?
Dichtheidsfunctie
eigenschappen dichtheidsfunctie

A

P (X = x) = 0 : de kans dat een variabele een waarde aanneemt in een continu verdeelde waarde = 0.

Niet ALLE kanen zijn 0

P (X <_ x ) =/ 0 : kleiner of groter dan.

OPLETTEN!
P (X <_ x) of P (X < x) CONTINUE VARIABELEN MAAKT DAT NIET UIT WANT HET IS ALTIJD 0 bij CONTINU.
Groot verschil met DISCREET!

Dichtheidsfunctie
P (X = x) = 0   
kansen inkleuren oppervlakte
f (x) x = kansdichtheid JE MOET DAARVOOR DE CUMALATIEVE VERDELINGSFUNCTIE kijken
Het afleiden van functies.
F ( x + b ) - F (x) / 
B

Niet wiskundige manier begrijpen
Visualisatie dichtheidsfunctie
Histogram tekenen = relatieve frequentie gelijk, kan die groepen aanpassen (klassenbreedte), oneindig veel.
Klassenbreedte van 0 = de dichtheidsfunctie lim b -> 0
Geidealiseerd HISTOGRAM - oneindig veel klassen

Wat is de Kans van een persoon om een IQ TUSSEN DE 90 EN 110 krijgen?
P ( 90 < X < 110 )
door te INTEGREREN
lange griekse fx(x) dx

HISTOGRAM
Rechthoek
OPPERVLAKTES ZIJN RELATIEVE FREQUENTIES  = KANS 
OPPERVLAKTE TE BEREKENEN VAN DE STAAF 1
OPPERVLAKTE TE BEREKENEN VAN DE STAAF 2
HET OPTELLEN VAN DE STAFEN

Driehoek± lengte x breedte / 2

Hoe kom je dan aan die numerieke waarden?

Door P (x1 < X < x2)
bv. x1 90 en x2 110
door
F(X)(x2) - F(X)(x1) =

EIGENSCHAPPEN Dichtheidsfunctie
Kan nooit NEGATIEF ZIJN ( geen NEGATIEVE WAARDEN)
OPPERVLAKTE ONDER DE DICHTHEIDSFUNCTIE VAN UITERST LINKS TOT UITERST RECHTS MOET GELIJK ZIJN AAN 1
bv. 50 x 0.2 = 10 = geen dichtheidsfunctie
1 = totale oppervlakte

  1. visualiseren
    2.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

POPULATIE/
GEMIDDELDE discreet/continu
VARIANTIE

A

DISCRETE VARIABELEN: EENVOUDIGER
POPULATIEGEMIDDELDE/GEMIDDELDE MOET DAN DUIDELIJK ZIJN UIT CONTEXT OF STEEKPROEF.

E(X) OF Ux, mu = gemiddelde of VERWACHTINGSWAARDE
E(X) som (X= xi)xi !!!!!!!!!!!!!!!!!!1
(X = x)xi = de KANSVERDELING

formule van de STEEKPROEFGEMIDDELDE obv de FREQUENTIEVERDELING
1/n naar binnen brengen -> f / n
-> absolute frequentie / n
-> = relatieve frequentie

V (X) = POPULATIEVARIANTIE
o2x = POPULATIEVARIANTIE
o2 = POPULATIEVARIANTIE

Analogie met de variantie i/d steekproef -> sn2x

CONTINU

V(X) = nooit .
Het gemiddelde over alle elementen in een dichtheidsfunctie, ->
gelijkaardig dichtheidsfunctie/ frequentieverdeling maal xi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

BIVARIATE kansverdelingen
COVARIANTIE
CORRELATIECOEFFICIENT rho

A

Gelijkaardig aan de KANSVERDELINGEN i/d STEEKPROEF
Discrete VARIABELEN
Score op 5 (0 tot 5

score       Leeftijd Y     X
  0                10              11
  1              0.003          0.0002
  2 
  3
  4

P (X = xi en Y = yi) = ?
P (X = 0 en Y = 10) = 0.03

MARGINALE VERDELINGEN

Hoeveel kinderen halen een 4 of 5 op de benton retention test

Toetsen of

  1. P (X = x1 en Y = y1) = GEMEENSCHAPPELIJK PROCENT = 0.003
  2. Univariate verdelingen afleiden xi en yi X1 = 0.003 + 0.0002 = x1 = 0.00302
  3. ONAFHANKELIJK indien P (X = xi) * (maal) P (Y = yi) = MOET GELIJKAARDIG ZIJN AAN STAP 1.
  4. ALS ELKE CEL GELIJKAARDIG = ONAFHANKELIJK.

BELANKGRIJK = C0VX

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

NUTTIGE STELLINGEN

A

Stelling 1
ALS X en Y ONAFHANKELIJK ZIJN = COVXY = 0

Stelling 2
E(a) = a = Iedereen heeft een inkomen van 2000 euro, oneindig grote groep met mensen die allemaal 2000 euro verdienen. Dus het gemiddelde inkomen = gelijk aan de constante als het inkomen gelijk is.

Stelling 3
Voor een variabele Y = X + a:
Geldt dat het populatiegemiddelde van Y = X + een constante
vb Iedereen in populatie krijgt opslag (a) 50
X = oorspronkelijk loon 100
Y = loon na opslag 150

Stelling 4
Voor een variabele Y = aX geldt dat:
E(Y) = aE (X)
waarbij a een constante is
vb omrekenen Euro naar Dollar
a = 1.13
X = inkomen in euro
Y = Inkomen in dollar 

Stelling 5
E (X + Y) = ( E)X som (E)Y
E (X - Y) = (E)x - (verschil) - (E)Y
Alle personen leggen 2 testen af (score test 1) (Score test 2) = score 1 + 2 = score EXY

Stelling 6
Voor twee ONAFHANKELIJKE variabelen X en Y geldt dat:
E(XY) = ( EX) * (EY)

Stelling 7
V (a) = 0 met a een constante
Iedereen heeft 2000 euro inkomen i/d maand bij niemand = GEEN VARIABILITEIT

Stelling 8
Voor een variabele Y = X + a
(V) Y = V (X)
Iedereen krijgt in de populatie 100 euro opslag (a)
X = oorspronkelijk loon 100
Y = Loon na de opslag

(X) 100 + (a) 100 = 200 (Y)

Stelling 9
Voor een variabele Y = aX geldt dat:
V (Y) = a 2 V (X)
vb omrekenen van euro naar dollar
a: 1.13
X: inkomen in Euro
Y: inkomen in dollar (Y = 1.13 x X)

Stelling 10
De variantie van een som, gelijk is aan een som van de varianties + 2 keer de COVXY

Alle personen leggen 2 testen af
X score eerste test
Y score tweede test

Invloed positieve COVARIANTIE - mensen die het goed doen op de 1e test doen het ook goed op de 2e test.
Invloed negatieve Covariantie - mensen die het slecht doen op de 1e test doen het ook slecht op de 2e test.

INDIEN X en Y onAFHANkeLIJK zijn
volgt dan V (X + Y) = V (X) + V (Y)

Stelling:
V (X - Y) = V (X) - V (Y) - 2 * COVXY

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Binominale verdeling

A

Populatie studenten
Antwoordmogelijkheden (A, B, C, D)
1 antwoord = correct
Alle studenten moeten gokken

Binominale VERDELING: zal de KANSVERDELING weergeven om K correcte antwoorden te geven op examen met N antwoorden.

Kans op succes = p dus (1 op 4 om goed te gokken op A) = 0.25 of 1/4

p: kans op succes
K: aantal succesen
N: maximaal aantal successen

P (x = k) geeft de kans op SUCCES bij N herhalingen

scuces = correct beantwoorden vraag
k = aantal succes waarin wij GEINTERESSEERD   zijn (x= 0 , x = 1 )

BINOMIDALE VERDELING - STAAFDIAGRAM

POWERBINOM
EERSTE R cOMMANDO

= X = 0
2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Normale verdeling

standaardiseren

A

Normale verdeling ~ continu variabele

Notatie normale verdeling X ~ (u, o2)
E (X) = u
V (X) = o2

Door elke keuze van u en o2 verandert de verdeling.
Gemiddelde = altijd het hoogste punt i/d grafiek.
Verschillende u -> ander hoogste punt i/d grafiek
Hogere variantie -> meer spreiding
Lage variantie -> minder spreiding

R output - voor de standaardnormale verdeling -
Oplossing met integraal P(x1 < X < x2)

  1. Het standaardiseren is het maken van u = 0 en o2 = 1
    X ~ (0, 1)

Oplossing met integraal P(x1 < X < x2)

Hoe? -> met R-output
Pnorm:
P = cumulatieve kans waarin we geinteresseerd zijn
norm = omdat normaal verdeling

bv.
Pnorm (-3)
= P (X < -3)

Standaardnormale verdeling = Symmetrisch
= P (X < 0 ) = -.5
Oppervlakte samen = altijd 1!
P ( X > x) = P (X < x) Dit betekent dat de kans aan de ene kant: -1.96 gelijk is aan de andere kant 1.96

We willen de kans berekenen P ( X < -2 ) = 1 - P ( X < 2)

met r- output
Pnorm (2): kans
= 1 - pnorm (2) [kans) = P (X - 2) (!!!!!!!!!!!!!)

We willen de kans berekenen P ( X < 1.55) de kans dat X kleiner is dan 1.55

Via r:
Pnorm (1.55) -> 0.939…….

WAT ALS JE EEN NORMALE VERDELING HEBT MAAR U = 0 OF o2 = 1?

-»»»»>. heel belangrijke stelling

Normale verdeling standaardiseren door de variabele te transformeren door i/d teller het verschil te kijken van het verschill tussen gemiddelde en u en delen door sigma.

X-u/o = Z
= Z ~ (0, 1)

Toepassing X ~ N (1, 4) wat is P (X < 3)

(3 - 1) / wortel 4’

° 2/ 2 -»»»» pnorm (1)
P (X <3) = 0.8444444

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

x2 verdeling

T-verdeling

A

x2 verdeling
X1 ~ N ( 0, 1)
1 parameter = AANTAL VRIJHEIDSGRADEN = K = het GEMIDDELDE

Er geldt dat E (Y) = K
Er geldt dat V (Y) = 2 * K

VISUEEL
x2 verdeling = niet KLOKVORMIG zoals de normaal verdeling
Aantal vrijheidsgraden toeeneemt, niet kennen.

x2 verdeling in R
P (Y < 16.93) ? = ? wanneer Y ~ 2/28 (28 = vrijheidsgraden)
Pchisq (16.93), 28)
——> r berekent de kans.

T-verdeling
enkel vrijheidsgraden
E (T) = 0
V (T) = k / k-2

T-verdeling
Zwaardere staarten dan standaardnormale - T-VERDELING IETS TRAGER NAAR 0
Naarmate het aantal vrijheids toeneemt beter naar STANDAARDNORMALE VERDELING
PAS ALS HET ONEINDIG IS = STANDAARDNORMAAL.

in R kansen berekenen?
P (T < 1) = ? met T ~ T2
Pt (1, 2)
0.7886751

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Binominaal - EXTRA UITLEG.

A

Heeft twee uitkomsten
Succes geen succes
Geslaagd niet geslaagd

7 personen, wat is de kans dat exact 4 van hen leiden aan een ziekte.

3 onbekenden:

N = maximaal aantal succesen = 7
k = aantal gewenste succesen, wat wens ik te obsereveren? -> hoeveel mensen hoop ik te observeren? = 4 op
p = de kans op een succes
Wat is mijn opgave het hebben van een succes?
Afhankelijk daarvan opzoek gaan naar de juiste kans.

X ~ B ( N , p) VB, 2
10 leerlingen
3 meisjes 7 jongens
Willekeurig trek ik 3 personen, wat is de kans dat EXACT 2 DAARVAN JONGENS ZIJN.
N = 3 leerlingen NIET 10!!!!!!!!!!!!!!!!!!!
K = 2
p = PROPORTIE VERDELING VAN JONGENS = 7/10 !!!!!!!!!!!!!!!!! 0.7

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

NORMALE VERDELING
- extra

qnorm/pnorm

A

IQ - u = 100
o = 15

variantie = 15 2
X ~ N (100, 15 2)

Normale verdeling = SYMMETRISCH
Gemiddelde = hoogste punt op de curven - verdeling in 2 delen.
50% links, 50% rechts.
Variantie hoe breed of hoe smel de verdeling. Grote variantie -> brede curve. Kleine variantie -> smalle curve.

Standaardnormaal verdeling
Z ~ (0, 1)
(u = 0, o2 = 1)
Symmetrisch
Iedere normaal verdeling -> omzetten naar standaardnormale verdeling.
Dan kan je kansen berekenen.
Normaal -> standaardverdeling

Hoe?
Kansen berekenen als we niet gebruik maken van tabel. Adhv R.
Z = X - u / o (stdev/sigma)
Wat is de KANS onder de WAARDE: 1.645 (z)?
Welk commando?
Qnorm
Dan ben ik geinteresseerd in een QUANTIEL een WAARDE.
Dus dan moet je een KANS in R. (bv. 0.95 -> waarde)
output qnorm = waarde
qnorm (0.95) = output is een waarde waaronder 95% onder ligt.

Pnorm
Je HEBT een WAARDE maar wilt daarvan de KANS weten
Pnorm (1.645) = 95%
output pnorm = kans

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Voorbeeld standaarddiseren

+ 2 eigenschappen normaalverdeling

A

IQ ~ N (100, 15 2)

P ( X < 123) ?

z = x| - u / o

(alles wat je links doet moet ook rechts)
Stap 1
P (X < 123) = P(X -u < 123 - u)

Stap 2  (er mist nog wat - om het doen te lijken op de z-x| = u/o) -> delen door de variantie
123 - u / wortel 5

Stap 3
P ( X < 123) = P (123 - 100 / 5)
= 1.5333333
= P ( Z < 1.53)

IQ 123 = z = 1.53

Geinteresseerd in de kans? (je weet de WAARDE maar je WILT de KANS)
Pnorm (1.53)
= 0.9313,…. dat is de KANS dus 93% v/d populatie heeft iq lager dan 123.

2 EIGENSCHAPPEN NORMAALVERDELING

  1. De TOTALE KANS ONDER DE CURVE = 1 of 100% - kans onder en boven..
  2. SYMMETRIE
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

CHI

T

A
CHI-kwadraat
Scheef verdeeld 
ASSYMETRISCH
Dit kan je uitrekenen met de CHI-KWADRAAT
HOORT BIJ CONTINU = geen exacte KANSEN 
TOTAAL ONDER DE CURVE OPPERVLAK = 1
ENKEL POSITIEVE WAARDEN.

1- pchisq = MOGELIJK
Qchisq: voor WAARDE onder de CHI-KWADRAAT (ingeven kans)
Pchisq: een KANS onder de CHI-KWADRAAT verdeling (ingeven waarde)

Maar wel
De kans dat je een waarde observeer die groter is dan een bepaalde waarde
P (X> a),
De kans dat je een waarde observeer die kleiner is dan een bepaalde waarde
P (x < a)
De kans dat je een waarde observeer die TUSSENwaarde 1 en waarde 2 ligt.
P (a < X < b)

Y ~ X2 (k)
E (Y) = k vrijheidsgraden = 8
V (Y) = 2 * vrijheidsgraden = 2*8

t-verdeling
X ~t (k)
Eigenschappen
breder dan normale verdeling visueel
Aantal vrijheidsgraden als parameter
Gemiddelde = altijd 0
SYMMETRISCH

E ( X ) = 0
V ( X ) = k/ k-2
ONEINDIG AANTAL VRIJHEIDSGRADEN > standaardnormaal
Groot gaat standaard normaal benaderen.

Exacte kansen niet berekenen want continu

r
qt : waarde wil weten (je hebt kans)
pt: ik wil de kans weten (je hebt waarde)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly