Statistiek deel 3 INDUCTIE Flashcards
Steekproevenverdeling notatie deel2/3 kans toevalsvariabele
Populatie te groot -> steekproef -> inductie populatie
Aselecte steekproef
Willekeurig worden N elementen geselecteerd uit de populatie en we veronderstellen at deze n elementen onafhankelijk zijn van elkaar.
Deel 1
1 Steekproef
X = variabele
x1, x2 = waarden
Deel 3
MEERDERE STEEKPROEVEN
X: variabelen
x1,x2,x3 = gemeten waarden van variabele 1 steekproef
X1, X2, X3, = de n waarden van de variabele van EEN STEEKPROEF in het algemeen
conceptueel = in HOOFDLETTERS realisatie = kleine letters
DEEL 2
P(X = 5) = 0.02014
= 20.14 kinderen hebben een score van 5.
= :P ( X = xi) is een RELATIEVE fq (op populatieniveau)
DEEL 3
Herhaald steekproef trekking,
wat is een kans? munt opwerpen 50%
Wat betekent die 50%?
———-> Frequentistische betekenis:
oneindig aantal keer = i/d helft van de keren 50%
de KANS op een GEBEURTENIS (hier het werpen van een munt) is GELIJK AAN de RELATIEVE FREQUENTIE van de GEBEURTENIS indien we het EXPERIMENT (opwerpen van geldstuk) ONEINDIG AANTAL KEER HERHALEN.
Dit wordt gekoppeld aan de formule definitie.
P ( Y = munt) = lim n-> oneindig fmunt/n
(Fmunt)/ n
KANSINTERPRETATIE via HERHAALDE STEEKPROEFTREKKING
- selecteer willekeurig een kind uit de populatie neem de test af. noteer score.
- selcteer willekeurig een kind uit de populatie neem de tst af. noteer score.
- oneindig -»»»»»>
- -> 20.14% van alle scores zijn gelijk aan 5.
Verschil tussen Experiment en de Gebeurtenis.
hoe vaker het experiment herhaald -> KANSVERDELING V/D POPULATIE
n = 8 oneindig.
Kansverdeling v/d populatie (deel 2).
Variabele = TOEVALSVARIABELE
omdat:
het resultaat aanduidt vaan een toevallige trekking van een ELEMENT uit de populatie
Ze is veranderlijk om niet alle elementen dezelfde waarden HEBBEN.
Steekproevenverdeling v-h gemiddelde
Vraag: is x|: 5.92 representatief voor de populatie of is dit zeer laag/zeer hoog?
- x|: 5.92
- x|: 6.16
- x|: 5.88
- x|: 5.90
STEEKPROEFGEMIDDELDE VARIEERT. In dit HOOFDSTUK wordt het met grote letter X aangeduid. waarom? het VARIEERT.
Steekproefgrootheid
we herhalen de steekproef 1000 keer, we nemen daar het gemiddelde van X|
We herhalen het niet 1000 keer, maar ONEINDIG AANTAL KEER keer dan maak je een histogram. Dat is het STEEKPROEVENVERDELING van het GEMIDDELDE/
!!! Dat = NIET GELIJK AAN DE FREQUENTIEVERDELING. Dat is BINNEN een gemiddelde. TERWIJL STEEKPROEVENVERDELING v/h gemiddelde gaat OVER STEEKPROEVEN HEEN.
Waarom Steekproevenverdeling? Reproduceerbaar is die conclusie.
Steekproevengemiddelde
stelling
wet van de grote getallen
Opdracht
Stelling:
De verwachtingswaarde van het STEEKPROEFGEMIDDELDE X| is gelijk aan het POPULATIEGEMIDDELDE van de variabele X:
E(X|) = ux
E (X|) = E(X)
Stelling
V(X|) = o2x / n
Variantie van het STEEKPROEFGEMIDDELDE = variante van het steekproefgemiddelde gedeeld door n.
V (X|) = NIET GELIJK aan V (X) -> nog delen door steekproefgrootte.
Hoe groter n dan gaat de steekkproefgemiddelde minder VARIEREN.
Dus hoe groter N hoe beter het steekproefgemiddelde het POPULATIEGEMIDDELDE gaat BENADEREN
Stelling
Als de POPULATIE een NORMALE VERDELING volgt, dan zal de STEEKPROEFGEMIDDELDE ook een normale verdeling volgen. Dus als de STEEKPROEF uit een normale verdeling komt, dan wordt dan geeerfd.
Benton Visual retention test: 1000 herhalingen -> DISCRETE VARIABELEN (SCORE OP 10) dus dat TELT NIET.
Hoe kan dat?
———————–>
CENTRALE LIMIETSTELLING
X1, Xn, ONAFHANKELIJKE trekkingen zijn ujit een populatie met een gemiddelde ux, en variantie o2x, dan wordt de VERDELING van het STEEKPROEFGEMIDDELDE naarmate N groter wordt STEEDS BETER BENADERD wordt door de normale verdeling met gemiddelde ux, en variantie o2x/n
VUISTREGEL n30+
Opdracht
is x| = 5.92 (Benton) representatief VOOR DE POPULATIE of is dit Zeer HOOG of LAGE score..
De kans P (X| < 5.92) kan ons hierop een antwoord geven
P (X| < 5.92) ~ ongeveer 0 = een ZEER LAGE KANS
P (X| < 5.92) ~ ONGEVEER 1 = EEN ZEER HOGE KANS.
Hoe bepalen we de kans? (X| < 5.92)?
A - 1000 keer die steekproeftrekken -> gemiddelden. Relatieve frequenties nakijken -> 5.92 -> 0.374%
B
1.
P (X| < x) = P ( Z < x-ux / wortel o2x/n), Z ~ N (0,1)
P (X| < 5.92) = P ( Z < 5.92 - ux / wortel o2x/n) = P ( Z < 5.92 - 5.9939 / wortel 2.417/50)
= P (Z < -0.34)
Visualiseren
Extra Steekproevenverdeling Variantie
Steekproevenverdeling v-d variantie.
Eigenschappen:
2 soorten variantie’s: s2x (delen door n-1) en sn2 (delen door n)
E (SN2x) = n-1/n * o2x -> minder ZUIVERE SCHATTER
E (S2X) = o2x -> ZUIVERE SCHATTER
Indien variabele i/d populatie normaal verdeeld is dan mag je er vanuit gaan dat:
X ~ N (u, o2x) -> dat deze formule geldt een GEKENDE VERDELING CHI KWADRAAT
(n-1) * S2x / o2x ~ X ~ n-1 vrijheidsgraden
Extra
Steekproevenverdeling Gemiddelde
Steekproevenverdeling Gemiddelde
Ben geinteresseerd in leeftijd RHCP fans over de hele wereld
populatie = over de hele wereld verspreid
n = 50
x| = 37.5
o2x= 2.5
meerdere steekproeven verschillende (n, x| & o2x).
bv. y| = 34
z| = 35
37.5 + 34 + 35 / 3 = Steekproevenverdeling v/h gemiddelde
E (X|) -> X overstreept = de leeftijd van de
E(X|) = ux = de populatie
De verwachting van de steekproevenverdeling = gelijk aan de ux
V (X|) = Variantie steekproevenverdeling = niet gelijk
Variantie uit de populatie delen door n: o2x / n
Hoe weten welke verdeling?
1. X variabele NORMAAL VERDEELD!!!!! = met een X ~ N (u, o2x) ———> X| ~ N (u, o2/n).
X = normaal verdeeld dan mag je ervanuit gaan steekproevenverdeling v/h gemiddelde normaal verdeeld.
2. Aantal observaties groter dan > 30 ——–> X| ~N (u, o2x/n)
Extra STANDAARDISEREN steekproeefverdeling
+ SCHEMA standaard steekproefverd.
Z = x - u / ox
Indien.
- n > 30
- getrokken uit normaal verdeling
Iedere normaal verdeling -> kan worden omgevormd tot standaardnormale verdeling.
X| - E ( X ) / vierkantswortel van Variantie van X|/ n (!!!!!!!!!!!!!!!!!!!)
Verwachting van het gemiddelde = E (X) = ux
Verwachting van de variantie van X| = o2x/n
SCHEMA X en X|
BIJ EEN NORMALE VERDELING
X ~ N (ux, o2x)
Stap 1. Is X normaal verdeeld? Stap 2. Bepalen E (X) = ux of het gemiddelde van de populatie en V (X) = o2x -> wortel = stdev = ox
x-u/o
BIJ GEMIDDELDES EN STEEKPROEVENVERDELING.
X| ~ N (u, o2x / n)
- De kans boven of onder een GEMIDDELDE of tussen 2 gemiddeldes?
- is X| NORMAAL verdeeld of niet?
2.1 uit de opgave = normaal verdeeld -> ook normaal verdeling MAAR ( u, o2x/N (!!!)
2.2 N > 30 - Bepalen E(X|) en V (X|)
E(X|) = verwachting i/d populatie = ux
V (X|) = o2x = o2x / n !!!!!!!!!!!!! -> sigma x gedeeld door / wortel van N - Standaardiseren X| - ux / o / wortel N
Schatters
Populatiegemiddelde kan je schatten obv de steekproefgemiddelde
! 0 = een goede schatter indien ze ZUIVER m.a.w de schatter = gelijk aan de populatieparameter. Niet te groot of te klein wordt geschat.
0> = 0 hoedje = SCHATTER
- De variantie van de SCHATTER V ( 0 >) wordt KLEINER naarmate N toeneemt WAARDOOR NAUWKEURIGER.
m. a.w De schatter = NAUWKEURIGER indien de STEEKPROEF groter wordt.
Wortel V (0>) = STANDAARDFOUT
Stelling
E ( X} ) = u
X| = een zuivere schatter van u
V ( X| ) = o2/ n
V ( X| ) neemt AF als N GROTER wordt.
Schatter = VARIABELE hetgeen wat we bekomen op een variabele zonder
Schatting = de BEKOKMEN GETALLEN, realisaties van de VARIABELE obv 1 steekproef.
SN2X = GEEN ZUIVERE SCHATTER voor o2
S2x =WEL een ZUIVERE SCHATTER voor o2
VARIANTIE NEEMT AF (SN2X + S2X) als N TOENEEMT (!) EN WORDT DUS ‘ZUIVERDER’.
BETROUWBAARHEIDSINTERVAL
GEMIDDELDE IQ VAN BACHELOR?
STEEKPROEF
X = IQ n = 50 x| = 112.7 - deze schatting = wss niet GELIJK AAN het populatiegemiddelde
ZEER WAARSCHIJNLIJK dat 112.70 niet GELIJK IS AAN het POPULATIEGEMIDDELDE oftewel u
- X = normaal verdeeld
- o2 = BEKEND (onrealistische aanname)
X ~ N (u, o2) u = ONBEKEND
BI
X = NORMAAL VERDEELD
+ GEKENDE POPULATIEVARIANTIE o2x
Extra notatie: z (kleine letter) a (= een GETAL uit een standaardnormale verdeling)
Grote letter Z (Grote letter) (=STANDAARDNORMALE VERDELING)
za = een bepaald getal dat de oppervlakte rechts P ( Z > za) = a
a = de kans zodat de oppervlakte (rechts gelijk aan alpha)
VOORBEELD
getal = kwantiel
bv. bepaal Z: 0.025 (obv z output)
De waarde Z0.025 zodat de oppervlakte RECHTS van z: 0.025 gelijk is aan 0.025.
Dat kunnen we berekenen met QNORM (Z: 0.025)
We krijgen een kans z: 0.025 -> wat is de KWANTIEL dat aan de rechterkant gelijk is.
in R altijd OPPERVLAKTE LINKS.
= 1 - P (z > z 0.025) =
Dus Qnorm (0.975)
(z > z 0.025) in R 2 mogelijkheden.
- Qnorm (0.975)
- Qnorm (0.025) = lower. tail = FALSE
Mogelijke verwarring:
Za/2 = 0.025%
a = 0.05 / 2 = 0.0025 = 1.96
Standaardverdeling =
SYMMETRISCH = rond 0
De oppervlakte tussen -Z/a EN Z/a = 1 - a
-1.96 en + 1.96
a: = 2.5% aan de rechter kant a = 2.5 aan de linker kant
Standaardiseren
X| - u / (o / wortel N)
95% van de realisaties.
DE KANS DAT POPULATIEGEMIDDELDE U !!!! = GELIJK AAN 1-A
(1-a)100% betrouwbaarheidsinterval.
De uitkomst: het 95% betrouwbaarheids interval populatiegemiddelde u = gelijk aan [108.5, 116.9]
Interpretatie BI
EIGENSCHAPPEN BI
De kans dat POPULATIEGEMIDDELDE U in de ONDER- of BOVENGRENS =
1 - a = 1 - 0.05 = 95% dat het gemiddelde u daarin ligt.
Steekproef trekken
- n = 50
- IQ per student
- x| = steekproef 115
- 95 % BI berekenen
- BI VARIEERT VAN STEEKPROEF
Ligt de U in het INTERVAL?
Interpretatie:
in 95% van de INTERVALLEN zullen het WERKELIJK POPULATIEGEMIDDELDE BEVATTEN en 5% zulllen dat NIET BEVATTEN.
EIGENSCHAPPEN BI
BREEDTE moet zo SMAL MOGELIJK zijn IQ - 70 en 150 100% zeker? Informatie = gering. Wat weet je met IQ 70/150?
Breedte hangt af van: N: Hoe groter N hoe SMALLER (nauwkeuriger en beter) het BETROUWBAARHEIDSINTERVAL a: als ALPHA TOENEEMT hoe SMALLER HET BETROUWBAARHEIDSINTERVAL Als alpha a = 0.005 = 2.56780 a = 0.025 = 1.96 a = 0.050 = 1.64 a = 0.1 = 1.28
als ALPHA TOENEEMT NEEMT DE BETROUWBAARHEID AF.
90% BI = SMALLER
99% BI = breder- bijna 100% bijna alles ligt erin.
o: weinig impact op - populatieparameter
Uitkijken met vraagstelling:
150 Onderzoekers onderzoeken slaapgewoonten -> = 150 BI waarvan bij een 90% 1-a 10% daar niet in vallen = dus 15 intervallen.
Twee onderzoekers willen de gemiddelde score op het examen Statistiek I schatten. Onderzoeker A zal op volledige willekeurige wijze een steekproef van 50 studenten uit de populatie selecteren, terwijl onderzoeker B via een aankondiging op Ufora 50 vrijwilligers zoekt. Eenmaal het examen is afgelegd, krijgen beide onderzoekers de scores van de 50 studenten in hun steekproef en berekenen ze een 95% betrouwbaarheidsinterval voor het gemiddelde. Welke onderzoeker heeft een 95% kans dat zijn/haar interval het werkelijk gemiddelde bevat?
Onderzoeker A werkt met een ASELECTE steekproef en zoals we gezien hebben in de theorie zal deze onderzoeker 95% kans hebben dat het WERKELIJK GEMIDDELDE in zijn/haar interval ligt (bij herhaalde steekproefname). Onderzoeker B neemt echter geen aselecte steekproef: omdat de studenten vrijwillig kunnen deelnemen kan het zijn dat de gemiddelde score voor deze studenten NIET REPRESENTATIEFis. Indien bijvoorbeeld enkel de studenten die actief bezig zijn met het vak deelnemen en deze studenten gemiddelde beter presteren, dan zal het steekproefgemiddelde voor onderzoeker B het populatiegemiddelde systematisch te hoog schatten bij herhaalde steekproefname. Dit kan resulteren in een betrouwbaarheid verschillend van 95%. Het is enkel voor aselecte steekproeftrekking dat we zeker zijn over de betrouwbaarheid (want we doen beroep op de zuiverheid van de schatter bij de uitwerking van het interval), bij andere steekproeftrekkingen kunnen we met de technieken gezien in deze cursus geen uitspraak doen over de betrouwbaarheid.
X NORMAAL VERDEELD EN
ONGEKENDE POPULATIEVARIANTIE
verschillen standaardnormale
X niet normaal verdeeld
Hoe opstellen BI?
o2 = onbekend - eerdere formules NIET TOEPASSEN
schatten op basis van de STEEKPROEFSTANDAARDEVIATIE
ANDER INTERVAL CONSTRUEREN
INDIEN X ~ N
EIGENSCHAP 1
1. ( n -1 ) S2x / o2 ~ X 2k chikwadraat
EIGENSCHAP 2
Als X normaal = verdeeld dan volgt
X| - u / o / wortel N ~ X (0,1) standaard normaal
Herinner je de T-VERDELING
etc vereenvoudigen
X|-u /(Sx / wortel N)
QT (0.975)
Letten op:
QT IPV PT
T-verdeling = ietsie breder - meer variabiliteit
Formules:
Statistische toetsen
STAP 1 HYPTOHESE
TOETSINGROOTHEID
- BI steekproef -> populatie
- Statistische toetsen
Is het IQ gemiddeld van 15?
Stap 1.
h0:u = 115 nulhypothese Bewijs (bewijs tegen h0 TOETSINGSGROOTHEID) vinden tegen h0? indien voldoende h0 verwerpen.
Ha: u /- 115
Nooit 100% zeker van de conclusie - a
Als x| ongeveer gelijk is aan 115 gaan we h0 niet verwerpen
als x| sterk verschilt van 115 gaan we h0 verwerpen
is 112.7 verschillend genoeg?
TOETSINGSGROOTHEID - bewijs tegen h0
Stap 2
ALS h0:u= u0 WAAR is dan: !!! G = X| - u0/ Sx / wortel N
G toetsinggrootheid g = waarde van variabele aka realisatie
G ~ h0 ~ t n-1
TOETSINGROOTHEID = MEESTE MASSA ROND 0!!! -> sterk ervan af wijken?
Wanneer het werkelijke populatiegemiddelde groter -> positieve waarde
Wanneer het werkelijke populatiegemiddelde groter -> negatieve waarde
Beslissingsregels
en interpretatie
h0 = waar = G = 0 H0 = niet waar = G = sterk verschillend 0
Ligt de G-score in het interval van de T of Z waarden?
bv. -1.96 .1.96 G = 1.11 = h0 behouden
1-a = AANVAARDINGSGEBIED = AANVAARDEN H0 a = VERWERPINGSGEBIED = VERWERPEN H0
op basis van de data hebben wij GEEN bewijs gevonden dat het POPULATIEGEMIDDELDE verschillend is van 115 op een significantieniveau van 5%!
Type 1 en Type 2 fout
4 scenario’s
A. De h0 = WAAR (u = u0) en we VERWERPEN h0 NIET. -> correct besluit (1-A)
B. De h0 = waar (u = u0) en we VERWERPEN h0 WEL -> FOUT (a)
voor deze 2 scenario’s
als n groot = centrale limietstelling garandeert dat kans type 1 fout ongeveer gelijk is aan a!
als N klein = de kans op een type 1 fout kan sterk verschillen van a -> we kunnen de TEST NIET GEBRUIKEN
C. de Ha = waar (u =/ u0) en we VERPEN Ha NIET -> FOUT B
D. De Ha = waar (u =/ u0) we verWERPEN ha WEL -> CORRECT (1-B)
H0 = NIET WAAR (of HA = waar)
We kunnen B niet controleren via de statistische TOETS. Beta hangt af van:
B daalt als N stijgt! meer info over populatie kleinere kans op fout.
B stijgt als a daalt ~ Kleinere a B stijgt
!!!!!!!!!!!!!!!!!!
Schema!
Beslissingsregels obv het BETROUWBAARHEIDSINTERVAL
in R
Ligt ‘u’ in het betrouwbaarheidsinterval?
mu = 115
i/h betrouwbaarheidsinterval? -> h0 aanvaarden.
Kritische waarden:
bv. g = t 0.987
overschrijdingskans = -0.987 en + 0.987