Statistiek deel 3 INDUCTIE Flashcards

1
Q
Steekproevenverdeling
notatie
deel2/3
kans
toevalsvariabele
A

Populatie te groot -> steekproef -> inductie populatie

Aselecte steekproef
Willekeurig worden N elementen geselecteerd uit de populatie en we veronderstellen at deze n elementen onafhankelijk zijn van elkaar.

Deel 1
1 Steekproef
X = variabele
x1, x2 = waarden

Deel 3
MEERDERE STEEKPROEVEN
X: variabelen
x1,x2,x3 = gemeten waarden van variabele 1 steekproef
X1, X2, X3, = de n waarden van de variabele van EEN STEEKPROEF in het algemeen

conceptueel = in HOOFDLETTERS
realisatie = kleine letters

DEEL 2
P(X = 5) = 0.02014
= 20.14 kinderen hebben een score van 5.
= :P ( X = xi) is een RELATIEVE fq (op populatieniveau)

DEEL 3
Herhaald steekproef trekking,

wat is een kans? munt opwerpen 50%
Wat betekent die 50%?
———-> Frequentistische betekenis:
oneindig aantal keer = i/d helft van de keren 50%

de KANS op een GEBEURTENIS (hier het werpen van een munt) is GELIJK AAN de RELATIEVE FREQUENTIE van de GEBEURTENIS indien we het EXPERIMENT (opwerpen van geldstuk) ONEINDIG AANTAL KEER HERHALEN.

Dit wordt gekoppeld aan de formule definitie.
P ( Y = munt) = lim n-> oneindig fmunt/n
(Fmunt)/ n

KANSINTERPRETATIE via HERHAALDE STEEKPROEFTREKKING

  1. selecteer willekeurig een kind uit de populatie neem de test af. noteer score.
  2. selcteer willekeurig een kind uit de populatie neem de tst af. noteer score.
  3. oneindig -»»»»»>
  4. -> 20.14% van alle scores zijn gelijk aan 5.

Verschil tussen Experiment en de Gebeurtenis.

hoe vaker het experiment herhaald -> KANSVERDELING V/D POPULATIE
n = 8 oneindig.
Kansverdeling v/d populatie (deel 2).

Variabele = TOEVALSVARIABELE
omdat:
het resultaat aanduidt vaan een toevallige trekking van een ELEMENT uit de populatie
Ze is veranderlijk om niet alle elementen dezelfde waarden HEBBEN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Steekproevenverdeling v-h gemiddelde

A

Vraag: is x|: 5.92 representatief voor de populatie of is dit zeer laag/zeer hoog?

  1. x|: 5.92
  2. x|: 6.16
  3. x|: 5.88
  4. x|: 5.90

STEEKPROEFGEMIDDELDE VARIEERT. In dit HOOFDSTUK wordt het met grote letter X aangeduid. waarom? het VARIEERT.

Steekproefgrootheid
we herhalen de steekproef 1000 keer, we nemen daar het gemiddelde van X|

We herhalen het niet 1000 keer, maar ONEINDIG AANTAL KEER keer dan maak je een histogram. Dat is het STEEKPROEVENVERDELING van het GEMIDDELDE/

!!! Dat = NIET GELIJK AAN DE FREQUENTIEVERDELING. Dat is BINNEN een gemiddelde. TERWIJL STEEKPROEVENVERDELING v/h gemiddelde gaat OVER STEEKPROEVEN HEEN.

Waarom Steekproevenverdeling? Reproduceerbaar is die conclusie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Steekproevengemiddelde
stelling
wet van de grote getallen
Opdracht

A

Stelling:
De verwachtingswaarde van het STEEKPROEFGEMIDDELDE X| is gelijk aan het POPULATIEGEMIDDELDE van de variabele X:

E(X|) = ux
E (X|) = E(X)

Stelling
V(X|) = o2x / n

Variantie van het STEEKPROEFGEMIDDELDE = variante van het steekproefgemiddelde gedeeld door n.

V (X|) = NIET GELIJK aan V (X) -> nog delen door steekproefgrootte.

Hoe groter n dan gaat de steekkproefgemiddelde minder VARIEREN.
Dus hoe groter N hoe beter het steekproefgemiddelde het POPULATIEGEMIDDELDE gaat BENADEREN

Stelling
Als de POPULATIE een NORMALE VERDELING volgt, dan zal de STEEKPROEFGEMIDDELDE ook een normale verdeling volgen. Dus als de STEEKPROEF uit een normale verdeling komt, dan wordt dan geeerfd.

Benton Visual retention test: 1000 herhalingen -> DISCRETE VARIABELEN (SCORE OP 10) dus dat TELT NIET.
Hoe kan dat?

———————–>
CENTRALE LIMIETSTELLING

X1, Xn, ONAFHANKELIJKE trekkingen zijn ujit een populatie met een gemiddelde ux, en variantie o2x, dan wordt de VERDELING van het STEEKPROEFGEMIDDELDE naarmate N groter wordt STEEDS BETER BENADERD wordt door de normale verdeling met gemiddelde ux, en variantie o2x/n

VUISTREGEL n30+

Opdracht
is x| = 5.92 (Benton) representatief VOOR DE POPULATIE of is dit Zeer HOOG of LAGE score..

De kans P (X| < 5.92) kan ons hierop een antwoord geven
P (X| < 5.92) ~ ongeveer 0 = een ZEER LAGE KANS
P (X| < 5.92) ~ ONGEVEER 1 = EEN ZEER HOGE KANS.

Hoe bepalen we de kans? (X| < 5.92)?
A - 1000 keer die steekproeftrekken -> gemiddelden. Relatieve frequenties nakijken -> 5.92 -> 0.374%
B
1.
P (X| < x) = P ( Z < x-ux / wortel o2x/n), Z ~ N (0,1)

P (X| < 5.92) = P ( Z < 5.92 - ux / wortel o2x/n) = P ( Z < 5.92 - 5.9939 / wortel 2.417/50)

= P (Z < -0.34)

Visualiseren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Extra Steekproevenverdeling Variantie

A

Steekproevenverdeling v-d variantie.

Eigenschappen:
2 soorten variantie’s: s2x (delen door n-1) en sn2 (delen door n)
E (SN2x) = n-1/n * o2x -> minder ZUIVERE SCHATTER
E (S2X) = o2x -> ZUIVERE SCHATTER

Indien variabele i/d populatie normaal verdeeld is dan mag je er vanuit gaan dat:
X ~ N (u, o2x) -> dat deze formule geldt een GEKENDE VERDELING CHI KWADRAAT
(n-1) * S2x / o2x ~ X ~ n-1 vrijheidsgraden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Extra

Steekproevenverdeling Gemiddelde

A

Steekproevenverdeling Gemiddelde

Ben geinteresseerd in leeftijd RHCP fans over de hele wereld
populatie = over de hele wereld verspreid
n = 50
x| = 37.5
o2x= 2.5

meerdere steekproeven verschillende (n, x| & o2x).
bv. y| = 34
z| = 35

37.5 + 34 + 35 / 3 = Steekproevenverdeling v/h gemiddelde

E (X|) -> X overstreept = de leeftijd van de
E(X|) = ux = de populatie
De verwachting van de steekproevenverdeling = gelijk aan de ux

V (X|) = Variantie steekproevenverdeling = niet gelijk
Variantie uit de populatie delen door n: o2x / n

Hoe weten welke verdeling?
1. X variabele NORMAAL VERDEELD!!!!! = met een X ~ N (u, o2x) ———> X| ~ N (u, o2/n).
X = normaal verdeeld dan mag je ervanuit gaan steekproevenverdeling v/h gemiddelde normaal verdeeld.
2. Aantal observaties groter dan > 30 ——–> X| ~N (u, o2x/n)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Extra STANDAARDISEREN steekproeefverdeling

+ SCHEMA standaard steekproefverd.

A

Z = x - u / ox

Indien.

  1. n > 30
  2. getrokken uit normaal verdeling

Iedere normaal verdeling -> kan worden omgevormd tot standaardnormale verdeling.

X| - E ( X ) / vierkantswortel van Variantie van X|/ n (!!!!!!!!!!!!!!!!!!!)

Verwachting van het gemiddelde = E (X) = ux
Verwachting van de variantie van X| = o2x/n

SCHEMA X en X|
BIJ EEN NORMALE VERDELING
X ~ N (ux, o2x)

Stap 1. Is X normaal verdeeld?
Stap 2. Bepalen E (X) = ux of het gemiddelde van de populatie 
 en V (X) = o2x -> wortel = stdev = ox

x-u/o

BIJ GEMIDDELDES EN STEEKPROEVENVERDELING.
X| ~ N (u, o2x / n)

  1. De kans boven of onder een GEMIDDELDE of tussen 2 gemiddeldes?
  2. is X| NORMAAL verdeeld of niet?
    2.1 uit de opgave = normaal verdeeld -> ook normaal verdeling MAAR ( u, o2x/N (!!!)
    2.2 N > 30
  3. Bepalen E(X|) en V (X|)
    E(X|) = verwachting i/d populatie = ux
    V (X|) = o2x = o2x / n !!!!!!!!!!!!! -> sigma x gedeeld door / wortel van N
  4. Standaardiseren X| - ux / o / wortel N
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Schatters

A

Populatiegemiddelde kan je schatten obv de steekproefgemiddelde

! 0 = een goede schatter indien ze ZUIVER m.a.w de schatter = gelijk aan de populatieparameter. Niet te groot of te klein wordt geschat.

0> = 0 hoedje = SCHATTER

  • De variantie van de SCHATTER V ( 0 >) wordt KLEINER naarmate N toeneemt WAARDOOR NAUWKEURIGER.
    m. a.w De schatter = NAUWKEURIGER indien de STEEKPROEF groter wordt.

Wortel V (0>) = STANDAARDFOUT

Stelling

E ( X} ) = u

X| = een zuivere schatter van u

V ( X| ) = o2/ n

V ( X| ) neemt AF als N GROTER wordt.

Schatter = VARIABELE hetgeen wat we bekomen op een variabele zonder

Schatting = de BEKOKMEN GETALLEN, realisaties van de VARIABELE obv 1 steekproef.

SN2X = GEEN ZUIVERE SCHATTER voor o2
S2x =WEL een ZUIVERE SCHATTER voor o2

VARIANTIE NEEMT AF (SN2X + S2X) als N TOENEEMT (!) EN WORDT DUS ‘ZUIVERDER’.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

BETROUWBAARHEIDSINTERVAL

A

GEMIDDELDE IQ VAN BACHELOR?

STEEKPROEF

X = IQ 
n = 50
x| = 112.7 - deze schatting = wss niet GELIJK AAN het populatiegemiddelde

ZEER WAARSCHIJNLIJK dat 112.70 niet GELIJK IS AAN het POPULATIEGEMIDDELDE oftewel u

  1. X = normaal verdeeld
  2. o2 = BEKEND (onrealistische aanname)

X ~ N (u, o2) u = ONBEKEND

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

BI
X = NORMAAL VERDEELD
+ GEKENDE POPULATIEVARIANTIE o2x

A

Extra notatie: z (kleine letter) a (= een GETAL uit een standaardnormale verdeling)
Grote letter Z (Grote letter) (=STANDAARDNORMALE VERDELING)
za = een bepaald getal dat de oppervlakte rechts P ( Z > za) = a
a = de kans zodat de oppervlakte (rechts gelijk aan alpha)

VOORBEELD
getal = kwantiel
bv. bepaal Z: 0.025 (obv z output)
De waarde Z0.025 zodat de oppervlakte RECHTS van z: 0.025 gelijk is aan 0.025.

Dat kunnen we berekenen met QNORM (Z: 0.025)
We krijgen een kans z: 0.025 -> wat is de KWANTIEL dat aan de rechterkant gelijk is.

in R altijd OPPERVLAKTE LINKS.
= 1 - P (z > z 0.025) =
Dus Qnorm (0.975)

(z > z 0.025) in R 2 mogelijkheden.

  1. Qnorm (0.975)
  2. Qnorm (0.025) = lower. tail = FALSE

Mogelijke verwarring:
Za/2 = 0.025%
a = 0.05 / 2 = 0.0025 = 1.96

Standaardverdeling =
SYMMETRISCH = rond 0
De oppervlakte tussen -Z/a EN Z/a = 1 - a
-1.96 en + 1.96

a: = 2.5% aan de rechter kant
a = 2.5 aan de linker kant

Standaardiseren
X| - u / (o / wortel N)
95% van de realisaties.

DE KANS DAT POPULATIEGEMIDDELDE U !!!! = GELIJK AAN 1-A
(1-a)100% betrouwbaarheidsinterval.

De uitkomst: het 95% betrouwbaarheids interval populatiegemiddelde u = gelijk aan [108.5, 116.9]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interpretatie BI

EIGENSCHAPPEN BI

A

De kans dat POPULATIEGEMIDDELDE U in de ONDER- of BOVENGRENS =
1 - a = 1 - 0.05 = 95% dat het gemiddelde u daarin ligt.

Steekproef trekken

  1. n = 50
  2. IQ per student
  3. x| = steekproef 115
  4. 95 % BI berekenen
  5. BI VARIEERT VAN STEEKPROEF

Ligt de U in het INTERVAL?

Interpretatie:
in 95% van de INTERVALLEN zullen het WERKELIJK POPULATIEGEMIDDELDE BEVATTEN en 5% zulllen dat NIET BEVATTEN.

EIGENSCHAPPEN BI
BREEDTE moet zo SMAL MOGELIJK zijn IQ - 70 en 150 100% zeker? Informatie = gering. Wat weet je met IQ 70/150?

Breedte hangt af van:
N:  Hoe groter N hoe SMALLER (nauwkeuriger en beter) het BETROUWBAARHEIDSINTERVAL
a:  als ALPHA TOENEEMT hoe SMALLER HET BETROUWBAARHEIDSINTERVAL
Als alpha 
a = 0.005 =  2.56780
a = 0.025 = 1.96
a = 0.050 =  1.64
a = 0.1 = 1.28

als ALPHA TOENEEMT NEEMT DE BETROUWBAARHEID AF.
90% BI = SMALLER
99% BI = breder- bijna 100% bijna alles ligt erin.

o: weinig impact op - populatieparameter

Uitkijken met vraagstelling:
150 Onderzoekers onderzoeken slaapgewoonten -> = 150 BI waarvan bij een 90% 1-a 10% daar niet in vallen = dus 15 intervallen.

Twee onderzoekers willen de gemiddelde score op het examen Statistiek I schatten. Onderzoeker A zal op volledige willekeurige wijze een steekproef van 50 studenten uit de populatie selecteren, terwijl onderzoeker B via een aankondiging op Ufora 50 vrijwilligers zoekt. Eenmaal het examen is afgelegd, krijgen beide onderzoekers de scores van de 50 studenten in hun steekproef en berekenen ze een 95% betrouwbaarheidsinterval voor het gemiddelde. Welke onderzoeker heeft een 95% kans dat zijn/haar interval het werkelijk gemiddelde bevat?

Onderzoeker A werkt met een ASELECTE steekproef en zoals we gezien hebben in de theorie zal deze onderzoeker 95% kans hebben dat het WERKELIJK GEMIDDELDE in zijn/haar interval ligt (bij herhaalde steekproefname). Onderzoeker B neemt echter geen aselecte steekproef: omdat de studenten vrijwillig kunnen deelnemen kan het zijn dat de gemiddelde score voor deze studenten NIET REPRESENTATIEFis. Indien bijvoorbeeld enkel de studenten die actief bezig zijn met het vak deelnemen en deze studenten gemiddelde beter presteren, dan zal het steekproefgemiddelde voor onderzoeker B het populatiegemiddelde systematisch te hoog schatten bij herhaalde steekproefname. Dit kan resulteren in een betrouwbaarheid verschillend van 95%. Het is enkel voor aselecte steekproeftrekking dat we zeker zijn over de betrouwbaarheid (want we doen beroep op de zuiverheid van de schatter bij de uitwerking van het interval), bij andere steekproeftrekkingen kunnen we met de technieken gezien in deze cursus geen uitspraak doen over de betrouwbaarheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

X NORMAAL VERDEELD EN
ONGEKENDE POPULATIEVARIANTIE
verschillen standaardnormale

X niet normaal verdeeld

A

Hoe opstellen BI?
o2 = onbekend - eerdere formules NIET TOEPASSEN

schatten op basis van de STEEKPROEFSTANDAARDEVIATIE

ANDER INTERVAL CONSTRUEREN
INDIEN X ~ N
EIGENSCHAP 1
1. ( n -1 ) S2x / o2 ~ X 2k chikwadraat

EIGENSCHAP 2
Als X normaal = verdeeld dan volgt
X| - u / o / wortel N ~ X (0,1) standaard normaal

Herinner je de T-VERDELING
etc vereenvoudigen

X|-u /(Sx / wortel N)

QT (0.975)

Letten op:
QT IPV PT
T-verdeling = ietsie breder - meer variabiliteit

Formules:

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Statistische toetsen
STAP 1 HYPTOHESE
TOETSINGROOTHEID

A
  1. BI steekproef -> populatie
  2. Statistische toetsen

Is het IQ gemiddeld van 15?

Stap 1.
h0:u = 115 nulhypothese Bewijs (bewijs tegen h0 TOETSINGSGROOTHEID) vinden tegen h0? indien voldoende h0 verwerpen.
Ha: u /- 115

Nooit 100% zeker van de conclusie - a

Als x| ongeveer gelijk is aan 115 gaan we h0 niet verwerpen
als x| sterk verschilt van 115 gaan we h0 verwerpen

is 112.7 verschillend genoeg?

TOETSINGSGROOTHEID - bewijs tegen h0
Stap 2
ALS h0:u= u0 WAAR is dan: !!! G = X| - u0/ Sx / wortel N

G toetsinggrootheid g = waarde van variabele aka realisatie
G ~ h0 ~ t n-1

TOETSINGROOTHEID = MEESTE MASSA ROND 0!!! -> sterk ervan af wijken?

Wanneer het werkelijke populatiegemiddelde groter -> positieve waarde
Wanneer het werkelijke populatiegemiddelde groter -> negatieve waarde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Beslissingsregels

en interpretatie

A
h0 = waar = G = 0
H0 = niet waar = G = sterk verschillend 0

Ligt de G-score in het interval van de T of Z waarden?
bv. -1.96 .1.96 G = 1.11 = h0 behouden

1-a = AANVAARDINGSGEBIED = AANVAARDEN H0
a = VERWERPINGSGEBIED = VERWERPEN H0

op basis van de data hebben wij GEEN bewijs gevonden dat het POPULATIEGEMIDDELDE verschillend is van 115 op een significantieniveau van 5%!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Type 1 en Type 2 fout

A

4 scenario’s

A. De h0 = WAAR (u = u0) en we VERWERPEN h0 NIET. -> correct besluit (1-A)
B. De h0 = waar (u = u0) en we VERWERPEN h0 WEL -> FOUT (a)

voor deze 2 scenario’s
als n groot = centrale limietstelling garandeert dat kans type 1 fout ongeveer gelijk is aan a!
als N klein = de kans op een type 1 fout kan sterk verschillen van a -> we kunnen de TEST NIET GEBRUIKEN

C. de Ha = waar (u =/ u0) en we VERPEN Ha NIET -> FOUT B
D. De Ha = waar (u =/ u0) we verWERPEN ha WEL -> CORRECT (1-B)

H0 = NIET WAAR (of HA = waar)
We kunnen B niet controleren via de statistische TOETS. Beta hangt af van:
B daalt als N stijgt! meer info over populatie kleinere kans op fout.
B stijgt als a daalt ~ Kleinere a B stijgt
!!!!!!!!!!!!!!!!!!

Schema!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Beslissingsregels obv het BETROUWBAARHEIDSINTERVAL

A

in R

Ligt ‘u’ in het betrouwbaarheidsinterval?
mu = 115

i/h betrouwbaarheidsinterval? -> h0 aanvaarden.

Kritische waarden:
bv. g = t 0.987

overschrijdingskans = -0.987 en + 0.987

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Eenzijdige toetsen

/ ha

A

h0: u =u0
ha: a =/ u0

H0: u=u0 vs ha Ha: u u0 (rechtszijdig)

Power ~ links/rechtszijdig afhankelijk van het van de OZ vraag.

Een onderzoeker wenst via data afkomstig van een IAT-test te toetsen of de congruente opdrachten gemiddeld gezien sneller worden uitgevoerd dan de incongruente opdrachten. Laat Y=Xcongruent−Xincongruent met X de reactietijd. Kies de alternatieve hypothese horende bij de statistische toets.

Uit de vraagstelling halen we dat de onderzoeker wil weten of de congruente opdrachten gemiddeld gezien sneller worden uitgevoerd, dus dat de reactietijd bij de congruente opdrachten kleiner is. Dit komt overeen met negatieve waarde van E(Y) (omdat dan E(Xcongruent)

17
Q

p-waarde

A

p-waarde = OVERSCHRIJDINGSKANS

als p > a verwerpen we H0 NIET
als a > p verwpen we h0 en besluiten we ha

de p-waarde is een om een TOETSINGSGROOTHEID te OBSERVEREN die MINSTENS EVEN EXTREEM is als die is waargenomen in de veronderstelling dat H0 WAAR is.

p-waarde hangt af van Ha
p-waarde is een kans 0 > 1
p-waarde wordt berekent in de veronderstelling dat h0 waar is.

Tweezijdige p-waarde
toetsingwaarde positief = de p-waarde TWEE MAAL
toetsingwaarde negatief = de p-waarde TWEE MAAL
2*pt

interpretatie:
h0: u = 115
ha : u < 115

g = -0.98
p (P < -0.98) = 0.17

17% van die toetsingrootheden zullen KLEINER zijn dan die -0.98!

Hoe kleiner de p-waarde HOE GROTER DE BEWIJSKRACHT TEGEN DE NULHYPOTHESE IN RICHTING VAN DE ALTERNATIEVE HYPOTHESE.