Stat felvételi Flashcards
KÍSÉRLET: egy kutató vizsgálni akarja xy gyógyszer meggyógyítja e a Z betegségben szenvedőket — mit csinál ennek kiderítésére?
-mikor valid eredmény- mikor lehet probléma
3 PONT
- statisztikusok az összehasonlítás! módszerével dolgoznak.
Arra kíváncsiak, hogy egy kezelésnek! (mint pl. a Salk-féle oltásnak) mi a hatása egy válaszra ! (így arra, megbetegszik-e valaki gyermekbénulásban).
=kezelt csoport összehasonlítása kontroll csoporttal
- Ha a kezelt csoport – a kezeléstől eltekintve – ugyanolyan, mint a kontrollcsoport, akkor a válaszok eltérését a két csoport között feltehetőleg a kezelés okozza.
- Ha viszont a kezelt csoport más tényezők tekintetében is különbözik a kontrollcsoporttól, akkor
a válaszok eltérését nem biztos hogy a kezelés okozza.
KÍSÉRLET : mit kell tenni ahhoz hogy a kezelt és a kontroll csoport hasonló legyen ?
sorsolt kontrollú kísérletek=
a kutatók a vizsgálat alanyait véletlenszerűen (sorsolással, random módon) sorolják a kezelt, illetőleg a kontrollcsoportba.
mit kell tenni ahhoz hogy pontosabban tudjam kiértékelni az eredményeket- kísérleteknél? 2 DOLOG
- Ha lehetséges, a kontrollcsoportnak placebót adnak – valami semlegeset, ami hasonlít a kezelésre. Jó tudni, hogy a kezelés vagy a kezelés gondolata okozza-e a választ.
- Kettős-vak kísérletnél az alanyok nem tudják, hogy a kezelt vagy a kontrollcsoportban vannak-e; és nem tudják ezt róluk az orvosok sem. Ez a válaszoknál és az értékelésnél is óv a torzítástól.
(cél: kísérleti elfogultság kiküszöbölése)
miben másak a megfigyelések mint a kísérletek?
Megfigyeléses vizsgálatnál nem a kutatók sorolják az alanyokat kezelt, és kontrollcsoportba. Az alanyok egy részére teljesül az a feltétel, amelynek hatását vizsgálják – ők a kezelt csoport. A többi alany alkotja a kontrollcsoportot
(nem kérhetek meg mint egy kísérletnél 10 embert hogy kezdjen már el a kutatásom miatt élete végéig cigizni- muszáj megfigyelnem eleve cigizőket)
mit lehet megállapítani jó esetben megfigyeléseknél- 2 dolog?
Megfigyeléses vizsgálatok alapján összefüggést lehet megállapítani. Lehet, hogy az összefüggés oksági kapcsolatra utal,
de: Az összefüggés nem bizonyítja az oksági kapcsolatot.
mi lehet a megfigyeléses vizsgálatok fő problémája/akadályozó tényezője?
Az összemosódás
olyan – a kezelésen túli – eltérés a kezelt, és a kontrollcsoport között, mely befolyásolja a tanulmányozott reakciót.
mit nevezünk kontrollált kísérletnek?
kutató döntésén múlik ki kap kezelést és ki nem
vizsgálatok fajtái?
lehet valami kontrollcsoportos vagy nem kontrollcsoportos vizsgálat
(kontrollcsoport: nem kap kezelést ugye)
ha van kontrollcsoport akkor
1, történeti (olyan beteg akiket régi módon kezeltek)
2, kortárs kontrollt használtak
ha kortárs kontroll használtak
akkor lehet
3, kontrollált kíséretről vagy 4, megfigyelésről szó
ha kontrollált kísérlet akkor
sorsolt kontrollú vagy nem sorsolt kontrollú vizsgálatról van szó
melyiket érdemes használni történeti kontroll vagy kortárs kontroll?
kortárs
hogyan küszöbölhető ki az összemosódás?
A megfigyeléses vizsgálatoknál kézben kell tartani az összemosó változókat. Az egyik eljárás az, hogy kisebb, egyneműbb csoportokat hasonlítunk össze. (Statisztikus zsargonban: bontunk, az összemosó változók szerint.)
összemosódás kiküszöbölésére példa? CSAK OLVASNI
Ha például az összes dohányosokat az összes nemdohányzókkal hasonlítanánk össze a halálozási arányszámok tekintetében, az valószínűleg félrevezető eredményt adna, mert a dohányosok között aránytalanul sok a férfi, és a férfiaknak általában is jelentősen nagyobb a hajlama a szívbetegségekre, mint a nőknek. Lehetséges volna tehát, hogy a dohányosok és nemdohányosok között mutatkozó különbséget ez a férfiak és nők közötti aránytalanság okozza. Hogy ezt a lehetőséget ki lehessen zárni, a dohányzó férfiakat a nemdohányzó férfiakkal hasonlítják össze az epidemiológusok, a dohányzó nőket pedig a nemdohányzó nőkkel.
Lehet az életkor is összemosó változó. Idősebb embereknek mások a dohányzási szokásai, és nagyobb az esélyük a tüdőrákra
mi a valószínűség? miben fejezzük ki?
Egy dolognak a valószínűsége megmondja, hogy ez a dolog az eseteknek várhatóan hány százalékában
következik be akkor, ha egymás után sokszor, egymástól függetlenül, s mindig ugyanolyan körülmények között
megismételjük az alapkísérletet.
A valószínűség 0% és 100% közé esik.
mi a függetlenség? PL?
Két esemény független, ha akármi az első kimenetele, a másodiknak változatlan marad a valószínűsége.
Ha két esemény független, akkor feltétel nélküli valószínűségeik szorzata megadja annak a valószínűségét,
hogy mindketten bekövetkeznek. Ez a szorzási szabály speciális esete.
Véletlenszerű húzás során a dobozban lévő mindegyik lap kihúzásának ugyanakkora az esélye. Ha a
húzásokat visszatevéssel végezzük, a húzások függetlenek. Visszatevés nélküli húzáskor a húzások
összefüggenek.
mi a szorzási szabály?
Tekintsünk két eseményt. Annak a valószínűségét, hogy ezek mindketten bekövetkeznek, megkapjuk, ha az
egyik bekövetkezésének valószínűségét összeszorozzuk annak a feltételes valószínűségével, hogy a másik
bekövetkezik, feltéve, hogy az első bekövetkezett. Ez a szorzási szabály.
valszínűségszámítás -mikor kölcsönösen kizáró két esemény?
egyik esemény bekövetkezése kizárja a másik esemény bekövetkezését
összeadási szabály?
Ha az a kérdés, hogy két esemény közül milyen valószínűséggel következik be legalább az
egyik, ellenőrizni kell, egymást kölcsönösen kizáró-e ez a két dolog. Ha igen, adjuk össze a valószínűségüket.
mit nevezünk elemek halmazának melyet vizsgálunk?
sokaság, populáció
mi az a minta és mire jó ?
a teljes populáció vizsgálata sokszor lehetetlen
ezért a populációnak csak egy részét vizsgálom
ezt nevem mintának
mintavétel célja?
a sokaság/populáció egészére nézve tudjunk következtetéseket megfogalmazni
mintavételes tétel- mit nevezünk paraméternek?
számszerű tények a sokaságról/populációról
pl: szavazásra jogosultak átlagéletkora
hogyan becsüljük meg a paramétereket?
és ezt mikor tehetjük meg eredményesen ?
statisztikákkal, az az a mintából kiszámolt számokkal becsüljük
Egy mintából csak akkor jogos paramétereket becsülnünk, ha a minta reprezentálja az alapsokaságot.
azt kell megnéznünk, hogyan választották ki
a mintát. Egyes eljárások jellemzően rosszul működnek. Mások nagy valószínűséggel
reprezentatív mintát adnak.
milyen típusú mintavételi hibák fordulhatnak elő?
1, Fedési hiba másnéven mintavételi torzítás : a mintavételi keret hibája, amely abból fakad, hogy nem mindenkinek van egyáltalán esélye a mintavételi keretbe kerülésre. (könyv -Literary Digest- kiből lesz elnök- gazdagok felülreprezentáltak)
2, Nem válaszolási hiba: amely abból ered, hogy nem mindenki válaszol a mintába kerültek közül.
3, Mérési hiba: az eszközök hibája, a válaszok hiteltelensége.
4, Feldolgozási hiba.
hogy fogalmazom meg azt statisztikaiul xd hogy a szegények közül nem kerültek be elegendően a mintába?
(mintavételi torzítés -fedési hiba esete -Digest példa rá)
A Digest kiválasztási eljárásában tehát igen erős torzítás rejlett a szegényekkel szemben
mintavételi torzítás esetén segít az ha nagyobb mintával dolgozunk? kiküszöböli a több válaszadó a fedési hibát?
nem (ha eleve rosszul választunk ki egyéneket akkor nem segít az hogy több egyén válaszait vizsgáljuk —kiválasztásunk a problémás)
nem válaszolási hiba más néven?
nem válaszolók torzítása (fellép)
nem válaszolási hiba miért rossz? -két példa
elég nagyon röviden tudni a példákat
A nem válaszolók erősen különbözhetnek a válaszolóktól. Nagyarányú válaszhiánynál figyeljünk oda a nem
válaszolók torzítására!
ok: kevésbé hajlamosak visszaküldeni a kérdőíveket az alacsony és a magas jövedelműek, tehát a válaszolók
között túlreprezentált a középosztály.
másik példa : a nem válaszolók
torzításának problémája személyes megkérdezés során is fennáll. Azok, akik a kérdező telefonhívásakor nem
voltak otthon, meglehetősen különbözhetnek az otthon talált emberektől – például munkaidejüket, családi
kötöttségeiket, társadalmi hátterüket tekintve, és így attitűdjeikben is
mintavételi eljárások két fajtája?-röviden mi alapján különböznek
1, véletlen mintavételi eljárások =valószínűségi
=a populáció minden tagjának egyforma esélye van a mintába való bekerülésre.
a véletlenszerűséget objektív módon kell biztosítani -véletlenszám generálás pl. erre eszköz
2, nem véletlen mintavételi eljárások
itt nincs véletlenszerűség abban, hogy mik/ kik alkotják a mintát
véletlen mintavételi eljárások?
független azonos eloszlású (mv)
egyszerű véletlen
rétegzett
csoportos
+többlépcsős mintavétel
független azonos eloszlású mintavétel mi?
független jelentése= a mintába kerülő elemeket visszatevéssel választják ki
azonos eloszlás jelentése=az elemek adatai nem változnak idő közben
problémát okozhat akkor, ha valamilyen szélsőséges elem többször bekerül a
mintába.
egyszerű véletlen mintavétel?
a populáció minden eleme egyenlő valószínűséggel kerülhet be, továbbá ezen eljárás alkalmazásakor a sokaságot nem osztjuk fel semmilyen alcsoportokra.
a felesleges duplikációk nélkül hasznosabbnak tűnik, de vannak olyan esetek amikben nem tudom garantálni, hogy kivegyem az illetőt/elemet =és ugyanúgy kell vele dolgozni
pl: ha kockával dobok ötöst akkor nem tudom leszedni a kocka 5-ös oldalát utána
A FAE módszer került előtérbe, mert egyszerűbb vele számolni.
Rétegzett mintavétel?
akkor indokolt alkalmazása ha a populáció jelentősen inhomogén
ha tudom, hogy vannak különböző részsokaságok
akkor a mintavétel is úgy zajlik majd, hogy a különböző rétegekből egyformán veszek elemszámot
pl: fiúkból veszek 5 elemű mintát, ha ők pl a kar negyedét teszik ki, lányokból egy 15 elemű mintát pedig
minden réteg megfelelően képviselve van.
Csoportos mintavétel?
ez pont abból indul ki, hogy a részsokaságok között nincs nagy különbség
egyforma részsokaságok közül kiválasztok egyet és azt megfigyelem
többlépcsős csoportos mintavétel? 2 infó
kiválasztok egy csoportot és azon belül is megvizsgálok egy csoportot
-kérdőívekkel foglalkozó szervezetek többsége ezt az eljárást alkalmazza
többlépcsős csoportos mintavétel példa?
pl: 4 régióra bontom az usát
régiókon belül összecsoportosítom a hasonló lakosságszámú településeket
-véletlenül kiválasztok párat
-véletlenül kiválasztok pár választókerületet
-véletlenül kiválasztok pár szavazókörzetet a választókerületeken belül
-véletlenszerűen háztartások is kiválasztva
(ezután is megvan adva általában hogy x éven felüli nőt vagy férfit kell megkérdezni ha az nincs otthon akkor kit )
(kérdezőbiztos ne válogathasson kedvére)
nem véletlen mintavétel fajtái?
-kvótákon alapuló
-koncentrált
-hólabda
-önkényes
kvótás mintavétel?
előre adott a minta bizonyos ismérvek szerinti összetétele, ezen belül szabadon választhatnak
vannak kvóták
pl:
50% a válaszadóknak férfi 50% nő
60% fehér 40% fekete
50% városi 50% vidéki
ezen belül hogy kit kérdez meg a kérdezőbiztos az egyéni döntés
koncentrált mintavételt mikor alkalmazunk?
a sokaságban van néhány elem, melynek nagyobb a befolyása a sokasági jellemzőre, mint a többi elemnek. Ilyen esetben a nagyobb befolyással rendelkező elemeket biztosan beválasztjuk a mintába, tehát nem beszélhetünk véletlen kiválasztásról.
(ha inflációs rátát számolok akkor inkább egy kiló kenyér árváltozását figyeljem meg és ne a barbie babák árváltozását)
hólabda mintavétel?
elindítok egy kérdőívet, de nem én gondoskodok róla, hogy ez kikhez fog kijutni, hanem több másik végzi a további adatfelvételt
pl: droghasználóknál felmérés
önkényes mintavétel?
kvázi szakértő eldönti, hogy kiket vesz bele a mintába
másnéven a véletlen mintavétel?
valószínűségi mintavételi módszerek
miért nem jó módszer a kvótás mintavétel?
-miféle emberekhez sétál oda szívesebben a kérdező
-ki fog elsétálni egy adott napszakban egy adott utcán
(nyugdíjasok, diákok, munkanélküliek?)
-szegényebb környéken van a kérdező, gazdagabb környéken
mind torzító hatással járhat
mit lehet tenni ha közvéleménykutatásnál a nem válaszolási arány nagy?
Valamelyest korrigálni lehet ezt úgy, hogy nagyobb súlyt rendelnek az elértek közül a csak nehezen elérhető
személyekhez.
mit lehet tenni ha túl nagy arányban kerültek be pl gazdagok vagy iskolázottak vagy szegények stb?
utólagos súlyozás !!! (szakszó)
-objektív számolási eljárás
kisebb torzításokat lehet vele kompenzálni
pl: az iskolázottak válaszainak kisebb súlyt adok -kisebb súllyal veszem figyelembe őket
1 mondatban: De miért működik ennyire jól a valószínűségi mintavétel?
(A megítélés és a választás azonban általában torzít, míg a véletlen pártatlan. Ezért
működnek jobban a valószínűségi eljárások, mint a megítélésen alapulók.)
Ahhoz, hogy a torzítást minimalizáljuk, pártatlan és objektív valószínűségi eljárásokat kell alkalmaznunk a
minta kiválasztásakor.
mintavételi torzítás és a nem válaszolók torzítása mellett milyen torzítás merülhet fel még? -SZAVAZÁS KAPCSÁN
ELSŐ
1.vannak emberek akik kérdőívben azt válaszolják hogy xy dolgot csinálnak, de egyébként nagy valószínűséggel nem fognak (pl: negatív megítélés alá esik ha valaki nem szavazik, nem akarják ezt beismerni az emberek)
-ez torzítja az eredményeket
-ki kell szűrni a komolytalan válaszadókat
választások esetén meg lehet kérdezni:
-legutóbb szavazott a választásokon?
-hol tervez szavazni idén –ha nem tud helyszínt megnevezni valaki az már kevésbé komoly szándékra utal
valószínű nem szavazók kiszűrése növeli az előrejelzés pontosságát
mintavételi torzítás és a nem válaszolók torzítása mellett milyen torzítás merülhet fel még? -SZAVAZÁS KAPCSÁN
MÁSODIK
úgy kell megfogalmazni a kérdéseket hogy a lehető legkisebb legyen a határozatlanok aránya
pl: szavazás -nem azt kérdezik meg kire fogok szavazni április 11én hanem: ha ma lenne a választás kire szavaznék
valamennyi bizonytalan ezután is marad— ezeknek a döntését meg kell tippelnie a közvéleménykutatónak
teheti ezt az alapján, hogy további kérdéseket tesz fel politikai attitűdjéről az adott embernek
a nagy előrejelzési hibáknak könnyen lehet magyarázója a bizonytalanok száma
milyen torzítás merülhet fel még? -nem bizonytalanok -nem is a nem szavazók- nem is a válaszadó száma- krédezőbiztos választása …..
a kérdezés torzítása
kapott válaszokat befolyásolhatja:
-kérdés megfogalmazása
-kérdező attitűdje
-kérdező hangneme
pl: 48-as elnökválasztás -jelöltek sorrendjének megváltoztatása 5 %-kal módosította a válaszokat
egységesíteni kell a kérdezés folyamatát amennyire csak lehetséges
ha mintavételnél mindent tökéletesen csinálok -tipikus hibákat elkerülöm - akkor minta alapján megtudom a tökéletes körülmények miatt pontosan becsülni a paramétert?
nem
kérdéses dolog aránya a mintában= valós arány a mintában (amire kíváncsiak vagyunk) + véletlen hiba
becslés= paraméter + torzítás + véletlen hiba (bonyibb eseteknél)
vagy
becslés = paraméter + véletlen hiba
véletlen hiba másik neve?
mintavételi hiba
mintavételi hiba vagy véletlen hiba miből ered?
abból ered, hogy a kutatásban alkalmazott minta nem tükrözi teljes mértékben a reprezentálni kívánt alapsokaságot.
‖ abból fakad, hogy a minta csak egy része az
egésznek.
torzítás másik néven és miből ered?
„nem mintavételi hibának‖ hívjuk – a hiba forrása valami más, például a
kimaradt megkérdezendők, a nem válaszolók.
nem azért más az eredmény mert mintát használok és nem az egész sokaság vizsgálom meg
tétel: 3. Becslés, konfidencia intervalum: miért van szükség becslésre,
Miért van szükség becslésre és mi a becslés, + két fajtája?
becslés: sokasági jellemző közelítő értékének előállítása a minta alapján
a minta alapján akarok következtetni a sokaságra vonatkozóan
ez egy érezhetően nehéz feladat-egy közelítő értéket viszont megtudhatunk
megkülönböztetünk:
1.: pontbecslést-egyetlen értéket határozunk meg
2.: intervallumbecslést- egy olyan intervallumot meghatározunk, melyben nagy valószínűséggel benne van a vizsgált jellemző
Becslés- standard hibának mi a szerepe? Mitől függ a nagysága-példa
Megmutatja, hogy a valóságtól mennyire messze szoktak lenni a becslések.
Standard hiba nagysága egyenesen arányos a szórással ami tök logikus
mit mutat meg a szórás? Hogy az adataim mennyire különböznek egymástól
és minél inkább különbözőek ezek az adatok annál nehezebb megbecsülni vmit
pl: ha a 10 legnagyobb népességű város alapján akarok egy magyar átlagváros népességet megbecsülni, akkor logikus hogy Budapest lakosai nagyon pontatlanná fogják tenni az eredményt a maguk millióival
Ezt a hibát akarom minimalizálni ugyebár.
minél nagyobb az elemszám, annál kisebb hibát véthetünk.
sokasági átlagra vagyok kíváncsi ebben az esetben mit mutat meg a standard hiba?
=valóságtól mennyire szoktak messze lenni a becslések
a mintaátlagok szóródása a sokasági átlag körül
Ha a minta és a sokaság mérete megegyezik, mekkora a standard hiba?
nulla
Elvárható a torzítatlanság becslés terén?
egy mintától nem várhatom el, hogy jellemezze tökéletesen a sokaságot, de a torzítatlanságot elvárom.
Ez mit jelent? Mintajellemzők átlaga a sokasági jellemző—ezt úgy tudjuk leellenőrizni, hogy veszek egy pl 180 adatot tartalmazó halmazból és az összes létező pl. 10 darabos mintát megnézem, hogy mennyi az átlaguk
és ha azon mintajellemzők átlagosan megegyeznek a sokasági átlaggal -akkor jó munkát végeztünk
nem egy eseti mintaátlagnak kell megegyeznie vele, hanem az összes mintán vett mintaátlagok átlagának
Tehát jó esetben a „mintaátlagok átlaga” megegyezik a sokasági átlaggal
FONTOS
Becsléselmélet tétel: Hogyan kéne befejezni ezt a mondatot:
Valószínűségi mintáknál a véletlen hiba valószínű nagyságát megadja a….
standard hiba
Becsléselmélet tétel: Igaz az állítás?
Egyszerű véletlen mintánál a mintabeli százalékarány várható értéke megegyezik az alapsokaságon belüli
százalékaránnyal.
részben csak
megegyezik nagyjából de van standard hiba
Ha feladat elém kerülne akkor automatikusan tudnám hogyan kéne standard hibát 100%-ban kifejezni de megkéne tanulni erre a képletet:
százalékarány standard hibája=
(darabszám st hibája / minta nagysága ) * 100%
tudjuk hogy 400 húzás van és az x esetek (amik nekünk jók) standard hibája 16
százalékarány standard hibája mennyi?
16/400 *100 = 4 %
(de ez az utolsó dolog amit élőben elrontanék)
- Egy piros és kék golyókat tartalmazó dobozból húzunk. Töltse ki az üresen hagyott helyeket!
a. A piros golyók __________ százalékarányának várható értéke megegyezik a piros golyók __________
százalékarányával. Válaszlehetőségek: mintabeli, alapsokaságbeli
b. Ha több golyót húzunk, akkor a piros golyók _________ standard hibája a mintában megnő, a piros golyók
_________ standard hibája viszont lecsökken. Válaszlehetőségek: számának; százalékarányának
válasz:
a. A piros golyók mintabeli százalékarányának várható értéke megegyezik a piros golyók alapsokaságbeli százalékarányával.
b. Ha több golyót húzunk, akkor a piros golyók számának standard hibája a mintában megnő, a piros golyók
százalékarányának standard hibája viszont lecsökken.
elnökválasztás eredményeit akarjuk megbecsülni
Új-Mexikóban mintegy 1,2 millió választópolgár él,
Texas államban 12,5 millió. Tegyük fel, hogy az egyik közvéleménykutató cég a demokrata szavazók arányának
becsléséhez 2500 fős egyszerű véletlen mintát vesz Új-Mexikóban Egy másik cég Texas államban vesz 2500 fős egyszerű véletlen mintát ugyanezen célból. A két cég pontosan ugyanolyan módszerrel dolgozik. Mindkét becslés valószínűleg mellé lő majd egy kicsit a véletlen hiba miatt. Vajon melyiküknél lesz kisebb valószínűsíthetően a véletlen hiba?
Valójában az új-mexikói
és a texasi közvéleménykutatás lényegében egyformán pontosnak várható.
Képzeljük el, hogy vegyelemzéshez egy
csepp mintát veszünk egy folyadékból. Ha a folyadék jól el van keveredve, akkor a csepp kémiai összetétele
tükrözi az egész üveg összetételét, és igazán nem számít, hogy egy kis üvegcséből vagy egy nagy kancsóból
vettük a mintát. A vegyész mit sem törődik azzal, hogy a csepp az oldatnak 1%-a vagy 0,01%-a.
Visszatevés nélküli vagy visszatevéses esetekben nagyobb a standard hiba?
Ha visszatevés nélkül húzunk, kicsivel csökken a
doboz, és így enyhén lecsökken a szóródás. Visszatevés nélküli húzásoknál ezért picivel kisebb a standard hiba.
Visszatevéses esetekben valamivel nagyobb.
Standard hibát hogyan számolom ki?
gyök alatt húzások száma * szórás
egyébként: dobozmodell alapján
**férfiak 1-esek **—0,6 arány
nők 0-ák —0,4
ekkor szórás: gyök alatt 0,6 * 0,4 !!!!!!!!!!!!!!!!
mikor kell korrekciós szorzót használni összes eset?
-ha vissztevéses húzás van akkor nem
-ha visszatevés nélküli akkor lehet
attól függ hogy pl 10 milliós alapsokaságból ha veszek egy 10 fős mintát akkor nem kell-standard hibát normál módon számolom
ha: pl 10 milliós alapsokaságból a negyede a mintám akkor kell korrekciós szorzó (feltéve: nincs visszatétel)
hogy néz ki a korrekciós szorzó képlete? ** és még mivel kell megszorozni ahhoz hogy megtudjam a visszatevés nélküli standard hibát ?**
van 20 ezer cédulám amiből kihúzok egyszer véletlen mintavétel révén 5 ezret?
gyök alatt minden
20 ezer (összsokaság) - 5 ezer (minta)
/
20 ezer -1
**GYÖK ALATT és mindig mínusz 1 a vége
összsok- minta
/
összsok-1
visszatev nélküli standard hiba =korr szorzó * visszatevéses standard hiba
mi az a bootstrap módszer? -egyszerű véletlen mintánál
a doboz ismeretlen
megoszlását a mintában megfigyelt részaránnyal helyettesítik be.
behelyettesített arányok —ez alapján megnézzük a szórást és a standard hibát
csak megérteni bootstrapet hogyan kell csinálni?
Példánkban a 2500 fős mintából 1328 ember
volt a képviselőjelölt mellett. Tehát a mintában 1328 / 2500 ≈ 0,53, azaz 53% támogatta őt, 47% volt ellene.
Becslésünk az, hogy a dobozban lévő 100 000 cédula 0,53-adrészén áll 1-es, a többi cédulán 0.
Ennek alapján a doboz szórását így becsüljük: . A képviselőjelöltet támogató szavazók
mintabeli számának standard hibáját tehát (gyök alatt 2500 * 0,5 -re) becsüljük. (0.5 mert: gyök alatt 0.53*gyök alatt 0.47)Ez a szám mutatja az 1328 fő véletlen
hibájának valószínű nagyságát. A 2500 fős mintából ez a 25 fő 1%-ot tesz ki. A mintában a támogatók
százalékarányának standard hibáját így 1 százalékpontra becsüljük. Ezzel készen vagyunk a standard hiba
becslésére szolgáló ún. „bootstrap‖ iieljárás végrehajtásával.
véletlen hiba (standard hiba) lehet negatív?
persze ekkor a becslésünk alálőtt
pl: -4 st hib
azt jelenti pl hogy 68% helyett 72% helyes
konfidencia intervallum:
mintabeli százalékarány: 79%
standard hiba: 2% (SH a rövidítése)
három féle megbízhatósági szint?
68%ig biztos hogy a populáció százalékaránya:
77% és 81% közötti (+/- 1 SH)
95%ig biztos, hogy a populáció százalékaránya:
75% és 83% közötti (+/- 2 SH)
99,7%ig biztosak lehetünk abban, hogy a populáció százalékaránya:
73% és 85% közötti (+/- 3 SH)
minek nevezzünk fancyn ha konfidencia intervallumnál 95%-ig lehetek biztos abban hogy ….?
megbízhatósági szint: 95%
szignifikanciapróba? -miért van rá szükség és alapgondolat mögötte?
Egy szignifikanciapróba azzal a kérdéssel foglalkozik, hogy valóságos-e a megfigyelt eltérés (ez az ellenhipotézis), vagy pusztán véletlen ingadozás (ez a nullhipotézis).
Az az alapgondolatuk, hogy ha egy megfigyelt érték túl sok standard hibányira esik a várható értékétől, azt nehéz véletlennel magyarázni.
csak megérteni és megjegyezni, hogy így kell majd nekem is használni a szavakat:
százalékpont és százalék közötti különbség
A százalék egy adott számnak a század részét jelenti, ezzel szemben a százalékpont egységnyi százalék változását jelöl. Például 40 százaléknak a 10 százalékos növekedése 44 százalékot, a 10 százalékpontos növekedése pedig 50 százalékot eredményez.
null- és ellenhipotézis fogalmak?
A nullhipotézis azt az elgondolást fejezi ki, hogy a megfigyelt eltérést (a várható és a megfigyelt érték között) a véletlen okozza.
Az ellenhipotézis ennek ellenkezőjét állítja.
próbastatisztika fogalma?
A próbastatisztika arra való, hogy mérje, mennyire térnek el az adatok a nullhipotézis alapján várható értéktől.
Z próba statisztika képlet és mit mutat meg?
= megfigyelt érték- várható érték
__________________________________
standard hiba
A z azt mondja meg, hogy a megfigyelt érték hány standard hibányira esik a nullhipotézis alapján kiszámolt várható értéktől.
meg kell ijedni ha T vagy Z próbánál nincs szórás megadva?
nem simán kiszámolom
megnézem az átlagot és stb
mi a P-érték és mi a másik neve?
A megfigyelt szignifikanciaszint (P-nek vagy P-értéknek is nevezik) annak a valószínűsége, hogy annyira
szélsőséges próbastatisztikát kapunk, mint amilyet megfigyeltünk, vagy még szélsőségesebbet. Kiszámításakor
úgy számolunk, mintha a nullhipotézis igaz lenne. Tehát a P nem azt mondja meg, hogy milyen valószínűséggel
igaz a nullhipotézis.
P-érték értelmezése?
Természetesen adódik a kérdés, mennyire kell kicsinek lennie a megfigyelt szignifikanciaszintnek ahhoz, hogy a
kutató elvethesse a nullhipotézist. Sok statisztikus 5%-nál húzza meg a határt.
* Ha P kisebb 5%-nál, akkor statisztikailag szignifikáns-nak nevezzük az eredményt.
Egy másik határvonal is van, 1%-nál.
* Ha P kisebb 1%-nál, akkor az eredmény erősen szignifikáns.
Hogyan áll össze egy szignifikanciapróba?-lépései -easy
- meg kell fogalmaznunk a nullhipotézist; ez egy, az adatokra vonatkozó dobozmodell lesz;
- ki kell választanunk egy alkalmas próbastatisztikát – ezzel fogjuk mérni, mennyire térnek el az adatok a
nullhipotézis alapján várhatótól; - ki kell számítanunk a megfigyelt szignifikanciaszintet, azaz P-t.
mikor használok z próba helyett t próbát?
kis minták esetén
pl van négy vagy 5 mérésem
egy mérés esetén csinálhatok t próbát?
nem
mikor használunk Student görbét és mikor normálgörbét?
Student-görbét akkor használunk, ha
* Olyanok az adatok, mintha egy dobozból végeznénk húzásokat.
* Nem ismerjük a doboz szórását.
* A megfigyelések száma kicsi, emiatt a doboz szórását nem tudjuk igazán pontosan megbecsülni.
* A dobozban lévő számokra vonatkozó hisztogram nem sokkal tér el a normálgörbétől.
Nagyobb számú megfigyelés esetén (mondjuk 25 fölött) rendszerint a normálgörbét használjuk. Ha ismerjük a
doboz szórását és ha a dobozbeli számok a normálgörbét követik, akkor kis mintáknál is használhatjuk a
normálgörbét.
ha kis mintám van (ergó T próbát készítek) akkor mi változik a próba képletén a Z próbához képest?
Z próba így nézett ki:
megfigyelt érték - várható érték
____________________________
standard hiba
standard hiba kiszámítása változik
standard hiba egyébként = gyök alatt:mérések/húzások száma * szórás
**itt mi változik: szórás **
szórás = korrigált szórás * szórás
korrigált szórás =
ha mérések száma = 4
gyök alatt minden
mérések száma
________________ * szórás
mérések száma - 1
Feladat:
Igaz vagy hamis:
e. Ha z=2,3, akkor a megfigyelt érték 2,3 standard hibányival fölötte van a nullhipotézis alapján várt értéknek.
igaz
magyarázat:
Igaz; z=(megfigyelt – várható)/standard hiba; “várható”-t a nullhipotézis alapján számolva.
képlet arra, hogy két mintaátlag közötti eltérés standard hibáját hogyan számoljuk ki?
Két független mennyiség eltérésének standard hibája
gyök alatt
a^2 + b^2
• a az első mennyiség standard hibája;
• b a második mennyiség standard hibája.
kétmintás z próba mit jelent? képlet változik bármit?
arra keressük a választ, hogy két minta alapján kijött értékek közötti eltérés magyarázható-e véletlen ingadozással vagy sem
képlet: **(csak alul változik) **
megfigyelt érték - várható érték(régebbi)
___________________
st hiba **(mintaátlagok közötti eltérés!! stb hibája) **
kétmintás z próba kiszámításához mit kell ismerni?
- a két mintaelemszámot,
- a két mintaátlagot,
- a két minta szórását.
A próba két **független, egyszerű véletlen **mintára alkalmazható.
Általában hibás eredményt kapunk, ha a
képleteket összefüggő mintákra alkalmazzuk. Van kivétel: használhatjuk a z-próbát arra, hogy a kezelt és a
kontrollcsoportot egy sorsolt kontrollú kísérletben összehasonlítsuk – még olyankor is, amikor a csoportok
összefüggenek
- “Puszta véletlen okozza a két mintaátlag közötti különbséget?” E kérdés megválaszolásához a statisztikusok a
________________ z-próbát használják. Töltse ki az üresen hagyott helyet, és röviden indokoljon.
kétmintás
NAGYON TUDNI : lehet használni kétmintás z próbát annak ellenére ha sorsolt kontrollú kísérleteknél a minták nem függetlenek?
bár a minták nem függetlenek lehet
mondtuk hogy kétmintás z próbát lehet végezni úgy, hogy sorsolt kontrollú kísérletekről van szó, melyek mintái összefüggenek, hogyan kell a st hibát számtíani? van spec szabály?
visszatevéses st hibát kell számítani akkoris ha visszatétel nélkül történt a mintavétel!
sokat számít, hogy a p-érték 4,9 vagy 5,1 % valóságban?
nem
csak az 5% az aminél a többség meghúzza a határt
lehet olyan helyzet hogy a p-érték szignifikáns eredményt jelez, de valóságban nem sokat számít a vizsgált eltérés
1% alatti p -érték nem jelzi azt hogy mindenesetben sokat nyom latba az eltérés amit észrevettünk lehet gyakorlati jelentősége nincs
mikor használunk egyoldalú próbát és mikor kétoldalút?
Egyoldalú próbát használunk, hogyha az ellenhipotézis azt mondja, hogy a doboz átlaga nagyobb egy bizonyos értéknél. Kétoldalú próbát használunk, ha az ellenhipotézis annyit mond, hogy a doboz átlaga eltér egy bizonyos értéktől – kisebb vagy nagyobb nála.
Igaz vagy hamis? Ha egy eredmény statisztikailag szignifikáns, az azt jelenti, hogy mindössze 100-ból 5 az esélye annak, hogy
ez az eredmény véletlen, míg 100-ból 95 annak, hogy valóságos.
Hamis
khi négyzet mire való? -képlet?
a várható és a megfigyelt gyakoriságok
közötti távolságot méri.
X^2(khi négyzet) = (megfigyelt gyakoriság - várható gyak)^2
————————-
várható gyak
magas khi érték: távol esnek a gyakoriságok
alacsony: megfigyelt gyakoriságok a várhatóak közelében maradnak
megértéséhez példa: megakartuk figyelni hogy gyanúsan sokszor jön-e ki valami érték
0-1 dobozmodell felállítása- pl ha két kategória van-
1, bejön a tipp 2, nem jön be a tipp
megnézzük melyiknek mekkora az esélye (1/6 vagy ilyesmi)
de: dobókocka pl hogyan tudjuk meg hogy szabályos vagy megcinkelték?
van hat kategória - nem állíthatok fel dobozmodellt- kell a khi próba
Mikor kell z-próba helyett inkább χ2
-próbát használni?
(Ha számít, hogy melyik fajta lapból hány van a
dobozban, a χ
2
-próba a jó; ha viszont csak a doboz átlaga számít, dolgozzunk z-próbával.)
- A χ2
-próba megmondja, hogy adataink olyanok-e, mintha egy adott összetételű dobozból végeztünk volna
véletlen húzásokat. - A z-próba megmondja, hogy adataink olyanok-e, mintha egy adott átlagú dobozból végeztünk volna véletlen
húzásokat.
pl ha dobóckokcán khi próbázunk akkor mindegyik 1-6-ig lévő számnak ugyanakoora esélye van a kijövésre, tehát 10 mindenhol a várható gyakoriság
khi próba nevezőjében is 10 van (nem hatszor 10, vagy 100)
de ha különbözőek nagyon a gyakoriságok akkor mi van a nevezőben?
várható gyakoriságok átlaga
p-értéket hogyan állapítjuk meg a khi négyzet próbánál? (standard eset)
képlet alapján megkapjuk a khi értéket
megnézzük a szabadságfokokat (nem függetlenségvizgsálat esetében) : összeadandó törtek khi képletben - 1
szabadságfokok táblázatban- jobboldalra fekvő értékek %át jelzi a fenti szám
a khi négyzet próbát mire lehet még használni és mi változik számolás közben ?
függetlenségvizsgálat
(pl: befolyásolja-e a jobb vagy balkezességet hogy nő vagy férfi vagy)
p érték ugyanúgy jobbra fekvő értékek százaléka kell -nincs változás
(várható érték kiszámolása trükkös de rá lehet jönni -gyakorolni kell)
szabadságfokok számolása változik: (táblázat oszlopainak száma-1) * (táblázat soraink száma-1)
(kis p érték ugyanúgy azt jelenti, hogy valóságos az eltérés, el kell vetni a nullhipotézist hogy nem függ egymástól a két tényező)
ha kíváncsi vagyok arra hogy egy kutató kutatásai során kozmetikázza eredményeit és a várható gyakoriságok mágikusan mindig közel vannak nagyon a megfigyelt gyakoriságokhoz hogyan vizsgálódhatok?
két kísélret khi négyzet próba értékeit összeadom
-mind szabadságfokokat mind a khi négyzet értékeket
ez alapján megvizsgálom** **a balra fekvő területet ** a khi görbén
nullhipotézis: minden rendben
ellenhipotézis: várható értékek gyanúsan közel a megfigyelt értékekhez
ha kicsi a p-érték : khi értékeke az ellenhipotézist támasztják alá
khi négyzet próba eredményét befolyásolja, hogy mekkora a minta?
. Amikor nagy a minta, olyankor a χ2
-próba nagyon jó modelleket is megcáfol.
Tudni
korrelációvizsgálatot mivel jelenítjük meg grafikusan?
pontdiagram
Tudni
korrelációvizsgálat során két változó neve?
függő változó
független változó
független magyarázhatja a függőt
mit jelent a korrelációvizsgálatnál pontdiagrammon a pozitív összefüggés?
: az x koordináta növekedésével a pontok y koordinátái
is felfelé tendálnak
Tudni
korrelációs együttható basic infók?
jelölése: R
A korrelációs együtthatóval mérhetjük a lineáris összefüggést, azaz a pontok tömörülését egy egyenes körül (szórásokhoz viszonytíva!) .
Ha a korrelációs együttható értéke közel van a +1-hez, akkor a két adathalmaz elemei között erős pozitív korreláció van: azaz, ha az egyik adatsor értéke nő, akkor a másik adatsor hozzá tartozó elemeinek értéke is nőni fog.
Ha a korrelációs együttható értéke közel van a -1-hez, akkor a két adathalmaz elemei között erős negatív korreláció van: azaz, ha az egyik adatsor értéke nő, akkor a másik adatsor hozzá tartozó elemeinek értéke csökkenni fog.
Ha a korrelációs együttható értéke közelít a nullához, akkor a két adathalmaz elemei között nincs lineáris kapcsolat.
csak olvasni:
: r = 0,80 nem azt jelenti, hogy a pontok 80%-a csoportosulna szorosan egy egyenes
körül, és azt sem, hogy kétszer annyira lenne lineáris a kapcsolat, mint r = 0,40 esetén.
mit jelent a negatív összefüggés korrelációvizsgálatnál pontdiagrammon?
a pontok egy lefelé menő egyenes körül tömörülnek
Tudni
mi a korreláció?
vizsgakieginfó: mit nem mutat meg és mit igen?
A korreláció két adathalmaz közötti kapcsolat nagyságát és irányát jellemzi.
A korreláció összefüggést mér. Az összefüggés azonban nem egyenlő az oksági kapcsolattal.
elég csak olvasni szerintem, de kb azért memorizálhatom:
szórásegyenes
szórásegyenes: átmegy az átlagponton, és egy vízszintes szórásnyi
távolságon egy függőleges szórásnyit emelkedik. Rövidebben szólva, a meredeksége:
(y szórása) / (x szórása).
Ez érvényes pozitív összefüggés esetén. Ha a korrelációs együttható negatív, akkor az egyenes lefelé tart, a
meredeksége tehát:
- (y szórása) / (x szórása).
Tudni
hogyan kell korrelációs együtthatót kiszámolni?
két változó standard egységre váltása szorzatának átlaga !
hogyan kell standard egységet számolni?
van
x változó: 5, 10, 3, 4, 7
y változó: 6, 7, 8, 9, 10
x változónak kiszámoljuk az átlagát
a szórását
majd:
5-átlag/szórás —–ezt végig csinálni az összes értékkel. az összes érték mellé írni x esetén
y átlagnál is megcsináljuk
(kettőt összeszorozni–szorzatok átlaga= korrelációs együttható)
Becslések terén miért számolok mindig st hibával?
-valószínűségi mintáknál a véletlen hiba valószínű nagyságát megadja a standard hiba
Tudni
a korrelációs együtthatót nem befolyásolja ha:
a változókat felcseréljük,
a változó minden értékéhez hozzáadjuk ugyanazt a számot,
a változó minden értékét megszorozzuk ugyanazzal a pozitív számmal.
(pl: csak olvasni- nem számít ha fahrenheitben vagy celsiusban írjuk le ugyanazokat a napokat, ugyanakkora lesz az R)
Tudni
hogyan lehetséges az, hogy van két pontdiagram ugyanakkora R-rel de a szórásegyeneshez az egyik pontrdiagram értékei sokkal közelebb vannak, mint a másik értékei?
bemagolós mondat: A korrelációs együttható azt méri, hogy mennyire szorosan csoportosulnak a pontok egy egyenes köré, a szórásokhoz viszonyítva.
magyarázat:
A korrelációs együttható kiszámításakor standard egységre váltjuk át változóinkat: az átlagtól vett eltéréseket elosztjuk a szórással. Az r tehát a tömörülés szorosságát relatíve, a szórásokhoz viszonyítva méri, nem pedig abszolút számokban.
Tudni
mikor nem lehet a korrelációs együtthatót használni?
Az r a lineáris összefüggést méri, nem pedig az összefüggést általában véve.
Ha 1, előfordulnak kiugró értékek, vagy 2, ha az összefüggés nemlineáris, a korrelációs együttható félrevezető lehet.
Tudni
mi az ökológiai korreláció mi szokott vele a gond lenni?
Egy ökológiai korreláció arányszámokon vagy átlagokon alapul. A politikatudományban és a szociológiában gyakran használnak ilyeneket. Az ökológiai korreláció jellemzően eltúlozza az összefüggés erősségét.
Az arányszámok vagy átlagok alapján nyert korreláció félrevezető lehet (ha adatokat átlaggal jellemzünk, akkor figyelmen kívül hagyjuk a szóródást az átlag körül).
csak megérteni példa arra hogy a korreláció nem jelent oksági kapcsolatot!
Kisiskolások körében az olvasási készség erősen korrelál a cipőmérettel. Új szavak megtanulástól azonban nem lesz nagyobb az ember lába. Inkább egy harmadik tényező játszik itt szerepet—az életkor. Ahogy idősebb lesz a gyerek, egyre jobban megtanul olvasni, és sorra növi ki a cipőit is. (A 2. fejezetben használt statisztikai zsargon szerint összemosó tényező itt az életkor.) Ennél a példánál könnyű volt megtalálni az összefüggést összekuszáló változót. De nem mindig ilyen egyszerű a helyzet. A korrelációs együttható kiszámítási eljárása nem nyújt védelmet ilyen releváns harmadik változókkal szemben.[5]
Tudni:
regressziós egyenes mi?
A regressziószámítás azt írja le, hogy hogyan is függ az egyik változó a másiktól.
Az x egy szórásnyi növekedéséhez az y értékeknek csak r szórásnyi növekedése társul. Ha ábrázoljuk ezt a regressziós becslést, megkapjuk y x-re vonatkozó regressziós egyenesét.
mikor nem használható a regressziós egyenes?
Nemlineáris összefüggés. Nem használható a regressziós egyenes akkor, amikor a változók közötti összefüggés nem egyenesen arányos (azaz nem lineáris).
átlagdiagram vs regsszióegyenes?
Az átlagdiagram sokszor egy egyeneshez közelít, bár kissé hepehupás lehet. A regressziós egyenes kisimítja az egyenetlenségeket. Ha az átlagok egy vonalba esnek, akkor ez a vonal a regressziós egyenes.