Stat subset vége Flashcards
Tudni
mi a korreláció?
vizsgakieginfó: mit nem mutat meg és mit igen?
A korreláció két adathalmaz közötti kapcsolat nagyságát és irányát jellemzi.
A korreláció összefüggést mér. Az összefüggés azonban nem egyenlő az oksági kapcsolattal.
Tudni
korrelációs együttható basic infók?
jelölése: R
A korrelációs együtthatóval mérhetjük a lineáris összefüggést, azaz a pontok tömörülését egy egyenes körül (szórásokhoz viszonyítva!) .
Ha a korrelációs együttható értéke közel van a +1-hez, akkor a két adathalmaz elemei között erős pozitív korreláció van: azaz, ha az egyik adatsor értéke nő, akkor a másik adatsor hozzá tartozó elemeinek értéke is nőni fog.
Ha a korrelációs együttható értéke közel van a -1-hez, akkor a két adathalmaz elemei között erős negatív korreláció van: azaz, ha az egyik adatsor értéke nő, akkor a másik adatsor hozzá tartozó elemeinek értéke csökkenni fog.
Ha a korrelációs együttható értéke közelít a nullához, akkor a két adathalmaz elemei között nincs lineáris kapcsolat.
mit jelent a negatív összefüggés korrelációvizsgálatnál pontdiagrammon?
a pontok egy lefelé menő egyenes körül tömörülnek
Tudni
korrelációvizsgálatot mivel jelenítjük meg grafikusan?
pontdiagram
Tudni
korrelációvizsgálat során két változó neve?
függő változó
független változó
független magyarázhatja a függőt
mit jelent a korrelációvizsgálatnál pontdiagrammon a pozitív összefüggés?
: az x koordináta növekedésével a pontok y koordinátái
is felfelé tendálnak
csak olvasni:
: r = 0,80 nem azt jelenti, hogy a pontok 80%-a csoportosulna szorosan egy egyenes
körül, és azt sem, hogy kétszer annyira lenne lineáris a kapcsolat, mint r = 0,40 esetén.
elég csak olvasni szerintem, de kb azért memorizálhatom:
szórásegyenes
szórásegyenes: átmegy az átlagponton, és egy vízszintes szórásnyi
távolságon egy függőleges szórásnyit emelkedik. Rövidebben szólva, a meredeksége:
(y szórása) / (x szórása).
Ez érvényes pozitív összefüggés esetén. Ha a korrelációs együttható negatív, akkor az egyenes lefelé tart, a
meredeksége tehát:
- (y szórása) / (x szórása).
Tudni
hogyan kell korrelációs együtthatót kiszámolni?
két változó standard egységre váltása szorzatának átlaga !
hogyan kell standard egységet számolni?
van
x változó: 5, 10, 3, 4, 7
y változó: 6, 7, 8, 9, 10
x változónak kiszámoljuk az átlagát
a szórását
majd:
5-átlag/szórás —–ezt végig csinálni az összes értékkel. az összes érték mellé írni x esetén
y átlagnál is megcsináljuk
(kettőt összeszorozni–szorzatok átlaga= korrelációs együttható)
Tudni
a korrelációs együtthatót nem befolyásolja ha:
a változókat felcseréljük,
a változó minden értékéhez hozzáadjuk ugyanazt a számot,
a változó minden értékét megszorozzuk ugyanazzal a pozitív számmal.
(pl: csak olvasni- nem számít ha fahrenheitben vagy celsiusban írjuk le ugyanazokat a napokat, ugyanakkora lesz az R)
Tudni
hogyan lehetséges az, hogy van két pontdiagram ugyanakkora R-rel de a szórásegyeneshez az egyik pontrdiagram értékei sokkal közelebb vannak, mint a másik értékei?
bemagolós mondat: A korrelációs együttható azt méri, hogy mennyire szorosan csoportosulnak a pontok egy egyenes köré, a szórásokhoz viszonyítva.
magyarázat:
A korrelációs együttható kiszámításakor standard egységre váltjuk át változóinkat: az átlagtól vett eltéréseket elosztjuk a szórással. Az r tehát a tömörülés szorosságát relatíve, a szórásokhoz viszonyítva méri, nem pedig abszolút számokban.
Tudni
mikor nem lehet a korrelációs együtthatót használni?
Az r a lineáris összefüggést méri, nem pedig az összefüggést általában véve.
Ha 1, előfordulnak kiugró értékek, vagy 2, ha az összefüggés nemlineáris, a korrelációs együttható félrevezető lehet.
Tudni
mi az ökológiai korreláció mi szokott vele a gond lenni?
Egy ökológiai korreláció arányszámokon vagy átlagokon alapul. A politikatudományban és a szociológiában gyakran használnak ilyeneket. Az ökológiai korreláció jellemzően eltúlozza az összefüggés erősségét.
Az arányszámok vagy átlagok alapján nyert korreláció félrevezető lehet (ha adatokat átlaggal jellemzünk, akkor figyelmen kívül hagyjuk a szóródást az átlag körül).
Korreláció 2 fő fajtája?
Pearson korrelációt akkor végzünk, ha mind a függő, mind a független változóink paraméteresek
Spearman korrelációt pedig akkor, ha valamelyik változó (vagy mindegyik) nem paraméteres
csak megérteni példa arra hogy a korreláció nem jelent oksági kapcsolatot!
Kisiskolások körében az olvasási készség erősen korrelál a cipőmérettel. Új szavak megtanulástól azonban nem lesz nagyobb az ember lába. Inkább egy harmadik tényező játszik itt szerepet—az életkor. Ahogy idősebb lesz a gyerek, egyre jobban megtanul olvasni, és sorra növi ki a cipőit is. (A 2. fejezetben használt statisztikai zsargon szerint összemosó tényező itt az életkor.) Ennél a példánál könnyű volt megtalálni az összefüggést összekuszáló változót. De nem mindig ilyen egyszerű a helyzet. A korrelációs együttható kiszámítási eljárása nem nyújt védelmet ilyen releváns harmadik változókkal szemben.[5]
Tudni:
Mi a regresszió?
Galton nevéhez kötjük a regressziószámítás alapjait
A regressziószámítással azt határozhatjuk meg, hogy egy vagy több független változó milyen mértékben befolyásolhat egy függő változót.
Ha két folytonos változó lineáris kapcsolatban van egymással, akkor az egyik segítségével előre jelezhetjük a másik értékét.
Ha az előrejelzés egy változó segítségével történik, akkor egyváltozós lineáris regresszió számításnak nevezzük az eljárást.
Ha az előrejelzés több változó segítségével történik, akkor többváltozós lineáris regresszió számításnak nevezzük az eljárást.
Előrejelzés pontossága szerint kétféle kapcsolatról szokás beszélni regressziónál?
Függvénykapcsolatról van szó ha: a regresszió tökéletes előrejelzésre ad lehetőséget
Statisztikai kapcsolatról van szó ha az előrjelzés nem tökéletes (megfigyelt értékek nem illeszkednek tökéletesen az egyenesre)
mikor nem használható a regressziós egyenes?
Nemlineáris összefüggés- a változók közötti összefüggés nem lineáris.
De több eset van, amikor ha az összefüggés még lineáris is, nincs értelme a regressziós egyenesnek- más faktornak van magyarázóereje amiről nem tudunk stb
csak magamnak megtanulni: átlagdiagram vs regsszióegyenes?
Az átlagdiagram sokszor egy egyeneshez közelít, bár kissé hepehupás lehet. A regressziós egyenes kisimítja az egyenetlenségeket. Ha az átlagok egy vonalba esnek, akkor ez a vonal a regressziós egyenes.
Hogyan kapjuk meg a regressziós egyenest?
Az x egy szórásnyi növekedéséhez az y értékeknek csak r szórásnyi növekedése társul átlagosan. Ha ábrázoljuk ezt a regressziós becslést, megkapjuk y x-re vonatkozó regressziós egyenesét
mi a regressziós effektus?
Galton vette észre elsőként
ezt a jelenséget azzal írta le, hogy “visszatérés a középszerűséghez”
tételezzük fel, hogy diákok tesztpontszámait látjuk egy egy pontdiagrammon
a regresszió effektus az, hogy az első teszten kiemelkedően jól teljesítő diákok pontszáma a második teszten valamelyest visszaesést fog mutatni
míg egy az első teszten legrosszabbul szerepelő diákok a második teszten már valamivel jobban fognak teljesíteni
mi a regressziós tévkövetkeztetés?
a regressziós effektus nem egy természetes jelenség, hanem valaminek az okozata
csak olvasni:
ezt a két regressziós egyenes van fejezetet halálra gyakorolni este!!!!!!
mit nevezünk reziduálisnak vagy előrejelzési hibának? 2 infó!!
regresszió esetében a tényleges érték és az előre jelzett érték közötti különbséget
grafikus megfelelője a pontdiagramon az a függőleges távolság, amennyivel a pont az egyenes fölött vagy alatt van.
reziduálisok átlaga 0
négyzetes középhiba?
A regressziós egyenes négyzetes középhibája megmondja, hogy egy tipikus pont mennyivel van a regressziós egyenes fölött vagy alatt.
Sok pontdiagramra teljesül, hogy az előrejelzések körülbelül 68%-a helyes lesz egy négyzetes középhibányi tartományon belül; 95%-uk pedig két négyzetes középhibányi tartományon belül.
csak olvasgatni: Y szórás
Az y szórása kifejezi, hogy milyen messze van egy tipikus pont az y átlagán átmenő vízszintes egyenestől (fölfelé vagy lefelé). Más szavakkal, y szórása annak az eljárásnak a négyzetes középhibája, amikor az y értékekre – x értékét figyelmen kívül hagyva – az y átlagával adunk előrejelzést.
négyzetes középhiba kiszámolása és mértékegysége?
gyök alatt:
1-korrelációs együttható^2 x szórás -azé a változóé, melyre előrejlezést adunk
mértékegysége megegyezik annak a változónak a mértékegységével, amelyre az előrejelzést adjuk.
csak olvasgatni: négyzetes középhiba vs extrapolálás?
Ha valaki az adatok tartományán kívülre extrapolál, vagy a vizsgálatban szereplő személyektől eltérő embercsoportra akar az egyenes segítségével becslést adni, akkor a négyzetes középhibából nem tudhatja meg a tévedés valószínűsíthető mértékét.
reziduálisok diagramja mikor van rendben? és mikor mutatja azt a reziduálisok digramja hogy hiba a volt regressziós egyenest használni?
helyes: semmilyen tendencia nincs rajta
nem helyes: minden más
mikor homoszkedasztikus egy pontdiagram és mit jelent ez a négyzetes középhiba alkalmazására nézve?
- a pontdiagram olyan, hogy minden függőleges sávban hasonló mértékű a szóródás
(=rögbilabda alak)
- az előrejelzési hiba az egész regressziós egyenes mentén hasonló mértékű
- négyzetes középhiba értelmezhető —-heteroszkedasztikus diagrammok esetén sávokra nem
regressziós egyenes ábrázolása?
A regressziós egyenest ábrázolni lehet a tengelymetszet és a meredekség alapján.
Meredekség:
r · (y szórása) / (x szórása).
A regressziós egyenes tengelymetszete az y-ra adott előrejelzésünk x = 0 esetén
kontrollált kísérlet és megfigyeléses vizsgálatok esetén hogyan kell értelmezni a regressziós egyeneset?
Kontrollált kísérlet esetén a meredekségből megtudjuk, hogy átlagosan mekkora változást okoz y-ban az x megváltozása. Megfigyeléses vizsgálatnál azonban nem bízhatunk a meredekségben valamely beavatkozás eredményének előrejelzéseként. Megfigyeléses adatokból oksági jellegű következtetéseket levonni sok fáradságos munkát igényel – akár regressziószámítással, akár más módon
csak olvasni -de meg kell érteni:
A terheletlen rugó hosszára 439,01 cm adódott legkisebb négyzetes becslésként, mely parányival nagyobb a terhelés nélkül mért hossznál (439,00 cm). Egy statisztikus ilyenkor jobban bízik a legkisebb négyzetes becslésben, mint a mérésben. Miért is? Azért, mert a becslés felhasználja mind a hat mérési eredményt, és nem csupán egyet – a mérési hiba egy része valószínűleg kiesett.
csak kb: Hooke-törvény? (Freedman felhozta példának)
a megnyúlás egyenesen arányos a terheléssel
csak bizonyos anyagokra és bizonyos terhelési feltételek mellett érvényes
legkisebb négyzetek módszere?
a legkisebb négyzetek módszere azt az egyenest keresi meg, amelyre igaz az, hogy ha a pontoknak az egyenestől mért távolságait négyzetre emeljük, majd a kapott számokat összegezzük, akkor ez az összeg minimális lesz
Az az y = mx + b egyenes, amely megfelel ennek a követelménynek: a regressziós egyenes
legkisebb négyzetes becslésnél:
m: meredekség
b: tengelymetszet
Közvéleménykutatás lehetséges hibáinak két fajtája-ELSŐ?
Így kezdődik a tétel! Megbízhatóság és érvényesség
mintavételi hibák
egyik lehetséges fajtája: nem a teljes sokaságot kérdezem meg hanem mintát veszek
rossz mintaválasztás
minta nagysága problémás
Közvéleménykutatás- hibák második kategóriája?
nem mintavételi hiba:
abból ered, hogy: az emberek véleményét mindig csak korlátozott mértékben lehet megismerni
közvélemánykutatás hibáiról összegezve azt lehet mondani, hogy…
A mintavételi hibák a megbízhatóságot, a nem mintavételi hibák az érvényességet csökkentik.
A közkut eredményeinek teljes hibája a mintavételi és nem mintavételi hibáknak az eredője, de ez nem feltétlenül jelent egyszerű összeadást. Néha a mintavételi és nem mintavételi hibák kioltják egymást, hiszen mindkét hiba lehet pozitív és negatív is
Mindenesetre a teljes hiba nem lehet nagyobb, mint a mintavételi és nem mintavételi hiba (abszolút értékének) összege.
mit jelent közvéleménykutatásnál a megbízhatóság?
Egy közkut annál megbízhatóbb, minél kevésbé esetleges az eredménye.
Ez azt jelenti, hogy ha a vizsgálatot azonos módszereket alkalmazva megismételnék (a mintavételtől kezdve), akkor mennyire kapnának más eredményeket.
Minél eltérőbbek lennének az eredmények az eredetitől annál kevésbé megbízható a közkut.
probléma: valóságban nagyon ritkán lehet ugyanolyan körülmények között megismételni egy közkut-ot
közvélemény-kutatás érvényessége?
a kapott válaszok tényleg arra vonatkoznak, amiről a közvélemény-kutatás szól.
akadályok lehetnek:
-emberek határozatlanok
-az emberek nyilatkozzák, hogy valamit megtesznek de végül eszük ágában sem lesz
de csökkenthető hibák- akadályok:
-a feltett kérdések pontatlanok
-nehezen értelmezhetőek
mintavételi hiba csökkentésére módszerek ? (és ezzel megbízhatóság növelése)
-a gondos mintaválasztással
-a megfelelő mintanagysággal
-a minta minél nagyobb hányadának tényleges lekérdezésével lehet
nem mintavételi hibák csökkentése- ezzel érvényesség növelése?
-kérdezés helyes módjának megválasztása
-a kérdőív megfelelő szerkesztése
- a kérdezőbiztosok alapos kiképzése és ellenőrzése lehet.
milyen adatokat közöl egy fair közvélemény kutató szervezet?
=milyen egy helyes közvéleménykutatási beszámoló ?
A mintanagyságot, a mintaválasztás módját, a nemválaszolók arányát a legtöbb vizsgálatról szóló beszámoló közli.
Arról pedig, hogy kik voltak a kérdezőbiztosok, milyen képzésen vettek részt, hogyan ellenőrizték a munkájukat, hogyan biztosították például azt, hogy nagyjából hasonlóan legyenek öltözve, vagy volt-e lényeges eltérés korban vagy képzettségben közöttük, szinte soha nem tudunk meg semmit.