zkouška Flashcards
Co nám popisuje kontingenční tabulka?
Je pohled na data, ze kterého se můžeme dozvědět informace, které v původních datech nevidíme
V kontingenční tabulce si můžeme zobrazit data, která zrovna potřebujeme a také se dá spočítat, průměr, relativní četnost atd.
Jde o vícerozměrnou tabulku četností – pro každou kombinaci dat máme počet pozorování v datech
Používá se pro porovnání dvou nominálních proměnných
Jaké jsou možné koeficienty asociace pro 2x2 tabulku (kontingenční tabulka) a jaké jsou jejich vlastnosti?
Pomocí tohoto koeficientu můžeme vyjádřit asociaci mezi nominálními proměnnými
nabývá hodnot -1 až 1
0-> nezávislost
1-> pozitivní korelace
-1-> negativní korelace
K čemu slouží bodový odhad a jaké bodové odhady znáte?
Můžeme odhadovat jednotlivé charakteristiky modelů, pak mluvíme o bodových odhadech
Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází)
r je bodovým odhadem korelace na populaci
Co to je standardní chyba průměru a k čemu slouží?
značí, jaká je směrodatná odchylka při výběrovém průměru
Jde o základní stavební blok pro konfidenční intervaly
je to číslo, které označuje, jak moc se asi námi získaný průměr náhodného výběru liší od střední hodnoty základního souboru.
Co to je Q-Q graf? Jak z něj poznáme porušení normality?
Pro Q-Q graf se spočítají kvantily dat a porovnají se s kvantily teoretické distribuce
Vznikne tak bodový graf, kde by hodnoty měly ležet na přímce, pokud se kvantily teoretického rozdělení a vzorku shodují
Dá se použít pro test na libovolné rozdělení, ale často se používají právě na normalitu
Jaký je rozdíl mezi dvouvýběrovým t-testem a párovým t-testem?
Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny
Co testujeme u korelačního koeficientu a u regrese?
Při testovaní korelace opět využíváme t-rozdělení
Korelaci na celé populaci značíme symbolem p (takové divné)
U lineární regrese můžeme testovat, zda se jednotlivé koeficienty liší od 0
normalita reziduí
Homoskecidita
Co to je homeskedascita? Jak ji poznáme?
Chceme, aby rozptyl proměnné y byl nezávislé na parametru x
Jinými slovy, chyba by měla být pořád stejně velká
Homoskedascita jde dobře vidět z grafu reziduí
Pokud neplatí, tak nemůžeme věřit, že výběrové koeficienty dobře odhadují populační koeficienty
Co je to multikolinearita? Jak ji poznáme?
Máme-li navíc více nezávislých proměnných, může nastat situace, že spolu budou hodně korelované
U studentského vzorku - Předpovídáme věk na základě váhy a výšky
Pokud dáme obě proměnné do modelu, dostaneme
Protože jsou obě proměnné korelované, špatně se to interpretuje (změna v jedné nezávislé mění kromě závislé i tu druhou)
Rozhodnutí, zda dochází k multikolinaritě můžeme zjistit pomocí VIF hodnoty (variance inflation factor).
Pravidlo pravé ruky říká, že pro hodnoty > 5 musíme být opatrní
Máme-li dvě proměnné, které dáváme do modelu a jsou spolu korelované (a mají vyšší VIF), tak nejjednodušší řešení je tam jednu z nich nedat
Co to je χ2 rozdělení a k čemu ho používáme?
Porovnaná dvou skupin proměnných zda-li jsou na sobě závislé.
chi-kvadrat test
Jaký je rozdíl mezi pozorovanými a očekávanými počty?
Kde O jsou naměřené počet pozorování (observed) pro jednotlivé úrovně a E jsou očekávané počty pozorování za předpokladu nulové hypotézy
Co dělat v případě kontingenční tabulky s malým počtem pozorování?
5-10 pozorovaní
Yatesova korekce
Při této korekci odečteme z každého O-E 0,5
0-5 pozorovaní
Fisherův exaktní test
Přímo pracuje s pravděpodobností pozorovaní a vychází z hypergeometrického rozdělení
Jaké znáte koeficienty asociace pro tabulky r × c?
Koeficient kontingence
Tene doataneme z hodnoty X2 a počtu pozorovaní n
0-nulová asociace
větší hodnoty silnější asociace
Cramerovo V
Lepší varianta
Hodnoty kolem 0 značí nulovou asociaci
1 perfektní asociace
Jak zhruba funguje Wilcoxonův/Mann Whitneyho test?
Pracuje s mediánem namísto průměru
Testuje, zda jsou hodnoty rozděleny symetricky kolem předpokládané hodnoty x0
Mann-Whitneyho
Opět pracuje s pořadím ,mějme vzorky A a B
Oba vzorky (A a B) smísíme do jednoho vzorku a uspořádáme dle velikosti
Spočítáme pořadí pro každý z prvků (v případě rovnosti dáme průměrné pořadí
Spočítáme-li součet pořadí zvlášť pro vzorky A a zvlášť pro vzorky B, měli bychom mít stejný součet v obou skupinách (za předpokladu H0)
Na základě součtu hodnot pořadí spočítáme testové statistiky (není důležité, jak přesně) a porovnáme s kritickou hodnotou (která odpovídá vždy velikosti vzorku)
Co to je velikost efektu a k čemu se používá?
Velikost vzdálenost dvou skupin závisí na konkrétních hodnotách proměnných…
proto zavádíme statistiky vyjadřující velikost efektu
nejpoužívanější je Cohenovo d
Jde o normovanou vzdálenost průměrů
Velikosti efektu se dají porovnávat napříč studiemi