zkouška Flashcards

1
Q

Co nám popisuje kontingenční tabulka?

A

Je pohled na data, ze kterého se můžeme dozvědět informace, které v původních datech nevidíme

V kontingenční tabulce si můžeme zobrazit data, která zrovna potřebujeme a také se dá spočítat, průměr, relativní četnost atd.

Jde o vícerozměrnou tabulku četností – pro každou kombinaci dat máme počet pozorování v datech

Používá se pro porovnání dvou nominálních proměnných

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Jaké jsou možné koeficienty asociace pro 2x2 tabulku (kontingenční tabulka) a jaké jsou jejich vlastnosti?

A

Pomocí tohoto koeficientu můžeme vyjádřit asociaci mezi nominálními proměnnými

nabývá hodnot -1 až 1
0-> nezávislost
1-> pozitivní korelace
-1-> negativní korelace

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

K čemu slouží bodový odhad a jaké bodové odhady znáte?

A

Můžeme odhadovat jednotlivé charakteristiky modelů, pak mluvíme o bodových odhadech

Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází)

r je bodovým odhadem korelace na populaci

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Co to je standardní chyba průměru a k čemu slouží?

A

značí, jaká je směrodatná odchylka při výběrovém průměru

Jde o základní stavební blok pro konfidenční intervaly

je to číslo, které označuje, jak moc se asi námi získaný průměr náhodného výběru liší od střední hodnoty základního souboru.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Co to je Q-Q graf? Jak z něj poznáme porušení normality?

A

Pro Q-Q graf se spočítají kvantily dat a porovnají se s kvantily teoretické distribuce
Vznikne tak bodový graf, kde by hodnoty měly ležet na přímce, pokud se kvantily teoretického rozdělení a vzorku shodují
Dá se použít pro test na libovolné rozdělení, ale často se používají právě na normalitu

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Jaký je rozdíl mezi dvouvýběrovým t-testem a párovým t-testem?

A

Párový t-test se od jednovýběrového liší pouze v tom, že náhodný výběr poskytuje dvojice hodnot přičemž uvnitř každé dvojice nemusí jít o nezávislé veličiny

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Co testujeme u korelačního koeficientu a u regrese?

A

Při testovaní korelace opět využíváme t-rozdělení
Korelaci na celé populaci značíme symbolem p (takové divné)
U lineární regrese můžeme testovat, zda se jednotlivé koeficienty liší od 0
normalita reziduí
Homoskecidita

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Co to je homeskedascita? Jak ji poznáme?

A

Chceme, aby rozptyl proměnné y byl nezávislé na parametru x
Jinými slovy, chyba by měla být pořád stejně velká
Homoskedascita jde dobře vidět z grafu reziduí
Pokud neplatí, tak nemůžeme věřit, že výběrové koeficienty dobře odhadují populační koeficienty

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Co je to multikolinearita? Jak ji poznáme?

A

Máme-li navíc více nezávislých proměnných, může nastat situace, že spolu budou hodně korelované
U studentského vzorku - Předpovídáme věk na základě váhy a výšky
Pokud dáme obě proměnné do modelu, dostaneme
Protože jsou obě proměnné korelované, špatně se to interpretuje (změna v jedné nezávislé mění kromě závislé i tu druhou)
Rozhodnutí, zda dochází k multikolinaritě můžeme zjistit pomocí VIF hodnoty (variance inflation factor).
Pravidlo pravé ruky říká, že pro hodnoty > 5 musíme být opatrní
Máme-li dvě proměnné, které dáváme do modelu a jsou spolu korelované (a mají vyšší VIF), tak nejjednodušší řešení je tam jednu z nich nedat

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Co to je χ2 rozdělení a k čemu ho používáme?

A

Porovnaná dvou skupin proměnných zda-li jsou na sobě závislé.
chi-kvadrat test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Jaký je rozdíl mezi pozorovanými a očekávanými počty?

A

Kde O jsou naměřené počet pozorování (observed) pro jednotlivé úrovně a E jsou očekávané počty pozorování za předpokladu nulové hypotézy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Co dělat v případě kontingenční tabulky s malým počtem pozorování?

A

5-10 pozorovaní
Yatesova korekce
Při této korekci odečteme z každého O-E 0,5

0-5 pozorovaní
Fisherův exaktní test

Přímo pracuje s pravděpodobností pozorovaní a vychází z hypergeometrického rozdělení

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Jaké znáte koeficienty asociace pro tabulky r × c?

A

Koeficient kontingence
Tene doataneme z hodnoty X2 a počtu pozorovaní n
0-nulová asociace
větší hodnoty silnější asociace

Cramerovo V
Lepší varianta
Hodnoty kolem 0 značí nulovou asociaci
1 perfektní asociace

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Jak zhruba funguje Wilcoxonův/Mann Whitneyho test?

A

Pracuje s mediánem namísto průměru
Testuje, zda jsou hodnoty rozděleny symetricky kolem předpokládané hodnoty x0

Mann-Whitneyho
Opět pracuje s pořadím ,mějme vzorky A a B
Oba vzorky (A a B) smísíme do jednoho vzorku a uspořádáme dle velikosti
Spočítáme pořadí pro každý z prvků (v případě rovnosti dáme průměrné pořadí
Spočítáme-li součet pořadí zvlášť pro vzorky A a zvlášť pro vzorky B, měli bychom mít stejný součet v obou skupinách (za předpokladu H0)
Na základě součtu hodnot pořadí spočítáme testové statistiky (není důležité, jak přesně) a porovnáme s kritickou hodnotou (která odpovídá vždy velikosti vzorku)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Co to je velikost efektu a k čemu se používá?

A

Velikost vzdálenost dvou skupin závisí na konkrétních hodnotách proměnných…
proto zavádíme statistiky vyjadřující velikost efektu
nejpoužívanější je Cohenovo d
Jde o normovanou vzdálenost průměrů
Velikosti efektu se dají porovnávat napříč studiemi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

K čemu slouží power analýza?

A

Pokud budeme mít malý vzorek/slabý test, nemusíme najít efekt, i když tam ve skutečnosti je. Musíme proto provést power analýzu
Power analýza je nástroj, jak si stanovit velikost vzorku pro nalezení efektu, co nás zajímá
Obecně jsou spolu svázány parametry:
Velikost efektu
Velikost vzorku
α
β

17
Q

Co je to F rozdělení a jaké má parametry?

A

F rozdělení je spojité rozdělení pravděpodobnosti, které se často vyskytuje jako rozdělení testovací statistiky za předpokladu platnosti nulové hypotézy. (analýza ANOVA) Parametry d1 a d2 vzniká jako podíl dvou vhodně škálovaných nezavyslých proměnných s rozdělením chí-kvadrát-

18
Q

Jaké znáte základní pravděpodobnostní modely (včetně jejich klasifikace a možného použití)?

A

Diskrétní
máme jen dvě možností jak to může dopadnout - alternativní
sčítáme n alternativních - binomické

bez vracení -hypergeometrické

zajímají nás počty - poissonovo
používá se k aproximaci binomického rozdělení

Spojité
obor hodnot interval
rovnoměrné rozdělní

19
Q

Jak funguje Pipe v DAGu?

A
  1. způsob
    Pokud Z zahrneme do modelu, uzavřeme tok informací touto cestou a tedy nevíme nic o X

Included variable bias přidáním proměnné do modelu nám také může pokazit inferenc

  1. způsob
    Pokud Z zahrneme do modelu, otevřeme tok informací touto cestou

Collider Bias - přidáním proměnné do modelu nám může pokazit inferenci

20
Q

Jak funguje Collider v DAGu?

A

Pokud Z zahrneme do modelu, uzavřeme tok informací touto cestou a tedy nevíme nic o X

Included variable bias přidáním proměnné do modelu nám také může pokazit inferenci

Bearksonův paradox - specifickou selekcí nám mohou vzniknout korelace, které jinak neexistují

The collider x->Z<-y
vypínač->světlo<-elektřina

21
Q

Jaké máme sumy čtverců u ANOVY?

A

Můžeme počítat odchylky jak od celkového průměru, tak od skupinových průměrů

SST - odchylky dat od celkového průměru
SSR(E) - odchylky dat od skupinových průměrů
SSM- odchylky průměru skupin od celkového průměru