aspoň něco vím Flashcards
Co je to Ansombeho kvartet?
Série 4 datových sad, které mají stejné parametry, ale vypadají úplně jinak
Existuje verze i pro krabicové grafy
Jak se projeví odlehlé pozorování na průměru a medianu?
průměr se zvyšuje
medián zůstává pravděpodobně stejný
Co to je šikmost dat?
Šikmost zjišťuje, zda jsou hodnoty rozloženy okolo průměru symetricky
někdy jsou více k levé nebo pravé straně, místo rovnoměrně kolem průměru
menší než -1 větší než 1, silně zešikmená
-0,5 a 0,5 přibližně symetricky
Jaký je rozdíl mezi korelací a kauzalitou?
Korelace – dvě proměnné se vyskytují synchronizovaně
Kauzalita – jedna proměnná závisí na druhé
Obecně platí, že kauzalita implikuje korelaci
Rozhodně ale neplatí, že korelace implikuje kauzalitu
Jaký je rozdíl mezi intervalovou a poměrovou proměnnou?
Intervalové – mají definované rozdíly, které jsou stejné, tedy u teploty vyjádřené °C je rozdíl 20 °C až 30°C stejný, jako rozdíl 30 °C až 40°C
Poměrové – jsou intervalové, co mají navíc definovanou nulu, jako absenci proměnné. Teplota v °C nebo F není poměrová, neboť nula neznamená „absenci teploty“. Kelvin je tedy poměrová proměnná
Jaký je vztah mezi pravděpodobností a inferenční statistikou?
Zatímco popisná statistika zkoumá soubory entit přímo, inferenční statistika je zkoumá prostřednictvím výběrů s využitím teorie pravděpodobnosti. Na získané údaje se pohlíží jako na výsledky určitého náhodného pokusu, který mohl dát i jiné výsledky. Všechny závěry inferenční statistiky tak mají pravděpodobnostní charakter.
Jaký je rozdíl mezi nominální a ordinální proměnnou?
Nominální
o jejíž dvou hodnotách můžeme pouze říci, zda jsou stejné či různé (škola, fakulta, obor).
Ordinální(pořadová)
u jejíž dvou hodnot můžeme navíc určit pořadí (úroveň spokojenosti, vzdělání).
Jaký je rozdíl mezi inferenční a popisnou statistikou?
Deskriptivní statistika
je odvětví statistiky, které se zabývá popisem studované populace.
Inferenciální statistika
je typ statistiky, která se zaměřuje na vyvodění závěrů o populaci na základě analýzy vzorku a pozorování.
Inferenční statistika nám říká jak na základě vzorku (ten popíšeme pomocí deskriptivní statistiky) můžeme odvozovat parametry pravděpodobnostního modelu, ze kterého pocházejí data
Jaký je rozdíl mezi ordinální a číselnou proměnnou?
Ordinální obsahuje méně informací než číselná.
U číselné můžeme říct „kolikrát více je úroveň x oproti x-1”
Jaké znáte standardní skóry a k čemu slouží?
Každá proměnná může mít vlastní měřítko, s tím se může špatně pracovat
Proto převádíme do známých měřítek
Z-skór
ale i T-skor IQ-skor
Jaký je rozdíl mezi populací a vzorkem?
Populace
Všichni zkoumaní jedinci/jednotky
Výběrový soubor (Vzorek)
Malá část celé populace, kterou jsme změřili
Jaké znáte druhy četnosti a kdy se dá která použít?
Četnost
kolik čeho máme
pro všechny proměnné (ni)
Relativní četnost
vyjádření dat vůči celku
četnost / celkový počet prvku
vyjadřuje se v %
pro všechny proměnné (fi)
Kumulativní četnost
pro číselné nebo ordinální
postupně načítaná četnost jednotlivých vzestupně uspořádaných hodnot
Kumulativní relativní četnost
pro výpočet se používá relativní četnost a ne jenom četnost
Jak dělíme statistické proměnné?
Kvalitativní/Kategorické
Kvantitativní
Kvalitativní/Kategorické
nominální
ordinální
Kvantitativní
Diskrétní
Spojité
Jaké jsou možné vztahy mezi dvěma proměnnými?
žádný vztah jednu známe nevíme nic o druhé
pozitivní vztah
negativní vztah
inverzní vztah
Jaké jsou možnosti vizualizaci pro kvalitativní a kvantitativní proměnnou?
kvantitativní
-histogram
kvalitatativní
-sloupcový graf
-koláčový graf
Jaké znáte charakteristiky středu a jaké jsou mezi nimi rozdíly?
průměr - pro kvantitativní proměnné
medián - střední hodnota
modus - nejčastější hodnota
kvantily - dělí soubor hodnot na několik zhruba stejně velkých částí
percentily - jde o hodnotu, které dosáhne dané procento lidí
Jak vypadá rovnice nejjednodušší regrese a jak nazýváme jednotlivé členy rovnice?
𝑌̂=𝑏1 𝑋+𝑏0
x nezavislá proměnná
y zavislá proměnná
b1=směrnice nebo sklon (angl. slope)
b0=výchozí hodnota nebo konstantní člen (angl. intercept)
Které deskriptivní statistiky obsahuje krabicový graf?
Pokud chceme zobrazit rozdíly mezi skupinami
hodně informací
Medián - tlustá čára uprostřed
Horní, dolní kvartil - krabice
Vousy - oblast s hodnotami +- 1,5 IQR
Body - odlehlé pozorování
Jak z histogramu poznáme vlastnosti dat?
Můžeme vyčíst rozpětí
Pokud je distribuce symetrická, můžeme odhadnout průměr
Pokud máme málo sloupců můžeme zjistit snadno modus
Někdy nejsou data symetrická, ale jsou zešikmené
Jaký je rozdíl mezi diskrétní a spojitou proměnnou?
diskrétní, nabývají pouze celočíselných obměn (počet válců automobilu)
spojité (metrické), mohou nabývat libovolných hodnot z určitého intervalu (věk respondenta, cena výrobku, roční příjem domácnosti).
Jaké znáte možnosti relativních četností pro kontingenční tabulku?
řádkové
sloupcové
celkové
Jaký je rozdíl mezi extrapolací a interpolací?
Chceme předpovídat nové údaje (extrapolace) a porozumět dílčím zákonitostem uvnitř vývoje (interpolace)
Co nám popisuje Pearsonův korelační koeficient a kdy se používá?
Vyjádření jak moc se vyskytují hodnoty proměnné spolu (síla vztahu)
Jde o podíl kovariance a součinu směrodatných odchylek
Používá se tam kde nemáme odlehlá pozorovaní anebo tam, kde nemáme ordinální proměnné
rozsah -1 až 1
kladné - pozitivní závislost
záporné negativní závislost
Jaký je rozdíl mezi charakteristikou středu a charakteristikou variability?
Charakteristiky středu – jak jedním čísel popsat celý vzorek, průměr, modus
Charakteristiky variability – jak moc špatně jsme určili střed, rozptýlenosti
Charakteristiky středu - Pokud bychom měli data popsat jednou proměnnou, která to bude?
Charakteristiky variability – Jak moc se data pohybují kolem středu?
Kdy použijeme korelaci a kdy regresi?
Je to na nás!
Regresi je jedno, zda je mezi proměnnými vztah nebo není, pravidlo je tedy následující:
Pokud chceme předpovídat jednu proměnnou na ostatních, použijeme regresi
Pokud nám jde o těsnost vztahu, použijeme Pearsonův korelační koeficient
Co to je klouzavý průměr
Časovou řadu můžeme vyhladit od dílčích výkyvů pomocí klouzavých průměrů
Klouzavý průměr je průměr sousedních pozorování časové řady. Jedná se o elementární metodu, jak odhadnout trend časové řady.
Počítá se jako průměr konstantního počtu za sebou jdoucích období.
Co to je ARIMA model?
Auto-Regressive Integrated Moving Average
autoregresní integrovaný klouzavý průměr
Jde o kombinaci autoregrese a složky klouzavého průměru a případné diference
Vhodné p vybíráme na základě autoregresního vztahu
K čemu slouží Leveneho test a jak ho interpretujeme?
Testy nestejných rozptylů
Statistický test, který rozhoduje, zda jsou rozptyly několika vzorků stejné
nějaké krabicové grafy?
Jaké znáte koeficienty míry dynamiky a jaký je mezi nimi vztah?
Chceme zachytiti jak se mění dynamika řady.
Absolutní přírůstek
Průměrný absolutní přírůstek
Koeficient růstu
Průměrný koeficient růstu
Relativní přírůstek
Průměrný relativní přírůstek
Jak funguje jednovýběrový t-test?
Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou.
K čemu slouží Shapiro-Wilkův test a jak ho interpretujeme?
testování normality
Tento nástroj testuje hypotézu, zda je daná proměnná normálně rozložená
Je-li p-hodnota větší než 0,05 normalita se nezamítá
Histogram
data simetricka kolem středu
q-q plot
Co víme o rezidui časových řad
K zachycení kvality vyrovnání řady používáme rezidua
Rezidua by neměly mít trend
Průměrná hodnota reziduí = 0
Rozptyl reziduí je konstantní vzhledem k času
Jak rámcově funguje metoda MLE?
Často se vyskytuje i metoda Maximum likelihood estimate (MLE)
Řeší problém s maximalizací likelihoodu.
V případě regrese dostaneme stejné odhady parametrů, jako v případě metody nejmenších čtverců
Jaké máme závislosti časových řad?
Zdánlivá - mohou se nám zdát ne/podobné v závislosti na jejich trendových a sezónních složkách
Skutečná – závislost reziduí na sobě
Co to je časová řada a jak je dělíme?
posloupnost hodnot řazena směrem od minulosti
Okamžikové - aktuální stav nějaké míry v daném okamžiku
Intervalové - kolik jevů vzniklo/zaniklo k určitému intervalu
Délka
dlouhodobé, krátkodobé
Typ měření
okamžik, interval
Ukazatel
absolutní, relativní
Náhodnost
deterministcké, stochastické
Dle časových intervalů
Ekvidistantní - stejné rozestupy
Neekvidinstndtni - je potřeba zavést standartizaci hodnot
Jaký je vztah mezi směrnicí přímky a Pearsonovým korelačním koeficientem?
úzce souvisí s lineární regresí
znaménko Pearsona je identické znaménku směrnice přímky
pokud nejprve standartizujeme proměnné X a Y rovná se koeficient b1 přímo Pearsonovu koeficientu
Jaký je rozdíl mezi rozptylem, směrodatnou odchylkou a průměrnou odchylkou?
Rozptyl
Jde o celkovou míru rozptýlenosti
Směrodatná odchylka
Určuje průměrnou odchylku od středu
Průměrná odchylka
Jiná alternativa, jak „znormalizovat“ možné kladné a negativní rozdíly mezi hodnotami a průměrem
K čemu slouží intervalový odhad?
Pro každý parametr máme ještě intervalový odhad (určuje, kde hledaný parametr nachází)
Co je to exponenciální vyhlazování?
Jako klouzavý průměr, ale s různou váhou předchozích pozorování
α je vyhlazovací faktor
Funguje dobře, pokud není v datech trend, jinak je třeba použít dvojité exponenciální vyhlazování či trojité (pokud je tam i sezónnost)
Jaké jsou základní možnosti vizualizace dvou proměnných?
Obě kvantitativní
-Bodový graf
Jedna kvantitativní, druhá kvalitativní
-krabicový graf
Obě kvalitativní
-Mosaikový graf (nebudeme zkoušet)
Jaké jsou předpoklady jednovýběrového t-testu a co znamenají?
Závislá proměnná je číselná
Proměnná by měly být normálně rozložená
Neměly by být v datech odlehlé hodnoty
Mělo by být dost dat
Co nám popisuje Spearmanův korelační koeficient a kdy se používá?
Někdy nás zajímá, jak zachytit, že proměnné společně rostou a ne, zda spolu tvoří přímku
Spearmanův korelační koeficient se hodí pro monotónní (klesající/rostoucí) funkce
pracuje s pořadím na rozdíl od skutečných hodnot
pro odlehlá pozorovaní
ordinální data
Jaké jsou problémy s testováním hypotéz?
Testovaní hypotéz závisí na nějaké arbitrární hladině významnosti
Výzkumnici mohou dělat různé triky, jak dostat významnou p-hodnotu p hacking
Publikuje se snáze studie s významnými p-hodnotami, problém šuplíku, není významný nález - končí v šuplíku
Co znamenají stupně volnosti?
U T-testu je počet stupňů volnosti roven počtu pozorování zmenšený o jedničku
Hodnota parametru, který ovlivňuje tvar některého rozdělení pravděpodobnosti
Parametr pro porovnání nějakého testovaného kritéria pro testování hypotéz s odpovídajícím rozdělením
Jak můžeme otestovat normalitu?
Shapiro-Wilkův test
Podíváme se na histogram
Podíváme se na Q-Q graf
Co je to hypotéza a jaké na ní máme požadavky?
Hypotéza by měla být jasně formulovaná pomocí závislých a nezávislých proměnných
Hypotéza by měla být testovatelná
Hypotéza by měla být falzifikovatelná
Hypotéza by měla zmiňovat přítomnost nějakého vztahu, ne jeho nepřítomnost
Jak dekomponujeme časovou řadu?
rozložit na několik dílčích hodnot
systematická složka
trendová složka - dlouhodobý základní směr
periodická složka
nepravidelná složka
K čemu slouží testování hypotéz?
Testováním hypotéz nemůžeme nic dokázat! Pouze můžeme něco vyvrátit.
Testování hypotéz je statistická metoda, která určuje, jak pravděpodobná jsou naměřená data v případě platnosti hypotézy, kterou testujeme.
Jaké máme tři typy proměnných vzhledem k testování hypotéz a co znamenají?
Nezávislé proměnné – jde o proměnné, co můžeme manipulovat
Závislé proměnné – jde o výstupní proměnné
Intervenující proměnné (Matoucí/confouding proměnné) – všechny ostatní proměnné, které mohou vztah ovlivňovat
Jaké jsou charakteristiky variability?
Rozpětí
Rozptyl
Mezikvartilové rozpětí a odchylka
Směrodatná odchylka
Průměrná odchylka
Variační koeficient
Mezikvartilové rozpětí a odchylka
řeší problémy s extrémy
Směrodatná odchylka - průměrná odchylka od středu
Jaké znáte základní neparametrické testy?
Mann-Whitneyho test
Wilcoxonův test
Spearmanův korelační koeficient
„Fisherův exaktní test“
Jaký je rozdíl nulovou a alternativní hypotézou?
nulová hypotéza(H0)
značí stav, „kdy se nic neděje“
Skupiny se mezi sebou neliší
Průměry jsou stejné
IQ vzorku se neliší od IQ populace
Tuto nulovou hypotézu se snažíme vyvrátit
Stanovíme si proto alternativní hypotézu HA
Je rozdíl mezi skupinami
Průměry nejsou stejné
IQ vzorku se liší od IQ populace
Snažíme se vyvrátit nulovou hypotézu ve prospěch alternativní
Jaké nevýhody mají neparametrické testy?
mají nižší sílu testu
špatně zvládají shody (pokud se tam vyskytují stejné hodnoty)
většinou pro ně neumíme dělat konfidenční intervaly
většinou pro ně nemáme velikosti efektu
Jaká je definice pravděpodobnosti?
pravděpodobnost nám říká, jak moc můžeme očekávat, že daný jev nastane
Jde o poměr žádaných výsledků všem možným výsledkům
Co značí podmíněná pravděpodobnost?
Závisí-li výskyt jednoho jevu na druhém, mluvíme o závislosti.
Prší beru deštník
Dědičná choroba- jestli jí mají rodiče
P(A|B)
Kdy platí nulová hypotéza?
Jestliže je p-hodnota větší než hladina významnosti α (chyba α), nulovou hypotézu H0 nemůžeme zamítnout a tedy předpokládáme, že platí
Chyba I. druhu
hypotéza zamítnuta přestože platí.
Jaký je vztah elementárního jevu a náhodného jevu?
Můžete uvést jeden příklad?
Elementární jev
nejmenší možná událost co může nastat (na kostce nic menšího než jedno číslo)
Náhodný jev
komplexní událost, která může nastat (kombinace elementárních jevů)
Universum
množina všech elementárních jevů
Pravděpodobnost náhodného jeve značíme
Jaké parametry má normální rozdělení a co znamenají?
mikro: střední hodnota
sigma na druhou: rozptyl
Jaké znáte typy matoucích proměnných v DAGu?
The fork
The Pipe
The collider
The descendant
Kdy se zamítá nulová hypotéza?
Jestliže p-hodnota je menší než hladina významnosti α (chyba α), zamítáme nulovou hypotézu H0
Co to je Berksonův paradox a jak se projevuje?
specifickou selekcí nám mohou vzniknout korelace, které jinak neexistují
Dvě proměnné, které jsou za normálních podmínek nezávislé, se za jistých okolností mohou jevit závislými
Jaký je vztah mezi testováním hypotéz a konfidenčními intervaly?
Z konfidenčního intervalu lze poznat, zda bude p-hodnota menší
Obsahuje-li interval nulovou hypotézu, tak nebude příslušný test významný
Např. při testovaní korelaci je nulová hypotéza, že je korelace rovná nule
Jaké jsou základní vlastnosti pravděpodobnosti?
Pravděpodobnost nabývá hodnot mezi 0-1 0%-100%
P(A)=1 jev jistý
P(A)=0 jev nemožný
Jaké znáte verze χ2 testu a k čemu slouží?
Chí-kvadrát test
Pearsonův test dobré shody
Co to je regrese k průměru?
Pokud u někoho naměříme extrémní hodnoty, možná to byla jen náhoda a při dalším opakovaní se to vrátí zpět
Dá se tím vysvětlit spousta statických nálezů
Co to je p-hodnota?
číselná hodnota používaná při statistickém testování hypotéz. Testujeme-li na daném statistickém souboru nulovou hypotézu na hladině významnosti pomocí testové statistiky
je pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat
Co to je normalita reziduí u regrese? Jak to poznáme?
Rozdíl mezi predikovanou hodnotou a skutečnou hodnotu nazýváme reziduum
Mělo by platit, že rezidua jsou normálně rozdělená
V Jamovi se na to dá podívat přes bodový graf, Q-Q graf, či přímo otestovat
Chyba II. druhu
hypotéza nezamítnuta přestože neplatí
Co značí back-door v DAGu?
značí matoucí proměnné, které tímto zavřeme
Proč se nedá použít několik t-testů na místo ANOVY
Použijeme-li několik t-testů na místo ANOVY docílíme toho, že způsobíme v testovaní buď chybu I nebo II. řádu a nejspíš obje
I. zamítnutá hypotéza platí
II. hypotéza není zamítnuta, přestože neplatí
Co přidává Bayesova věta oproti frekventistickému přístupu?
Jde o jiný přístup ke statistice, nebereme je v potaz, co jsme nalezli, ale i jak se to vyskytuje v populaci resp. co o to víme z minulých výzkumů
Aktuálně velmi moderní přístup (Bayeskovská vs. frekventistická statistika)
Jak funguje Fork v DAGu?
Pokud Z zahrneme do modelu, uzavřeme tok informací touto cestou
Omitted variable bias - opomenutí zahrnutí proměnné do modelu vám zruší závěry kauzální inference
Jakou mají výhody pravděpodobnostní modely oproti specifikování ručně pomocí náhodné proměnné?
Samotná náhodná proměnná je pro formalizování světa málo (chceme dělit, přičíst konstantu)
Chceme popsat, jak vznikají data ve světě
Známe-li vlastnosti modelu, můžeme předpovídat, jaká data dostaneme.
Jaké má ANOVA předpoklady
Shodnost rozptylů - každá skupina musí mít podobný rozptyl
-Leveneho test
Normalita rezidui
q-q plot
Jaký je rozdíl mezi jednostranným a oboustranným testem?
Jednostranný test
Používáme v případě, že máme teorii, kterým směrem je definována alternativní hypotéza
Oboustranný test
Nevíme, na kterou stranu by nám zamítnutí nulové hypotézy mělo jít.
Jak porovnáváme několik regresních modelů s více prediktory?
K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr
Používá se tedy Adjusted R2, který penalizuje množství parametrů
Co značí hladina významnosti a k čemu ji používáme?
Pravděpodobnosti chyby I. a II. druhu označujeme jako α a β
P(chyba I. druhu) = α
P(chyba II. druhu) = β
Hodnotě α říkáme hladina významnosti
Co říká centrální limitní věta a jaké má praktické použití?
rozdělení výběrového průměru se blíží k normálnímu rozdělení
K čemu slouží ANOVA
testujeme 3 a více skupin.
analýza rozptylu,
zda se průměry skupin rovnají, nebo některý z nich je jiný.
Co to je DAG?
Direct acyclic graphs - orientované acyclické grafy
rozhodujeme se mezi 2 možnostmi přesná znalost chovaní DAGu nám umožní říct, kde proměnné zahrnout do modelu
matoucí proměnné slouží k odstranění kauzálních vztahů
Jaký je vztah ANOVY a regrese?
ANOVA
rozdíl mezi celkovým průměrem a jednotlivými podmínkami,
Regrese
rozdíl mezi baseline a ostatními podmínkami
Co to je studentovo t-rozdělení?
Jde o spojité rozdělení s jedním parametrem (počet stupňů volnosti)
Používáme ho v případě, když neznáme rozptyl populace (což je skoro vždy)
Při velkých stupních volnosti se blíží normálnímu rozdělení
Jak určit kvalitu modelu a jak byste ji interpretovali?
okud umocníme “fi” na druhou dostaneme koeficient determinace, který nám určuje, kolik procent variability je vysvětleno druhou proměnou
Můžeme použít jako hrubou míru, jak dobrý je náš model
Jak porovnáváme několik regresních modelů s více prediktory?
K porovnávání modelů nemůžeme použít R2, protože R2 vzroste vždy, když se přidá parametr
Používá se tedy Adjusted R2, který penalizuje množství parametrů