aspoň něco vím Flashcards
Co je to Ansombeho kvartet?
Série 4 datových sad, které mají stejné parametry, ale vypadají úplně jinak
Existuje verze i pro krabicové grafy
Jak se projeví odlehlé pozorování na průměru a medianu?
průměr se zvyšuje
medián zůstává pravděpodobně stejný
Co to je šikmost dat?
Šikmost zjišťuje, zda jsou hodnoty rozloženy okolo průměru symetricky
někdy jsou více k levé nebo pravé straně, místo rovnoměrně kolem průměru
menší než -1 větší než 1, silně zešikmená
-0,5 a 0,5 přibližně symetricky
Jaký je rozdíl mezi korelací a kauzalitou?
Korelace – dvě proměnné se vyskytují synchronizovaně
Kauzalita – jedna proměnná závisí na druhé
Obecně platí, že kauzalita implikuje korelaci
Rozhodně ale neplatí, že korelace implikuje kauzalitu
Jaký je rozdíl mezi intervalovou a poměrovou proměnnou?
Intervalové – mají definované rozdíly, které jsou stejné, tedy u teploty vyjádřené °C je rozdíl 20 °C až 30°C stejný, jako rozdíl 30 °C až 40°C
Poměrové – jsou intervalové, co mají navíc definovanou nulu, jako absenci proměnné. Teplota v °C nebo F není poměrová, neboť nula neznamená „absenci teploty“. Kelvin je tedy poměrová proměnná
Jaký je vztah mezi pravděpodobností a inferenční statistikou?
Zatímco popisná statistika zkoumá soubory entit přímo, inferenční statistika je zkoumá prostřednictvím výběrů s využitím teorie pravděpodobnosti. Na získané údaje se pohlíží jako na výsledky určitého náhodného pokusu, který mohl dát i jiné výsledky. Všechny závěry inferenční statistiky tak mají pravděpodobnostní charakter.
Jaký je rozdíl mezi nominální a ordinální proměnnou?
Nominální
o jejíž dvou hodnotách můžeme pouze říci, zda jsou stejné či různé (škola, fakulta, obor).
Ordinální(pořadová)
u jejíž dvou hodnot můžeme navíc určit pořadí (úroveň spokojenosti, vzdělání).
Jaký je rozdíl mezi inferenční a popisnou statistikou?
Deskriptivní statistika
je odvětví statistiky, které se zabývá popisem studované populace.
Inferenciální statistika
je typ statistiky, která se zaměřuje na vyvodění závěrů o populaci na základě analýzy vzorku a pozorování.
Inferenční statistika nám říká jak na základě vzorku (ten popíšeme pomocí deskriptivní statistiky) můžeme odvozovat parametry pravděpodobnostního modelu, ze kterého pocházejí data
Jaký je rozdíl mezi ordinální a číselnou proměnnou?
Ordinální obsahuje méně informací než číselná.
U číselné můžeme říct „kolikrát více je úroveň x oproti x-1”
Jaké znáte standardní skóry a k čemu slouží?
Každá proměnná může mít vlastní měřítko, s tím se může špatně pracovat
Proto převádíme do známých měřítek
Z-skór
ale i T-skor IQ-skor
Jaký je rozdíl mezi populací a vzorkem?
Populace
Všichni zkoumaní jedinci/jednotky
Výběrový soubor (Vzorek)
Malá část celé populace, kterou jsme změřili
Jaké znáte druhy četnosti a kdy se dá která použít?
Četnost
kolik čeho máme
pro všechny proměnné (ni)
Relativní četnost
vyjádření dat vůči celku
četnost / celkový počet prvku
vyjadřuje se v %
pro všechny proměnné (fi)
Kumulativní četnost
pro číselné nebo ordinální
postupně načítaná četnost jednotlivých vzestupně uspořádaných hodnot
Kumulativní relativní četnost
pro výpočet se používá relativní četnost a ne jenom četnost
Jak dělíme statistické proměnné?
Kvalitativní/Kategorické
Kvantitativní
Kvalitativní/Kategorické
nominální
ordinální
Kvantitativní
Diskrétní
Spojité
Jaké jsou možné vztahy mezi dvěma proměnnými?
žádný vztah jednu známe nevíme nic o druhé
pozitivní vztah
negativní vztah
inverzní vztah
Jaké jsou možnosti vizualizaci pro kvalitativní a kvantitativní proměnnou?
kvantitativní
-histogram
kvalitatativní
-sloupcový graf
-koláčový graf
Jaké znáte charakteristiky středu a jaké jsou mezi nimi rozdíly?
průměr - pro kvantitativní proměnné
medián - střední hodnota
modus - nejčastější hodnota
kvantily - dělí soubor hodnot na několik zhruba stejně velkých částí
percentily - jde o hodnotu, které dosáhne dané procento lidí
Jak vypadá rovnice nejjednodušší regrese a jak nazýváme jednotlivé členy rovnice?
𝑌̂=𝑏1 𝑋+𝑏0
x nezavislá proměnná
y zavislá proměnná
b1=směrnice nebo sklon (angl. slope)
b0=výchozí hodnota nebo konstantní člen (angl. intercept)
Které deskriptivní statistiky obsahuje krabicový graf?
Pokud chceme zobrazit rozdíly mezi skupinami
hodně informací
Medián - tlustá čára uprostřed
Horní, dolní kvartil - krabice
Vousy - oblast s hodnotami +- 1,5 IQR
Body - odlehlé pozorování
Jak z histogramu poznáme vlastnosti dat?
Můžeme vyčíst rozpětí
Pokud je distribuce symetrická, můžeme odhadnout průměr
Pokud máme málo sloupců můžeme zjistit snadno modus
Někdy nejsou data symetrická, ale jsou zešikmené
Jaký je rozdíl mezi diskrétní a spojitou proměnnou?
diskrétní, nabývají pouze celočíselných obměn (počet válců automobilu)
spojité (metrické), mohou nabývat libovolných hodnot z určitého intervalu (věk respondenta, cena výrobku, roční příjem domácnosti).
Jaké znáte možnosti relativních četností pro kontingenční tabulku?
řádkové
sloupcové
celkové
Jaký je rozdíl mezi extrapolací a interpolací?
Chceme předpovídat nové údaje (extrapolace) a porozumět dílčím zákonitostem uvnitř vývoje (interpolace)
Co nám popisuje Pearsonův korelační koeficient a kdy se používá?
Vyjádření jak moc se vyskytují hodnoty proměnné spolu (síla vztahu)
Jde o podíl kovariance a součinu směrodatných odchylek
Používá se tam kde nemáme odlehlá pozorovaní anebo tam, kde nemáme ordinální proměnné
rozsah -1 až 1
kladné - pozitivní závislost
záporné negativní závislost
Jaký je rozdíl mezi charakteristikou středu a charakteristikou variability?
Charakteristiky středu – jak jedním čísel popsat celý vzorek, průměr, modus
Charakteristiky variability – jak moc špatně jsme určili střed, rozptýlenosti
Charakteristiky středu - Pokud bychom měli data popsat jednou proměnnou, která to bude?
Charakteristiky variability – Jak moc se data pohybují kolem středu?
Kdy použijeme korelaci a kdy regresi?
Je to na nás!
Regresi je jedno, zda je mezi proměnnými vztah nebo není, pravidlo je tedy následující:
Pokud chceme předpovídat jednu proměnnou na ostatních, použijeme regresi
Pokud nám jde o těsnost vztahu, použijeme Pearsonův korelační koeficient
Co to je klouzavý průměr
Časovou řadu můžeme vyhladit od dílčích výkyvů pomocí klouzavých průměrů
Klouzavý průměr je průměr sousedních pozorování časové řady. Jedná se o elementární metodu, jak odhadnout trend časové řady.
Počítá se jako průměr konstantního počtu za sebou jdoucích období.
Co to je ARIMA model?
Auto-Regressive Integrated Moving Average
autoregresní integrovaný klouzavý průměr
Jde o kombinaci autoregrese a složky klouzavého průměru a případné diference
Vhodné p vybíráme na základě autoregresního vztahu
K čemu slouží Leveneho test a jak ho interpretujeme?
Testy nestejných rozptylů
Statistický test, který rozhoduje, zda jsou rozptyly několika vzorků stejné
nějaké krabicové grafy?
Jaké znáte koeficienty míry dynamiky a jaký je mezi nimi vztah?
Chceme zachytiti jak se mění dynamika řady.
Absolutní přírůstek
Průměrný absolutní přírůstek
Koeficient růstu
Průměrný koeficient růstu
Relativní přírůstek
Průměrný relativní přírůstek
Jak funguje jednovýběrový t-test?
Pokud náhodný výběr pochází z normálního rozdělení, pak výběrový průměr má také normální rozdělení se stejnou střední hodnotou.
K čemu slouží Shapiro-Wilkův test a jak ho interpretujeme?
testování normality
Tento nástroj testuje hypotézu, zda je daná proměnná normálně rozložená
Je-li p-hodnota větší než 0,05 normalita se nezamítá
Histogram
data simetricka kolem středu
q-q plot
Co víme o rezidui časových řad
K zachycení kvality vyrovnání řady používáme rezidua
Rezidua by neměly mít trend
Průměrná hodnota reziduí = 0
Rozptyl reziduí je konstantní vzhledem k času
Jak rámcově funguje metoda MLE?
Často se vyskytuje i metoda Maximum likelihood estimate (MLE)
Řeší problém s maximalizací likelihoodu.
V případě regrese dostaneme stejné odhady parametrů, jako v případě metody nejmenších čtverců
Jaké máme závislosti časových řad?
Zdánlivá - mohou se nám zdát ne/podobné v závislosti na jejich trendových a sezónních složkách
Skutečná – závislost reziduí na sobě