Základy datových analýz 4ST101 Flashcards
explore = zkoumat
Exploratorní analýza dat
Co to je?
aplikace základní popisné statistiky na data
Statistický ukazatel je číselné zobrazení konkrétního ekonomického jevu
Adekvační mezera
Co to je?
nesoulad mezi ekonomickým pojmem
a statistickým ukazatelem
statistickým
ukazatelem se snažíme ekonomickým pojmům pouze přiblížit
Statistika dává data, ale nezodpovídá za jejich interpretaci
Statistika
Co to je?
Matematika říká, že 2+2=4, statistika říká, že 2+2=4 ±něco
disciplína sběru a zpracovávání dat a přípravy podkladů pro kvalifikovaná rozhodnutí
může tím být míněna i funkce zpracování dat (průměr, medián, souhrn…)
Ze všech modelů jich platí půlka, jen nevíme, která
konjunkce = spojení, spojitost, souvislost, shoda
konjunktura
Co to je?
příznivý stav ekonomických ukazatelů promítající se do růstu HDP
situace středně- nebo dlouhodobé souhry příznivých okolností a podmínek,
indukce = vyvození obecného závěru z dílčích poznatků
Induktivní úsudky
Co to je?
též inferenční nástroje
Závěry na základě omezeného množství zdrojů – zobecňování
Protiklad dedukce – závěry přímo vyplývající ze získaných informací
Získávání obecných dat na základě pravděpodobnosti
Computer Assisted Web Interviewing
CAWI
Co to je?
Jaké to má nevýhody?
Metoda sběru dat na internetu
- Ne každý má přístup k internetu
- Těžko odhalit lži
Míněno panel ve statistice
Panel
Co to je?
Skupina vybraných respondentů, která je opakovaně podrobována zkoumání v souvislosti se stejnou či podobnou problematikou
Získané info jsou levnější a umožňují sledovat vývoj daného jevu v čase
Statistická jednotka
Co to je?
Vyhodnocovaný objekt z množiny objektů jako nositel určité vlastnosti statistického znaku
Základní statistický soubor = cílová populace
Statistický soubor
Co to je?
- základní
- výběrový
Soubor zpracovávaných jednotek
- Všechny jednotky
- Některé (vybrané) jednotky
Interference znamená vzájemné ovlivňování
Statistická inference
Co to je?
Jak se chová chyba u statistické interference?
Zobecňování získaných dat z výběrového statistického souboru na cílovou populaci
Pro chybu < 1% je třeba pracovat se vzorkem alespoň o 1000 respondentech
Chyba klesá se čtvercem velikosti vzorku (ne u nepravděpodobnostního výběru)
Metrické statistické znaky
Jaké to jsou? Jaké typy?
- Spojité (peníze)
- Nespojité (počet osob)
Měřitelné statistické znaky
Order = pořadí
Ordinální statistické znaky
Které je to obecně jsou?
Pakliže se chceme vyhnout metrickým znakům (např. jev měřit neumíme chytrost → IQ, vzdělání → známka)
Často se to chová spíš jako nominální znaky
Škály
Nominální statistické znaky
Co to je?
Znaky, které nelze seřadit
Např. názvy míst, lídí atp.
Výběr vzorku
Koncepční dilema
Jaké jsou to otázky?
Jak vybrat vhodný vzorek?
- Jaký vzorek je nejvhodnější?
- Jaký vzorek je (ne)reprezentativní?
Nereprezentativní vzorek se hodí, chci-li audit o konkrétním produktu
Často se půl vzorku vybere reprezentativně, druhá půlka se vybere tak, aby se posílily slabě zastoupené skupiny
Prostý náhodný výběr
Jak to funguje?
Vzorek se prostě náhodně vybere
Často se to ale úplně nedá použít
Systematický výběr
Jak to funguje?
Použitelná data se promíchají, náhodně se vybere začátek a pak se vybere každý n-tý prvek
Předvýběr
Stratifikace
Co to je?
V zájmu rovného zastoupení všech skupin se vybere vždy n prvků z každé skupiny
Vícestupňový výběr
Jak to funguje?
Nejprve se náhodně zvolí oblasti, ze kterých se bude vybírat. Z nich se poté vyberou podoblasti atd.
Kvótní výběr
Jak to funguje?
Vybírá se tak, aby rozdělení četností pomocných znaků bylo co nejpodobnější k základnímu výběru
Benfordův zákon
Co říká?
Pravděpodobnost výskytu každé z cifer na 1. místě nějakého přirozeně vzniklého čísla je různá. Nejpravděpodobnější je číslice 1 (s pravděpodobností 0,3), potom č. 2 (0,17), 3 atd.
Nezmění-li se vynásobením dat četnosti cifer, platí pro ta data Benzák.
Mean Absolute Error
MAE
Co to je? Jak se to počítá?
Průměrná odchylka reálných hodnot od hodnot předpokládaných
Suma abs. rozdílů reálných hodnot od předpokládaných dělený jich počtem
Zipfův zákon
Co říká?
Četnost součástek textu, seřazených od nejčetnější po nejméně četnou, rovnoměrně klesá
Těžký konec
Co to je?
rozdělení četností vypadající jako kopec, za nímž je ještě malý kopeček
Kvantily
Co to je?
Hodnoty rozdělující množinu hodnot na části
Medián (1), kvartily (3), decily (9), percentily (99)…
Statistika
Momenty
Co to je? Jaké to jsou?
Číselné charakteristiky rozložení dat vzhledem k průměru
Průměr (1. moment), rozptyl (moment 2. řádu), šikmost (moment 3. řádu), špičatost (moment 4. řádu)
Používá se, když je hodně hodnot a neustále přibývají další a další
Klouzavý průměr
Co to je? Jaký vliv na to má velikost podmnožiny průměrovaných hodnot?
Jaké to má nevýhody?
Zprůměruje se předem daný počet hodnot (např. 1. až 5.), potom se k nim 1 hodnota přidá a na druhém konci se 1 odebere; to se opět zprůměruje (2. až 6.) atd.
Oč větší je podmnožina hodnot, tím hladší je křivka průměrů
Ztrácí se prvních pár hodnot.