Základy datových analýz 4ST101 Flashcards
explore = zkoumat
Exploratorní analýza dat
Co to je?
aplikace základní popisné statistiky na data
Statistický ukazatel je číselné zobrazení konkrétního ekonomického jevu
Adekvační mezera
Co to je?
nesoulad mezi ekonomickým pojmem
a statistickým ukazatelem
statistickým
ukazatelem se snažíme ekonomickým pojmům pouze přiblížit
Statistika dává data, ale nezodpovídá za jejich interpretaci
Statistika
Co to je?
Matematika říká, že 2+2=4, statistika říká, že 2+2=4 ±něco
disciplína sběru a zpracovávání dat a přípravy podkladů pro kvalifikovaná rozhodnutí
může tím být míněna i funkce zpracování dat (průměr, medián, souhrn…)
Ze všech modelů jich platí půlka, jen nevíme, která
konjunkce = spojení, spojitost, souvislost, shoda
konjunktura
Co to je?
příznivý stav ekonomických ukazatelů promítající se do růstu HDP
situace středně- nebo dlouhodobé souhry příznivých okolností a podmínek,
indukce = vyvození obecného závěru z dílčích poznatků
Induktivní úsudky
Co to je?
též inferenční nástroje
Závěry na základě omezeného množství zdrojů – zobecňování
Protiklad dedukce – závěry přímo vyplývající ze získaných informací
Získávání obecných dat na základě pravděpodobnosti
Computer Assisted Web Interviewing
CAWI
Co to je?
Jaké to má nevýhody?
Metoda sběru dat na internetu
- Ne každý má přístup k internetu
- Těžko odhalit lži
Míněno panel ve statistice
Panel
Co to je?
Skupina vybraných respondentů, která je opakovaně podrobována zkoumání v souvislosti se stejnou či podobnou problematikou
Získané info jsou levnější a umožňují sledovat vývoj daného jevu v čase
Statistická jednotka
Co to je?
Vyhodnocovaný objekt z množiny objektů jako nositel určité vlastnosti statistického znaku
Základní statistický soubor = cílová populace
Statistický soubor
Co to je?
- základní
- výběrový
Soubor zpracovávaných jednotek
- Všechny jednotky
- Některé (vybrané) jednotky
Interference znamená vzájemné ovlivňování
Statistická inference
Co to je?
Jak se chová chyba u statistické interference?
Zobecňování získaných dat z výběrového statistického souboru na cílovou populaci
Pro chybu < 1% je třeba pracovat se vzorkem alespoň o 1000 respondentech
Chyba klesá se čtvercem velikosti vzorku (ne u nepravděpodobnostního výběru)
Metrické statistické znaky
Jaké to jsou? Jaké typy?
- Spojité (peníze)
- Nespojité (počet osob)
Měřitelné statistické znaky
Order = pořadí
Ordinální statistické znaky
Které je to obecně jsou?
Pakliže se chceme vyhnout metrickým znakům (např. jev měřit neumíme chytrost → IQ, vzdělání → známka)
Často se to chová spíš jako nominální znaky
Škály
Nominální statistické znaky
Co to je?
Znaky, které nelze seřadit
Např. názvy míst, lídí atp.
Výběr vzorku
Koncepční dilema
Jaké jsou to otázky?
Jak vybrat vhodný vzorek?
- Jaký vzorek je nejvhodnější?
- Jaký vzorek je (ne)reprezentativní?
Nereprezentativní vzorek se hodí, chci-li audit o konkrétním produktu
Často se půl vzorku vybere reprezentativně, druhá půlka se vybere tak, aby se posílily slabě zastoupené skupiny
Prostý náhodný výběr
Jak to funguje?
Vzorek se prostě náhodně vybere
Často se to ale úplně nedá použít
Systematický výběr
Jak to funguje?
Použitelná data se promíchají, náhodně se vybere začátek a pak se vybere každý n-tý prvek
Předvýběr
Stratifikace
Co to je?
V zájmu rovného zastoupení všech skupin se vybere vždy n prvků z každé skupiny
Vícestupňový výběr
Jak to funguje?
Nejprve se náhodně zvolí oblasti, ze kterých se bude vybírat. Z nich se poté vyberou podoblasti atd.
Kvótní výběr
Jak to funguje?
Vybírá se tak, aby rozdělení četností pomocných znaků bylo co nejpodobnější k základnímu výběru
Benfordův zákon
Co říká?
Pravděpodobnost výskytu každé z cifer na 1. místě nějakého přirozeně vzniklého čísla je různá. Nejpravděpodobnější je číslice 1 (s pravděpodobností 0,3), potom č. 2 (0,17), 3 atd.
Nezmění-li se vynásobením dat četnosti cifer, platí pro ta data Benzák.
Mean Absolute Error
MAE
Co to je? Jak se to počítá?
Průměrná odchylka reálných hodnot od hodnot předpokládaných
Suma abs. rozdílů reálných hodnot od předpokládaných dělený jich počtem
Zipfův zákon
Co říká?
Četnost součástek textu, seřazených od nejčetnější po nejméně četnou, rovnoměrně klesá
Těžký konec
Co to je?
rozdělení četností vypadající jako kopec, za nímž je ještě malý kopeček
Kvantily
Co to je?
Hodnoty rozdělující množinu hodnot na části
Medián (1), kvartily (3), decily (9), percentily (99)…
Statistika
Momenty
Co to je? Jaké to jsou?
Číselné charakteristiky rozložení dat vzhledem k průměru
Průměr (1. moment), rozptyl (moment 2. řádu), šikmost (moment 3. řádu), špičatost (moment 4. řádu)
Používá se, když je hodně hodnot a neustále přibývají další a další
Klouzavý průměr
Co to je? Jaký vliv na to má velikost podmnožiny průměrovaných hodnot?
Jaké to má nevýhody?
Zprůměruje se předem daný počet hodnot (např. 1. až 5.), potom se k nim 1 hodnota přidá a na druhém konci se 1 odebere; to se opět zprůměruje (2. až 6.) atd.
Oč větší je podmnožina hodnot, tím hladší je křivka průměrů
Ztrácí se prvních pár hodnot.
Četnost
Co to je?
Kumulativní četnost
Počet prvků, pro které má sledovaná proměnná danou hodnotu
Počet prvků, pro které má sledovaná proměnná danou hodnotu či nižší
Polygon četností
Co to je?
Znázornění rozložení četností v grafu
Scannerová data
anonymizace účtenky z velkých obchodů
pilotáž
Pilotní vzorek
Šetření před hlavním výzkumem
Cílem je zjistit podstatné informace o vyšetřovaném souboru
Kvalitativní proměnné
* Nominální
* Ordinální
Vyjádřené textem
* nelze je řadit
* lze je řadit
Kvantitativní proměnné
- Spojité
* Diskrétní
Vyjádřené číselnou hodnotou
* Mohou nabývat všech možných hodnot
* Nabývají předem určených hodnot
Kvantil
Medián
Hodnota rozdělující množinu čísel na více stejně velkých částí
Rozděluje množinu čísel na dvě stejně velké části
Aritmetický průměr
Vážený aritmetický průměr
Součet hodnot dělený počtem hodnot
Součet produktů hodnot a jejich četností dělený sumou četností
Počítá se s tím např. průměrná rychlost
Harmonický průměr
vážený harmonický průměr
Počet hodnot dělený sumou převrácených hodnot
Suma četností dělená sumou podílů četností a odpovídajících hodnot
tempo růstu
Geometrický průměr
vážený geometrický průměr
odmocnina řádu rovného počtu hodnot z produktu hodnot
nepoužívá se
Kvadratický průměr
vážený kvadratický průměr
směrodatná odchylka
odmocnina sumy čtverců hodnot dělené počtem hodnot
odmocnina sumy produktů čtverců hodnot a četností dělené sumou četností
odmocnina z rozptylu
Variační rozpětí
Rozdíl nejvyšší a nejnižší hodnoty
Rozptyl
výpočtový tvar rozptylu
vážený rozptyl
rozklad rozptylu - obecně
Suma druhých mocnin rozdílů hodnot od průměru všech hodnot dělená počtem hodnot
rozdíl průměru čtverců a čtverce průměrů
Suma produktů četností a čtverců rozdílů hodnot a průměru /počtem hodnot
suma vitroskupinové variability a meziskupinové variability
relativní míra variability
Variační koeficient
K čemu je to dobré?
podíl směrodatné odchylky a průměru hodnot
lépe se tím porovnávají variability dvou skupin s řádově jinými hodnotami
Vnitroskupinová variabilita
- odchylka hodnot prvků od průměru skupiny
- průměr rozptylů skupin
Meziskupinová variabilita
- odchylka průměrů jednotlivých skupin od celkového průměru
- vážený rozptyl skupin
Poměrový koeficient diferenciace
- Variabilita hodnot ordinální proměnné (např. hodnocení)
- podíl čtyřnásobku rozptylu hodnot a čtverce rozdílu nejvyšší a nejnižší hodnoty
SILC
výběrové šetření dat z domácností
VŠPS
výběrové šetření pracovních sil (výpočet hrubé mzdy, vzdělání)
Též princip 20 na 80
Paretův princip
Z20 % odpovědí získám 80 % informací
Problém tazatelských sítí
je těžké (téměř nemožné) vybrat plošně rozprostřenou skupinu
Vyčerpávající šetření
Vyšetřím úplně všechno, úplně všechny (resp. alespoň 95 % všeho)
Scannerová data
K čemu jsou dobrá?
anonymizované účtenky vybraných obchodních řetězců
Sestavování nákupního koše, výpočet inflace…
Přípustná chyba
Statistika něco předpovídá, ale ono to vyjde většinou trošku jinak; ten rozdíl
Omnibus
Možná nevýhoda
Výzkum, do něhož se zapojí větší počet zadavatelů, mezi které se rozdělí náklady spojené s realizací šetření; každý zadavatel následně získá výsledky vztahující se k jemu položeným otázkám
Respondent je znejistěn různorodostí a množstvím otázek
Konjunkturní saldo
- Podnikatelům se položí otázka, zda v nadcházejícím období očekávají výnos svého podniku vyšší či nižší (relativní → srovnatelné)
- Výsledky se porovnávají v čase
- Podnikatelům se pak poskytnou agregovaná data, aby zhruba věděli, jak se cítí konkurence
Pseudonáhodná čísla
- po několika miliardách opakování se začnou opakovat
- Generují se na základě nějakého počátečního čísla (semínka)
Opora výběru
seznam jednotek základní populace, ze kterého je pak vybírán zkoumaný výběrový soubor
Populační rozptyl
Výběrový rozptyl
Rozptyl úplně všech hodnot souboru
Stejný vzorec jako normální rozptyl, ale ve jjmenovateli je n-1
Krabicový graf
Jak vypadá?
Obsahuje průměr?
Rozptyl výběru ze souboru
Kvartily (krabice - kvartilové rozpětí; příčka - medián);
Někdy jako přerušovaná příčka
R_Q
Kvartilové rozpětí
Rozdíl horního a dolního kvartilu
Vnitřní hradby
- Rozdíl dolního kvartilu a 1,5 násobku R_Q
- Suma horního kvartilu a 1,5 násobku R_Q
Vnější hradby
- Rozdíl dolního kvartilu a 3 násobku R_Q
- Suma horního kvartilu a 3 násobku R_Q
Sémantická spirála
Čára spojující průměry jednotlivých škálových odpovědí, seřazených za sebou
Ordinální škály v dotazníku
Spearmanův koeficient
Jak lze interpretovat?
rozdíl 1 a šestinásobku podílu sumy čtverců rozdílů hodnocení všech proměnných dvou respondentů a součinu počtu porovnávaných proměnných a rozdílu čtverce počtu porovnávaných proměnných a 1
Čím blíže jedné, tím větší je mezi srovnávanými daty shoda; čím blíže -1, tím větší je mezi srovnávanými daty neshoda
Kendallův koeficient
dvanáctinásobek podílu sumy čtverců úspěšností respondentů ve všech testech zmenšené o trojnásobek podílu počtu respondentů zvětšeného o 1 a podílu počtu respondentů zmenšeného o 1 a součinu čtverce počtu prováděných testů a rozdílu 3. mocniny počtu respondentů a počtu respondentů
Míra shody mezi respondenty
Ordinální škála
Dotazníková otázka, kde mají respondenti ohodnotit kategorii na stupnici
Součtová škála
Jaká je výhoda oproti ordinální škále?
Dotazníková otázka, kde mají respondenti rozdělit x bodů mezi témata
Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy
Poměrová škála
Jaká je výhoda oproti ordinální škále?
Dotazníková otázka, kde mají respondenti porovnat kategorie (např. seřadit)
Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy