Základy datových analýz 4ST101 Flashcards

1
Q

explore = zkoumat

Exploratorní analýza dat

Co to je?

A

aplikace základní popisné statistiky na data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Statistický ukazatel je číselné zobrazení konkrétního ekonomického jevu

Adekvační mezera

Co to je?

A

nesoulad mezi ekonomickým pojmem
a statistickým ukazatelem

statistickým
ukazatelem se snažíme ekonomickým pojmům pouze přiblížit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Statistika dává data, ale nezodpovídá za jejich interpretaci

Statistika

Co to je?

Matematika říká, že 2+2=4, statistika říká, že 2+2=4 ±něco

A

disciplína sběru a zpracovávání dat a přípravy podkladů pro kvalifikovaná rozhodnutí

může tím být míněna i funkce zpracování dat (průměr, medián, souhrn…)

Ze všech modelů jich platí půlka, jen nevíme, která

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

konjunkce = spojení, spojitost, souvislost, shoda

konjunktura

Co to je?

A

příznivý stav ekonomických ukazatelů promítající se do růstu HDP

situace středně- nebo dlouhodobé souhry příznivých okolností a podmínek,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

indukce = vyvození obecného závěru z dílčích poznatků

Induktivní úsudky

Co to je?

též inferenční nástroje

A

Závěry na základě omezeného množství zdrojů – zobecňování

Protiklad dedukce – závěry přímo vyplývající ze získaných informací

Získávání obecných dat na základě pravděpodobnosti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Computer Assisted Web Interviewing

CAWI

Co to je?

Jaké to má nevýhody?

A

Metoda sběru dat na internetu

  • Ne každý má přístup k internetu
  • Těžko odhalit lži
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Míněno panel ve statistice

Panel

Co to je?

A

Skupina vybraných respondentů, která je opakovaně podrobována zkoumání v souvislosti se stejnou či podobnou problematikou

Získané info jsou levnější a umožňují sledovat vývoj daného jevu v čase

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Statistická jednotka

Co to je?

A

Vyhodnocovaný objekt z množiny objektů jako nositel určité vlastnosti statistického znaku

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Základní statistický soubor = cílová populace

Statistický soubor

Co to je?

  • základní
  • výběrový
A

Soubor zpracovávaných jednotek

  • Všechny jednotky
  • Některé (vybrané) jednotky
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interference znamená vzájemné ovlivňování

Statistická inference

Co to je?

Jak se chová chyba u statistické interference?

A

Zobecňování získaných dat z výběrového statistického souboru na cílovou populaci

Pro chybu < 1% je třeba pracovat se vzorkem alespoň o 1000 respondentech

Chyba klesá se čtvercem velikosti vzorku (ne u nepravděpodobnostního výběru)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Metrické statistické znaky

Jaké to jsou? Jaké typy?

A
  • Spojité (peníze)
  • Nespojité (počet osob)

Měřitelné statistické znaky

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Order = pořadí

Ordinální statistické znaky

Které je to obecně jsou?

A

Pakliže se chceme vyhnout metrickým znakům (např. jev měřit neumíme chytrost → IQ, vzdělání → známka)

Často se to chová spíš jako nominální znaky

Škály

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Nominální statistické znaky

Co to je?

A

Znaky, které nelze seřadit

Např. názvy míst, lídí atp.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Výběr vzorku

Koncepční dilema

Jaké jsou to otázky?

Jak vybrat vhodný vzorek?

A
  • Jaký vzorek je nejvhodnější?
  • Jaký vzorek je (ne)reprezentativní?

Nereprezentativní vzorek se hodí, chci-li audit o konkrétním produktu

Často se půl vzorku vybere reprezentativně, druhá půlka se vybere tak, aby se posílily slabě zastoupené skupiny

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Prostý náhodný výběr

Jak to funguje?

A

Vzorek se prostě náhodně vybere

Často se to ale úplně nedá použít

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Systematický výběr

Jak to funguje?

A

Použitelná data se promíchají, náhodně se vybere začátek a pak se vybere každý n-tý prvek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Předvýběr

Stratifikace

Co to je?

A

V zájmu rovného zastoupení všech skupin se vybere vždy n prvků z každé skupiny

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vícestupňový výběr

Jak to funguje?

A

Nejprve se náhodně zvolí oblasti, ze kterých se bude vybírat. Z nich se poté vyberou podoblasti atd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Kvótní výběr

Jak to funguje?

A

Vybírá se tak, aby rozdělení četností pomocných znaků bylo co nejpodobnější k základnímu výběru

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Benfordův zákon

Co říká?

A

Pravděpodobnost výskytu každé z cifer na 1. místě nějakého přirozeně vzniklého čísla je různá. Nejpravděpodobnější je číslice 1 (s pravděpodobností 0,3), potom č. 2 (0,17), 3 atd.

Nezmění-li se vynásobením dat četnosti cifer, platí pro ta data Benzák.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Mean Absolute Error

MAE

Co to je? Jak se to počítá?

A

Průměrná odchylka reálných hodnot od hodnot předpokládaných

Suma abs. rozdílů reálných hodnot od předpokládaných dělený jich počtem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Zipfův zákon

Co říká?

A

Četnost součástek textu, seřazených od nejčetnější po nejméně četnou, rovnoměrně klesá

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Těžký konec

Co to je?

A

rozdělení četností vypadající jako kopec, za nímž je ještě malý kopeček

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Kvantily

Co to je?

A

Hodnoty rozdělující množinu hodnot na části

Medián (1), kvartily (3), decily (9), percentily (99)…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
# Statistika Momenty | Co to je? Jaké to jsou?
Číselné charakteristiky rozložení dat vzhledem k průměru | Průměr (1. moment), rozptyl (moment 2. řádu), šikmost (moment 3. řádu), špičatost (moment 4. řádu)
26
# Používá se, když je hodně hodnot a neustále přibývají další a další Klouzavý průměr | Co to je? Jaký vliv na to má velikost podmnožiny průměrovaných hodnot? ## Footnote Jaké to má nevýhody?
Zprůměruje se předem daný počet hodnot (např. 1. až 5.), potom se k nim 1 hodnota přidá a na druhém konci se 1 odebere; to se opět zprůměruje (2. až 6.) atd. | Oč větší je podmnožina hodnot, tím hladší je křivka průměrů ## Footnote Ztrácí se prvních pár hodnot.
27
Četnost | Co to je? ## Footnote Kumulativní četnost
Počet prvků, pro které má sledovaná proměnná danou hodnotu ## Footnote Počet prvků, pro které má sledovaná proměnná danou hodnotu či nižší
28
Polygon četností | Co to je?
Znázornění rozložení četností v grafu
29
Scannerová data
anonymizace účtenky z velkých obchodů
30
# pilotáž Pilotní vzorek
Šetření před hlavním výzkumem | Cílem je zjistit podstatné informace o vyšetřovaném souboru
31
Kvalitativní proměnné | * Nominální * Ordinální
Vyjádřené textem | * nelze je řadit * lze je řadit
32
Kvantitativní proměnné * Spojité | * Diskrétní
Vyjádřené číselnou hodnotou | * Mohou nabývat všech možných hodnot * Nabývají předem určených hodnot
33
Kvantil | Medián
Hodnota rozdělující množinu čísel na více stejně velkých částí | Rozděluje množinu čísel na dvě stejně velké části
34
Aritmetický průměr | Vážený aritmetický průměr
Součet hodnot dělený počtem hodnot | Součet produktů hodnot a jejich četností dělený sumou četností
35
# Počítá se s tím např. průměrná rychlost Harmonický průměr | vážený harmonický průměr
Počet hodnot dělený sumou převrácených hodnot | Suma četností dělená sumou podílů četností a odpovídajících hodnot
36
# tempo růstu Geometrický průměr | vážený geometrický průměr
odmocnina řádu rovného počtu hodnot z produktu hodnot | nepoužívá se
37
Kvadratický průměr | vážený kvadratický průměr ## Footnote směrodatná odchylka
odmocnina sumy čtverců hodnot dělené počtem hodnot | odmocnina sumy produktů čtverců hodnot a četností dělené sumou četností ## Footnote odmocnina z rozptylu
38
Variační rozpětí
Rozdíl nejvyšší a nejnižší hodnoty
39
Rozptyl *výpočtový tvar rozptylu* | vážený rozptyl ## Footnote rozklad rozptylu - obecně
Suma druhých mocnin rozdílů hodnot od průměru všech hodnot dělená počtem hodnot *rozdíl průměru čtverců a čtverce průměrů* | Suma produktů četností a čtverců rozdílů hodnot a průměru /počtem hodnot ## Footnote suma vitroskupinové variability a meziskupinové variability
40
# relativní míra variability Variační koeficient | K čemu je to dobré?
podíl směrodatné odchylky a průměru hodnot | lépe se tím porovnávají variability dvou skupin s řádově jinými hodnotami
41
Vnitroskupinová variabilita
* odchylka hodnot prvků od průměru skupiny * průměr rozptylů skupin
42
Meziskupinová variabilita
* odchylka průměrů jednotlivých skupin od celkového průměru * vážený rozptyl skupin
43
Poměrový koeficient diferenciace
* Variabilita hodnot ordinální proměnné (např. hodnocení) * podíl čtyřnásobku rozptylu hodnot a čtverce rozdílu nejvyšší a nejnižší hodnoty
44
SILC
výběrové šetření dat z domácností
45
VŠPS
výběrové šetření pracovních sil (výpočet hrubé mzdy, vzdělání)
46
# Též princip 20 na 80 Paretův princip
Z 20 % odpovědí získám 80 % informací
47
Problém tazatelských sítí
je těžké (téměř nemožné) vybrat plošně rozprostřenou skupinu
48
Vyčerpávající šetření
Vyšetřím úplně všechno, úplně všechny (resp. alespoň 95 % všeho)
49
Scannerová data | K čemu jsou dobrá?
anonymizované účtenky vybraných obchodních řetězců | Sestavování nákupního koše, výpočet inflace...
50
Přípustná chyba
Statistika něco předpovídá, ale ono to vyjde většinou trošku jinak; ten rozdíl
51
Omnibus | Možná nevýhoda
Výzkum, do něhož se zapojí větší počet zadavatelů, mezi které se rozdělí náklady spojené s realizací šetření; každý zadavatel následně získá výsledky vztahující se k jemu položeným otázkám | Respondent je znejistěn různorodostí a množstvím otázek
52
Konjunkturní saldo
* Podnikatelům se položí otázka, zda v nadcházejícím období očekávají výnos svého podniku vyšší či nižší (relativní → srovnatelné) * Výsledky se porovnávají v čase * Podnikatelům se pak poskytnou agregovaná data, aby zhruba věděli, jak se cítí konkurence
53
Pseudonáhodná čísla
* po několika miliardách opakování se začnou opakovat * Generují se na základě nějakého počátečního čísla (semínka)
54
Opora výběru
seznam jednotek základní populace, ze kterého je pak vybírán zkoumaný výběrový soubor
55
Populační rozptyl | Výběrový rozptyl
Rozptyl úplně všech hodnot souboru | Stejný vzorec jako normální rozptyl, ale ve jjmenovateli je *n-1*
56
Krabicový graf | Jak vypadá? ## Footnote Obsahuje průměr?
Rozptyl výběru ze souboru | Kvartily (krabice - kvartilové rozpětí; příčka - medián); ## Footnote Někdy jako přerušovaná příčka
57
# R_Q Kvartilové rozpětí
Rozdíl horního a dolního kvartilu
58
Vnitřní hradby
* Rozdíl dolního kvartilu a 1,5 násobku R_Q * Suma horního kvartilu a 1,5 násobku R_Q
59
Vnější hradby
* Rozdíl dolního kvartilu a 3 násobku R_Q * Suma horního kvartilu a 3 násobku R_Q
60
Sémantická spirála
Čára spojující průměry jednotlivých škálových odpovědí, seřazených za sebou
61
# Ordinální škály v dotazníku Spearmanův koeficient | Jak lze interpretovat?
rozdíl 1 a šestinásobku podílu sumy čtverců rozdílů hodnocení všech proměnných dvou respondentů a součinu počtu porovnávaných proměnných a rozdílu čtverce počtu porovnávaných proměnných a 1 | Čím blíže jedné, tím větší je mezi srovnávanými daty shoda; čím blíže -1, tím větší je mezi srovnávanými daty neshoda
62
Kendallův koeficient
dvanáctinásobek podílu sumy čtverců úspěšností respondentů ve všech testech zmenšené o trojnásobek podílu počtu respondentů zvětšeného o 1 a podílu počtu respondentů zmenšeného o 1 a součinu čtverce počtu prováděných testů a rozdílu 3. mocniny počtu respondentů a počtu respondentů | Míra shody mezi respondenty
63
Ordinální škála
Dotazníková otázka, kde mají respondenti ohodnotit kategorii na stupnici
64
Součtová škála | Jaká je výhoda oproti ordinální škále?
Dotazníková otázka, kde mají respondenti rozdělit *x* bodů mezi témata | Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy
65
Poměrová škála | Jaká je výhoda oproti ordinální škále?
Dotazníková otázka, kde mají respondenti porovnat kategorie (např. seřadit) | Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy