Základy datových analýz 4ST101 Flashcards

1
Q

explore = zkoumat

Exploratorní analýza dat

Co to je?

A

aplikace základní popisné statistiky na data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Statistický ukazatel je číselné zobrazení konkrétního ekonomického jevu

Adekvační mezera

Co to je?

A

nesoulad mezi ekonomickým pojmem
a statistickým ukazatelem

statistickým
ukazatelem se snažíme ekonomickým pojmům pouze přiblížit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Statistika dává data, ale nezodpovídá za jejich interpretaci

Statistika

Co to je?

Matematika říká, že 2+2=4, statistika říká, že 2+2=4 ±něco

A

disciplína sběru a zpracovávání dat a přípravy podkladů pro kvalifikovaná rozhodnutí

může tím být míněna i funkce zpracování dat (průměr, medián, souhrn…)

Ze všech modelů jich platí půlka, jen nevíme, která

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

konjunkce = spojení, spojitost, souvislost, shoda

konjunktura

Co to je?

A

příznivý stav ekonomických ukazatelů promítající se do růstu HDP

situace středně- nebo dlouhodobé souhry příznivých okolností a podmínek,

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

indukce = vyvození obecného závěru z dílčích poznatků

Induktivní úsudky

Co to je?

též inferenční nástroje

A

Závěry na základě omezeného množství zdrojů – zobecňování

Protiklad dedukce – závěry přímo vyplývající ze získaných informací

Získávání obecných dat na základě pravděpodobnosti

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Computer Assisted Web Interviewing

CAWI

Co to je?

Jaké to má nevýhody?

A

Metoda sběru dat na internetu

  • Ne každý má přístup k internetu
  • Těžko odhalit lži
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Míněno panel ve statistice

Panel

Co to je?

A

Skupina vybraných respondentů, která je opakovaně podrobována zkoumání v souvislosti se stejnou či podobnou problematikou

Získané info jsou levnější a umožňují sledovat vývoj daného jevu v čase

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Statistická jednotka

Co to je?

A

Vyhodnocovaný objekt z množiny objektů jako nositel určité vlastnosti statistického znaku

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Základní statistický soubor = cílová populace

Statistický soubor

Co to je?

  • základní
  • výběrový
A

Soubor zpracovávaných jednotek

  • Všechny jednotky
  • Některé (vybrané) jednotky
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Interference znamená vzájemné ovlivňování

Statistická inference

Co to je?

Jak se chová chyba u statistické interference?

A

Zobecňování získaných dat z výběrového statistického souboru na cílovou populaci

Pro chybu < 1% je třeba pracovat se vzorkem alespoň o 1000 respondentech

Chyba klesá se čtvercem velikosti vzorku (ne u nepravděpodobnostního výběru)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Metrické statistické znaky

Jaké to jsou? Jaké typy?

A
  • Spojité (peníze)
  • Nespojité (počet osob)

Měřitelné statistické znaky

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Order = pořadí

Ordinální statistické znaky

Které je to obecně jsou?

A

Pakliže se chceme vyhnout metrickým znakům (např. jev měřit neumíme chytrost → IQ, vzdělání → známka)

Často se to chová spíš jako nominální znaky

Škály

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Nominální statistické znaky

Co to je?

A

Znaky, které nelze seřadit

Např. názvy míst, lídí atp.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Výběr vzorku

Koncepční dilema

Jaké jsou to otázky?

Jak vybrat vhodný vzorek?

A
  • Jaký vzorek je nejvhodnější?
  • Jaký vzorek je (ne)reprezentativní?

Nereprezentativní vzorek se hodí, chci-li audit o konkrétním produktu

Často se půl vzorku vybere reprezentativně, druhá půlka se vybere tak, aby se posílily slabě zastoupené skupiny

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Prostý náhodný výběr

Jak to funguje?

A

Vzorek se prostě náhodně vybere

Často se to ale úplně nedá použít

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Systematický výběr

Jak to funguje?

A

Použitelná data se promíchají, náhodně se vybere začátek a pak se vybere každý n-tý prvek

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Předvýběr

Stratifikace

Co to je?

A

V zájmu rovného zastoupení všech skupin se vybere vždy n prvků z každé skupiny

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vícestupňový výběr

Jak to funguje?

A

Nejprve se náhodně zvolí oblasti, ze kterých se bude vybírat. Z nich se poté vyberou podoblasti atd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Kvótní výběr

Jak to funguje?

A

Vybírá se tak, aby rozdělení četností pomocných znaků bylo co nejpodobnější k základnímu výběru

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Benfordův zákon

Co říká?

A

Pravděpodobnost výskytu každé z cifer na 1. místě nějakého přirozeně vzniklého čísla je různá. Nejpravděpodobnější je číslice 1 (s pravděpodobností 0,3), potom č. 2 (0,17), 3 atd.

Nezmění-li se vynásobením dat četnosti cifer, platí pro ta data Benzák.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Mean Absolute Error

MAE

Co to je? Jak se to počítá?

A

Průměrná odchylka reálných hodnot od hodnot předpokládaných

Suma abs. rozdílů reálných hodnot od předpokládaných dělený jich počtem

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Zipfův zákon

Co říká?

A

Četnost součástek textu, seřazených od nejčetnější po nejméně četnou, rovnoměrně klesá

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Těžký konec

Co to je?

A

rozdělení četností vypadající jako kopec, za nímž je ještě malý kopeček

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Kvantily

Co to je?

A

Hodnoty rozdělující množinu hodnot na části

Medián (1), kvartily (3), decily (9), percentily (99)…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Statistika

Momenty

Co to je? Jaké to jsou?

A

Číselné charakteristiky rozložení dat vzhledem k průměru

Průměr (1. moment), rozptyl (moment 2. řádu), šikmost (moment 3. řádu), špičatost (moment 4. řádu)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

Používá se, když je hodně hodnot a neustále přibývají další a další

Klouzavý průměr

Co to je? Jaký vliv na to má velikost podmnožiny průměrovaných hodnot?

Jaké to má nevýhody?

A

Zprůměruje se předem daný počet hodnot (např. 1. až 5.), potom se k nim 1 hodnota přidá a na druhém konci se 1 odebere; to se opět zprůměruje (2. až 6.) atd.

Oč větší je podmnožina hodnot, tím hladší je křivka průměrů

Ztrácí se prvních pár hodnot.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

Četnost

Co to je?

Kumulativní četnost

A

Počet prvků, pro které má sledovaná proměnná danou hodnotu

Počet prvků, pro které má sledovaná proměnná danou hodnotu či nižší

28
Q

Polygon četností

Co to je?

A

Znázornění rozložení četností v grafu

29
Q

Scannerová data

A

anonymizace účtenky z velkých obchodů

30
Q

pilotáž

Pilotní vzorek

A

Šetření před hlavním výzkumem

Cílem je zjistit podstatné informace o vyšetřovaném souboru

31
Q

Kvalitativní proměnné

* Nominální
* Ordinální

A

Vyjádřené textem

* nelze je řadit
* lze je řadit

32
Q

Kvantitativní proměnné

  • Spojité

* Diskrétní

A

Vyjádřené číselnou hodnotou

* Mohou nabývat všech možných hodnot
* Nabývají předem určených hodnot

33
Q

Kvantil

Medián

A

Hodnota rozdělující množinu čísel na více stejně velkých částí

Rozděluje množinu čísel na dvě stejně velké části

34
Q

Aritmetický průměr

Vážený aritmetický průměr

A

Součet hodnot dělený počtem hodnot

Součet produktů hodnot a jejich četností dělený sumou četností

35
Q

Počítá se s tím např. průměrná rychlost

Harmonický průměr

vážený harmonický průměr

A

Počet hodnot dělený sumou převrácených hodnot

Suma četností dělená sumou podílů četností a odpovídajících hodnot

36
Q

tempo růstu

Geometrický průměr

vážený geometrický průměr

A

odmocnina řádu rovného počtu hodnot z produktu hodnot

nepoužívá se

37
Q

Kvadratický průměr

vážený kvadratický průměr

směrodatná odchylka

A

odmocnina sumy čtverců hodnot dělené počtem hodnot

odmocnina sumy produktů čtverců hodnot a četností dělené sumou četností

odmocnina z rozptylu

38
Q

Variační rozpětí

A

Rozdíl nejvyšší a nejnižší hodnoty

39
Q

Rozptyl
výpočtový tvar rozptylu

vážený rozptyl

rozklad rozptylu - obecně

A

Suma druhých mocnin rozdílů hodnot od průměru všech hodnot dělená počtem hodnot
rozdíl průměru čtverců a čtverce průměrů

Suma produktů četností a čtverců rozdílů hodnot a průměru /počtem hodnot

suma vitroskupinové variability a meziskupinové variability

40
Q

relativní míra variability

Variační koeficient

K čemu je to dobré?

A

podíl směrodatné odchylky a průměru hodnot

lépe se tím porovnávají variability dvou skupin s řádově jinými hodnotami

41
Q

Vnitroskupinová variabilita

A
  • odchylka hodnot prvků od průměru skupiny
  • průměr rozptylů skupin
42
Q

Meziskupinová variabilita

A
  • odchylka průměrů jednotlivých skupin od celkového průměru
  • vážený rozptyl skupin
43
Q

Poměrový koeficient diferenciace

A
  • Variabilita hodnot ordinální proměnné (např. hodnocení)
  • podíl čtyřnásobku rozptylu hodnot a čtverce rozdílu nejvyšší a nejnižší hodnoty
44
Q

SILC

A

výběrové šetření dat z domácností

45
Q

VŠPS

A

výběrové šetření pracovních sil (výpočet hrubé mzdy, vzdělání)

46
Q

Též princip 20 na 80

Paretův princip

A

Z20 % odpovědí získám 80 % informací

47
Q

Problém tazatelských sítí

A

je těžké (téměř nemožné) vybrat plošně rozprostřenou skupinu

48
Q

Vyčerpávající šetření

A

Vyšetřím úplně všechno, úplně všechny (resp. alespoň 95 % všeho)

49
Q

Scannerová data

K čemu jsou dobrá?

A

anonymizované účtenky vybraných obchodních řetězců

Sestavování nákupního koše, výpočet inflace…

50
Q

Přípustná chyba

A

Statistika něco předpovídá, ale ono to vyjde většinou trošku jinak; ten rozdíl

51
Q

Omnibus

Možná nevýhoda

A

Výzkum, do něhož se zapojí větší počet zadavatelů, mezi které se rozdělí náklady spojené s realizací šetření; každý zadavatel následně získá výsledky vztahující se k jemu položeným otázkám

Respondent je znejistěn různorodostí a množstvím otázek

52
Q

Konjunkturní saldo

A
  • Podnikatelům se položí otázka, zda v nadcházejícím období očekávají výnos svého podniku vyšší či nižší (relativní → srovnatelné)
  • Výsledky se porovnávají v čase
  • Podnikatelům se pak poskytnou agregovaná data, aby zhruba věděli, jak se cítí konkurence
53
Q

Pseudonáhodná čísla

A
  • po několika miliardách opakování se začnou opakovat
  • Generují se na základě nějakého počátečního čísla (semínka)
54
Q

Opora výběru

A

seznam jednotek základní populace, ze kterého je pak vybírán zkoumaný výběrový soubor

55
Q

Populační rozptyl

Výběrový rozptyl

A

Rozptyl úplně všech hodnot souboru

Stejný vzorec jako normální rozptyl, ale ve jjmenovateli je n-1

56
Q

Krabicový graf

Jak vypadá?

Obsahuje průměr?

A

Rozptyl výběru ze souboru

Kvartily (krabice - kvartilové rozpětí; příčka - medián);

Někdy jako přerušovaná příčka

57
Q

R_Q

Kvartilové rozpětí

A

Rozdíl horního a dolního kvartilu

58
Q

Vnitřní hradby

A
  • Rozdíl dolního kvartilu a 1,5 násobku R_Q
  • Suma horního kvartilu a 1,5 násobku R_Q
59
Q

Vnější hradby

A
  • Rozdíl dolního kvartilu a 3 násobku R_Q
  • Suma horního kvartilu a 3 násobku R_Q
60
Q

Sémantická spirála

A

Čára spojující průměry jednotlivých škálových odpovědí, seřazených za sebou

61
Q

Ordinální škály v dotazníku

Spearmanův koeficient

Jak lze interpretovat?

A

rozdíl 1 a šestinásobku podílu sumy čtverců rozdílů hodnocení všech proměnných dvou respondentů a součinu počtu porovnávaných proměnných a rozdílu čtverce počtu porovnávaných proměnných a 1

Čím blíže jedné, tím větší je mezi srovnávanými daty shoda; čím blíže -1, tím větší je mezi srovnávanými daty neshoda

62
Q

Kendallův koeficient

A

dvanáctinásobek podílu sumy čtverců úspěšností respondentů ve všech testech zmenšené o trojnásobek podílu počtu respondentů zvětšeného o 1 a podílu počtu respondentů zmenšeného o 1 a součinu čtverce počtu prováděných testů a rozdílu 3. mocniny počtu respondentů a počtu respondentů

Míra shody mezi respondenty

63
Q

Ordinální škála

A

Dotazníková otázka, kde mají respondenti ohodnotit kategorii na stupnici

64
Q

Součtová škála

Jaká je výhoda oproti ordinální škále?

A

Dotazníková otázka, kde mají respondenti rozdělit x bodů mezi témata

Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy

65
Q

Poměrová škála

Jaká je výhoda oproti ordinální škále?

A

Dotazníková otázka, kde mají respondenti porovnat kategorie (např. seřadit)

Zohledňuje ‚vzdálenost‘ mezi hodnocenými atributy