PAS Flashcards
Význam slova statistika
Statistika je vědní obor, zabývající se metodami kvantitativního hodnocení vlastností hromadných jevů a procesů.
Umožňuje nám pochopit, interpretovat a předvídat jevy ve světě pomocí datových analýz.
Využívá se zde hypotéza, což je výpověď, jejíž platnost se pouze předpokládá a je formulovaná tak, aby jí bylo možno potvrdit nebo vyvrátit.
Dělí se na dvě statistiky, a to Aplikovanou a Matematickou statistiku.
Statistika se dělí na
Dělí se na dvě statistiky, a to Aplikovanou a Matematickou statistiku.
Aplikovaná statistika
Zaměřuje se na praktické využití statistických metod v různých oblastech, jako jsou biologie, ekonomie, inženýrství, medicína, veřejná politika, psychologie a další.
Cílem je nalézt specifické odpovědi na otázky týkající se konkrétních datových souborů.
Aplikovaná statistika se dělí na
Získávání dat, Analýza dat, Statistické usuzování
Získávání dat
Několik metod: průzkumy, experimenty, pozorování nebo využití existujících databází; Klade se důraz na výběr reprezentativních vzorků, zajištění spolehlivosti a validnost dat
Analýza dat
Používají se nástroje pro organizaci, shrnutí a vizualizaci dat; Metody: frekvenční tabulky, grafy, míry střední hodnoty (aritmetický průměr, medián, modus)
Statistické usuzování (inference, indukce)
Zabývá se vyvozováním závěru, testování hypotéz nebo predikci budoucích trendů; Zahrnuje metody jako jsou intervaly spolehlivosti, hypotézové testování, regresní analýza a analýza rozptylu
Matematická statistika
Je založena na teorii pravděpodobnosti. (Střední hodnota, rozptyl, kovariance)
Hledá vlastnosti náhodné veličiny (veličina, kterou je možná opakovaně měřit: teplota na určitém místě, ve stejný čas, různé dny)
Klade důraz na matematické dokazování a teoretické základy statistických metod.
Cílem je rozvoj a studium statistických metod z matematického hlediska.
Zahrnuje pravděpodobnost, teorii odhadu, teorii testování hypotéz, regresní analýzu, časové řady, statistická simulace
Předmět zájmu statistiky:
Sběr, organizace a prezentace dat.
Vývoj a použití metod pro analýzu dat.
Vytváření matematických modelů pro interpretaci a předpovědi na základě dat.
Poskytnutí nástrojů a metod pro správné rozhodování na základě dat.
Pojmy (Populace, vzorek…)
Populace – Celkový soubor všech jednotek – lidi, objekty, události
Vzorek – Podmnožina populace, která je vybraná pro skutečnou analýzu
Statický soubor – Skupina dat, který je vybraná pro analýzu (celá populace nebo vzorek populace)
Statistický jednotka – Jednotlivý prvek nebo entita ve statistickém souboru
Proměnná (Statistický znak) – Charakteristika nebo vlastnost statistické jednotky
Náhodná proměnná – Proměnná, jejíž hodnoty jsou výsledkem náhodného jevu
Hypotéza – Předpoklad nebo tvrzení o parametru/distribuci populace
Nulová hypotéza (H0) – žádný rozdíl/efekt
Alternativní hypotéza (H1) – rozdíl/efekt
P-hodnota – Hodnota, která pomáhá krozhodnutí správnosti hypotézy
Popisná Statistika (Deskriptivní Statistika):
Popisná statistika se zabývá sumarizací a organizací dat pomocí různých statistických nástrojů.
Hlavním cílem je zjednodušit, shrnout a uspořádat velké množství dat tak, aby byla snadno pochopitelná.
Pomáhá identifikovat vzory, trendy nebo odchylky v datech.
Poskytuje základní přehled charakteristik dat bez pokusu o vyvozování závěrů.
Podklady a vstupní údaje Popisné statistiky
Kvalitativní (kategorická):
Nominální – Kategorická: černá, bílá, žlutá
Neuspořádaná (nemají logické pořadí – malý, střední, velký)
Ordinální – Uspořádaná (mají logické pořadí)
Nejednotné rozdíly (i když mají stejné pořadí, neznamená to, že rozdíl mezi základním a středním vz. je stejný jako střední a vysokoškolské vzdělání)
Kvantitativní (číselná, kardinální):
Obě mohou být diskrétní (specifické, oddělené hodnoty – počet knih v knihovně), spojité (rozsah – hmotnost)
Intervalová – Mají definovaný rozsah mezi hodnotami
nemají absolutní nulu: IQ, Stupně Celsia
Poměrová – Mají definovaný rozsah mezi hodnotami
absolutní nula (nepřítomnost daného jevu): věk, výška, hmotnost, příjmy
Metody zahrnují například výpočet průměru, mediánu, módu, rozptylu, směrodatné odchylky, kvartilů.
Využívá grafické reprezentace jako jsou histogramy, sloupcové, koláčové a krabicové grafy.
Inferenční Statistika (Induktivní Statistika)
Zabývá se analyzováním a interpretací vzorků dat s cílem vyvozování závěrů o celém souboru entit.
Používá teorii pravděpodobnosti – kombinatorická (klasická) pravděpodobnost nebo modely různých rozdělení pravděpodobnosti – binomické, geometrické, hypergeometrické, poasonovo, normální, lognormální, exponenciální nebo rovnoměrné
Cílem je udělat zobecnění o souboru entit na základě vzorků, s určitým stupněm spolehlivosti.
Pomáhá formulovat hypotézy a rozhodnutí založené na statistických testech.
Zaměřuje se na odhad neznámých parametrů a testování statistických hypotéz.
Podklady a vstupní údaje Inferenční statistiky
Vyžaduje náhodný výběr dat nebo reprezentativní vzorky pro validní závěry.
Využívá koncepty a metody jako jsou intervaly spolehlivosti, p-hodnoty, regresní analýza nebo analýza rozptylu.
Možnost Transformace Mezi
Kvalitativní na Kvantitativní:
Převod ordinálních proměnných na číselné hodnoty (hodnocení výrobku od 1 do 5).
Přiřazení číselných hodnot nominálním kategoriím pro účely statistické analýzy (0 muži, 1 ženy).
Možnost Transformace Mezi
Kvantitativní na Kvalitativní:
Diskretizace nebo binning: Rozdělení spojitých proměnných do kategorií (věk rozdělený do věkových skupin).
Převod diskrétních proměnných na kategorie (počet dětí převedený na “má děti” / “nemá děti”).
Možnost Transformace Mezi
Diskrétní na Spojité a naopak:
Zaokrouhlování spojitých proměnných na diskrétní hodnoty.
Diskrétní proměnné mohou být někdy aproximovány spojitými distribucemi (např. Poissonova distribuce).
Tři úrovně statistických analýz
Úroveň 1: Deskriptivní (Popisná) Statistika:
Úroveň 2: Inferenční Statistika:
Úroveň 3: Studium Kauzálních Vztahů (analýza vztahů):
Úroveň 1: Deskriptivní (Popisná) Statistika: (Cíle, Podmínky, Příklady)
Cíle:
Poskytnout základní popis a sumarizaci dat.
Vizualizovat data pomocí grafů, tabulek a číselných souhrnů (např. průměr, medián, rozptyl, frekvenční rozdělení).
Podmínky:
Nevyžaduje žádné předpoklady o datech.
Nevyvozuje žádné závěry nebo předpovědi o datech mimo existující dataset.
Zaměřuje se na aktuální stav a strukturu pozorovaných dat.
Příklady:
Výpočet průměrného věku studentů ve třídě.
Zobrazení procentuálního rozdělení respondentů v průzkumu podle pohlaví nebo vzdělání.
Úroveň 2: Inferenční Statistika: (Cíle, Podmínky, Příklady)
Cíle:
Vyvozovat závěry o větší populaci na základě vzorku dat.
Odhadovat parametry populace, testovat hypotézy, a poskytovat intervaly spolehlivosti.
Podmínky:
Vyžaduje reprezentativní vzorkování nebo náhodný výběr pro platnost závěrů.
Zahrnuje určité předpoklady o distribuci dat (například normalita, nezávislost).
Používá pravděpodobnostní modely a teorie pro analýzu.
Příklady:
Testování hypotézy, zda se průměrný příjem ve dvou různých skupinách lidí statisticky významně liší.
Výpočet intervalu spolehlivosti pro průměrný počet hodin strávených online mezi dětmi.
Úroveň 3: Studium Kauzálních Vztahů (Cíle, Podmínky, Příklady):
Cíle:
Identifikovat a analyzovat příčinné vztahy mezi proměnnými.
Rozumět tomu, jak se změna jedné proměnné odráží v jiné proměnné.
Podmínky:
Vyžaduje pečlivý výběr proměnných a někdy experimentální nebo kvazi-experimentální návrh.
Často se opírá o pokročilé statistické metody, jako jsou regresní analýzy, kontrolované experimenty, panelové studie.
Musí zohlednit potenciální zkreslení a záměny, aby byly závěry o příčinnosti platné.
Příklady:
Analýza dat z kontrolovaného experimentu k posouzení účinku nového léku.
Analýza dat znově zavedeného vzdělávacího programu na studentské výsledky v průběhu času.
Předpoklady Statistických Analýz:
Každá statistická metoda má určité předpoklady, které musí být splněny, aby byly její výsledky považovány za spolehlivé.
Například při použití t-testu pro dva nezávislé vzorky předpokládáme normalitu distribuce dat a homogenitu variancí mezi skupinami.
Pro regresní analýzu jsou předpoklady jako nezávislost reziduí, linearita vztahu mezi proměnnými a normální distribuce reziduí.
Frekvenční Rozdělení:
Je to tabulka, která ukazuje, jak často se vyskytují různé hodnoty v datovém souboru.
Rozděluje soubor dat do různých “kategorií”, s počtem výskytů (četnostmi) v každé kategorii.
Uspořádání dat do frekvenčního rozdělení pomáhá identifikovat vzory, jako jsou běžné nebo neobvyklé hodnoty.
Frekvenční Křivka:
Je grafickým znázorněním frekvenčního rozdělení.
Pro kvantitativní proměnné se používá histogram, kde každý sloupec znázorňuje četnosti vdané „kategorii“ a jeho výška odpovídá četnosti. Vyhlazením histogramu vzniká frekvenční křivka.
Četnosti a Jejich Typy:
Absolutní Četnost n(i): Počet výskytů určité hodnoty v datasetu.
Kumulativní absolutní četnost N(i): Součet absolutních četností pro všechny hodnoty do určité hodnoty.
Relativní Četnost f(i): Podíl výskytů určité hodnoty vzhledem k celkovému počtu pozorování (absolutní četnost dělená celkovým počtem dat).
Kumulativní relativní četnost F(i): Součet relativních četností pro všechny hodnoty do určité hodnoty.
Četnostní Distribuce:
U kvalitativních proměnných (např. nominální a ordinální) je četnostní distribuce obvykle zobrazena pomocí sloupcových grafů nebo koláčových diagramů.
U kvantitativních proměnných (diskrétní a spojité) se často používají histogramy nebo krabicové grafy.
Základní typy frekvenčních křivek
Symetrické Rozdělení:
Mírně Asymetrické Rozdělení
Extrémně Asymetrické Rozdělení (Rozdělení Tvaru J):
Rozdělení Tvaru U:
Symetrické Rozdělení:
Křivka má zrcadlově symetrický tvar kolem svého středu. Nejtypičtějším příkladem je normální (Gaussovo) rozdělení.
Význam: V symetrickém rozdělení jsou průměr, medián a modus stejné nebo velmi blízké.
Příklady: IQ, Výška dospělých osob při velkém vzorku
Mírně Asymetrické Rozdělení
Křivka není symetrická, ale asymetrie není extrémní. Šikmost může být kladná (pravostranný) nebo záporná (levostranný).
Příklady: Exponenciální a log-normální rozdělení. Příjem lidí v ekonomice, kde většina lidí vydělává “průměrné” platy, ale menší počet lidí vydělává značně více. Doba životnosti pevného disku.
Extrémně Asymetrické Rozdělení (Rozdělení Tvaru J):
Charakteristika: Výrazná asymetrie, kde většina dat je soustředěna na jedné straně rozdělení a dlouhý “ocas” směřuje k druhé straně.
Příklady: Distribuce bohatství v mnoha moderních ekonomikách, kde má velmi malý počet lidí extrémní bohatství ve srovnání s většinou. Počet uživatelů sociálních médií, kteří sdílejí určitý příspěvek, kde většina příspěvků je sdílena minimálně, ale několik se jich šíří virálně.
Rozdělení Tvaru U:
Charakteristika: Vysoké četnosti na obou krajích rozsahu a nízké četnosti ve středu.
Příklady: Politické preference v polarizované společnosti, jako pravice nebo levice
Obecný postup statistického zjišťování
Stanovení cíle a rozsahu statistické analýzy:
Definice hlavních cílů analýzy a určení rozsahu studie.
Zahrnuje identifikaci klíčových otázek, které analýza má zodpovědět, a určení relevantních proměnných.
Získaná data:
Shromáždění potřebných dat, která mohou pocházet z různých zdrojů, jako jsou průzkumy, experimenty, databáze.
Důležité je zajistit, aby data byla relevantní, přesná a dostatečná pro účel analýzy.
Pokud inference musí jít o náhodný výběr/experimentální data.
Vizualizace grafických dat:
Grafické znázornění dat umožňuje rychle identifikovat vzory, trendy a možné anomálie, jako odlehlé pozorování (outliery) – na základě toho zvolit další postup zpracování dat.
Využívá se různých grafických nástrojů jako jsou sloupcové, koláčové, krabicové a histogramy grafy.
Statistické zpracování dat:
Použití statistických metod pro zpracování a analýzu dat.
Zahrnuje techniky jako jsou deskriptivní statistika, inferenční statistika, regresní analýza, testování hypotéz.
Interpretace výsledků:
Vyvození závěrů z výsledků statistické analýzy.
Zjištění odpovědí na původní výzkumné otázky a diskuse o významu a dopadu zjištění.