Statistika Flashcards
Typy statistiky (2)
1. Popisná statistika zahrnuje metody pro organizaci, zobrazení a popis dat pomocí tabulek, grafů a souhrnných ukazatelů.
2. Induktivní (inferenční) statistika sestává z metod, které využívají výsledky získané na nějakém vzorku k podpoře rozhodování nebo předpovídání faktů o celé populaci.
Kvantitativní x Kvalitativní proměnná
Kvantitativní proměnná
- může být vyjádřena numericky
- rozlišujeme diskrétní a spojité proměnné
Kvalitativní proměnná
- nenabývá numerické hodnoty
- často nějaká vlastnost
- př. brava auta, typ zaměstnání
Diskrétní x Spojité proměnné
= kvantitativní proměnné
diskrétní
- celá čísla, často z nějaké množiny
- př. počet dětí v rodině, počet prodejů za měsíc
spojitá
- často z intervalu, může být i desetinné číslo
- př. výška, teplota, délka letu v hodinách
typy datových sad:
1. Průřezová data
2. Časové řady
3. Panelová data
**1. Průřezová data **
Co to znamená:
Data shromážděná najednou z různých objektů (osob, firem, regionů) ve stejném čase.
Příklad:
Průzkum platů v České republice v roce 2023. (Sbíráš informace o platech od různých lidí ve stejném roce).
2. Časové řady
Co to znamená:
Data, která sledují jednu věc (např. osobu, firmu) v průběhu času.
Příklad:
Počet prodaných aut jedné automobilky každý měsíc od roku 2020 do roku 2023.
3. Panelová data
Co to znamená:
Kombinace průřezových dat a časových řad – sleduješ více objektů (např. lidi, firmy) opakovaně v různých časech.
Příklad:
Sleduješ platy stejných 100 lidí každý rok po dobu 5 let (např. od roku 2018 do roku 2023).
Vysvětli příklady nenáhodného výběru:
1. Judgement sample
2. Convenience sample
3. Pseudo polls
4. Quota sample
1. Judgement sample
= závisí na odborném posouzení nebo úsudku jednotlivce provádějícího výzkum
Př. Dopady Covidu - zeptas se reditele nemocnice - ten vi nejvic
2. Convenience sample
= zařazeny na základě jejich snadné dostupnosti nebo
přístupnosti pro výzkumníka
Př. : Výzkumníci chtějí zkoumat nákupní chování, a proto se rozhodnou oslovit lidi v nákupním centru.
Dotazují kolemjdoucí, protože jsou na místě a ochotni odpovědět.
3. Pseudo polls
=Jedná se o situace, kdy jsou prezentovány jako průzkumy veřejného mínění, ale ve skutečnosti nejsou provedeny metodou, která by zaručovala objektivní a reprezentativní vzorek populace.
Př. u „Kdo by měl vyhrát nadcházející volby?“ Vyplní jen návštěvníci webu, kteří mají zájem hlasovat - neni reprezentativni
4. Quota sample
= u účastníci vybíráni na základě určených kvót, aby vzorek odpovídal určitým charakteristikám nebo proporcím ve srovnání s populací.
Př. Úkol: Chcete zjistit názory lidí na nový produkt ve městě, kde je 60 % žen a 40 % mužů. –>
Rozhodnete, že vzorek bude obsahovat 60 % žen a 40 % mužů.
Typy chyb při práci se vzorkem (2)
- Chyby nezpůsobené výběrem
= Jedná se o chyby, které vznikají při sběru, záznamu a tabulaci dat a nejsou přímo spojeny s výběrem vzorku. - Výběrová chyba
= Jedná se o rozdíl mezi výsledkem získaným z výběrového průzkumu a výsledkem, který by byl dosažen, pokud by celá populace byla zahrnuta do průzkumu.
Vysvětli typy chyb nezpůsobené náhodným výběrem:
1. chyba (volby) výběru.
2. chyba nereprezentativní odpovědi.
3. chyba nesprávné odpovědi.
4. chyba dobrovolných odpovědí.
- kvůli tomu, že výběrový rámec není pro populaci reprezentativní, se nazývá chyba (volby) výběru.
- tím, že mnoho lidí zahrnutých do vzorku neodpovídá na průzkum, se nazývá chyba nereprezentativní odpovědi.
- když lidé zahrnutí do průzkumu neposkytují správné odpovědi se nazývá chyba nesprávné odpovědi.
- když průzkum není proveden na náhodně vybraném vzorku, ale na dotazníku zveřejněném v časopise nebo novinách a lidé jsou pozváni k odpovědi na tento dotazník se nazývá chyba dobrovolných odpovědí.
Techniky náhodného výběru:
- Jednoduchý náhodný výběr
- Systematický náhodný výběr
- Stratifikovaný náhodný výběr
- Klastrovaný náhodný výběr
1. Jednoduchý náhodný výběr
- Co to je: Každý člen populace má stejnou šanci být vybrán.
- Příklad: Losování jmen z klobouku – všechna jména mají stejnou pravděpodobnost, že budou vybrána.
2. Systematický náhodný výběr
- Co to je: Vyberete každého k-tého člena z uspořádaného seznamu.
- Příklad: Máte seznam 100 studentů a vyberete každého 5. studenta (5., 10., 15., atd.).
3. Stratifikovaný náhodný výběr
- Co to je: Populace se rozdělí na skupiny (straty), a z každé skupiny se náhodně vybírá.
- Příklad: Rozdělíte studenty podle ročníků (1., 2., 3. ročník) a z každého ročníku náhodně vyberete 10 studentů.
4. Klastrovaný náhodný výběr
- Co to je: Populace se rozdělí na skupiny (klastry), náhodně vyberete několik klastrů a zahrnete všechny jejich členy.
- Příklad: Máte seznam měst v kraji, náhodně vyberete 3 města a zahrnete všechny obyvatele těchto měst do výběru.
Co je to ošetření, ošetřovaná skupina, kontrolní skupina
**Ošetření (treatment) **je podmínka (nebo soubor podmínek), kterou výzkumník ukládá na skupinu prvků.
Skupina prvků, která obdrží ošetření, se nazývá ošetřovaná skupina - treatment group
a skupina prvků, která nedostane ošetření, se
nazývá kontrolní skupina - control group.
Randomizace
=postup, při kterém jsou prvky náhodně přiřazeny k
různým skupinám.
Pozorovací studie
Co to je: Pouze pozorujete, co se přirozeně děje, bez zásahu do průběhu.
Příklad: Sledujete, jaký vliv má kouření na zdraví lidí, aniž byste jim říkali, jestli mají kouřit nebo ne.
Řízený experiment
Co to je: Experimentátor aktivně přiděluje účastníky do různých skupin (např. léčba vs. kontrola) a kontroluje podmínky.
Příklad: Testujete nový lék – náhodně rozdělíte pacienty na skupinu, která dostane lék, a skupinu, která dostane placebo.
Výpočet relativní četnosti kategorie
počet výskytů v kategorii/počet všech výskytů
Výpočet procentního zastouení kategorie
relativní četnost * 100
Co jsou to surová (raw) data?
Data zaznamenaná v pořadí, v jakém jsou sbírána, a před tím, než jsou zpracována nebo seřazena
Jak lze organizovat a vizualizovat surová data? (3)
- Rozložení četností
- Relativní četnosti a procentního zastoupení
- Grafická prezentace kvalitativních dat
Co je to rozložení četností?
Rozložení četností kvalitativní proměnné zaznamenává počet prvků, které spadají do každé z kategorií dané proměnné.
Jak se dá provést grafická perezentace kvalitativních dat?
Do grafu vrazit
Jakej je rozdíl mezi sloupcovým a paretovým grafem?
Paretův jde sestupně
Jak se provádí rozložení četností kvantitativních dat?
Pomocí stanovení tříd (intervalů) a zaznamenávání počtu hodnot, které patří do každé třídy (intervalu)
Jak se nazývají data prezentována ve formě rozložení četností
Seskupená data
Princip stanovení četností u kvantitativních dat (2+1)
- Vypočítání šířky třídy:
Šířka třídy = Dolní mez následující třídy - Dolní mez aktuální třídy - Výpočet středu třídy:
Střed třídy = (Dolní mez třídy + Horní mez třídy) : 2
Jak ovšem nalézt šířku třídy?
Přibližná šířka třídy = (Nejvyšší hodnota ve vzorku - Nejmenší hodnota ve vzorku) : uvažovaný počet tříd
Co je to histogram, kumulativni rozdeleni, steam-and-leaf rozdeleni
- Histogram je sloupcovy graf, kterej ma sloupce dotykajici se navzajem
- Kumulativni rozdeleni je rozdeleni, kde se to scita - jedna katagorie ma 7, 4, 2, 5, 8 —> 7, 7+4, 7+4+2, …
procenta se taky scitaji - Stem and leaf je, ze se veme prvni cislo (stem) a to tvori kategorie
Př. 72 ,52, 55
Stems: 7, 5, Leafs: 2, 2, 5
Modus, median
Modus: Popisuje nejčastější hodnotu.
Medián: Popisuje střední hodnotu v pořadí, která řadu dělí na půlky
Pokud je počet hodnot sudý, medián je průměr dvou prostředních hodnot.