Основы статистики Flashcards
Генеральная совокупность
Это совокупность всех объектов, которые представляют интерес в конкретном исследовании.
Выборка
Это группа объектов, отобранных из генеральной совокупности для исследования.
Репрезентативность
Соответствие характеристик выборки характеристикам генеральной совокупности.
Смещение выборки
Явление, при котором статистические характеристики выборки сильно отличаются (смещены) относительно характеристик генеральной совокупности.
Частотная таблица
Один из самых простых вариантов представления большого количества чисел. Для того чтобы построить частотную таблицу, необходимо выстроить от меньшего к большему все возможные значения, которые встречаются в наших данных. А потом для каждого их них посчитать частоту — количество раз, сколько встречается это значение.
Визуализация частотного распределения
Два типа диаграмм: гистограмма и полигон.
Самые популярные меры центральной тенденции
Среднее арифметическое, медиана и мода
Среднее арифметическое
Число, равное сумме всех чисел выборки или генеральной совокупности, деленной на их количество.
Среднее арифметическое очень чувствительно к аномально маленьким или аномально большим значением
Когда использовать среднее арифметическое?
- Для непрерывных количественных переменных, которые мы хотя бы в теории можем выразить дробными числами. Но для некоторых статистических тестов нам придется рассчитывать среднее и для дискретных переменных. Но если цель — именно описать распределение, представить свои данные, то можно выбрать другие меры.
- Для симметричных распределений. Мы видели, что происходит со средним арифметическим, когда аномально большое или аномальное малое значение для этой переменной может «увести» его в свою сторону.
- В теории, среднее арифметическое можно рассчитать для бинарной переменной, записанной единицами и нулями. Но смысл у него будет другой — такая мера по сути будет отражать долю единиц среди значений переменной. Различное ПО скорее всего такие переменные будет распознавать как количественные и ра
Медиана
Точка ниже и выше которой находится ровно по 50% значений в распределении.
Медиана более предпочтительная мера центральной тенденции для распределений, в которых есть экстремальные значения
Когда использовать медиану?
- В скошенных распределениях количественных переменных или в распределениях с экстремальными значениями.
- В распределениях количественных переменных в неограниченных распределениях. Например, вы хотите узнать, сколько студенты потратили на решение теста. Но при этом есть студенты, которые тест открыли, но так и не отправили решение. Поэтому среди значений с количеством минут у вас будут и значения «Не отправил решение». Рассчитать среднее для такой переменной не получится, а вот упорядочить по возрастанию, где «Не отправил решение» будет самым большим значением (ведь студенту потребовалось «бесконечно большое время», чтобы отправить работу) — можно.
- Для порядковых переменных. Так как такие переменные учитывают направление, но не учитывают точные расстояния между категориями, даже если они выражены числами — среднее для них вычислить не получиться. А вот медиану найти можно.
Мода
Значение переменной с самой большой частотой, т.е. самое популярное значение переменной.
Когда использовать моду?
Моду можно найти для любого распределения и любого типа переменных.
1. Для номинальных переменных мода — единственная мера центральной тенденции, которую можно вычислить
2. Для дискретных переменных (например, «количество детей в семье») в теории мы можем вычислить любую меру, но мода иногда предпочтительней именно для представления данных, потому что она гарантированно будет выражена целым числом.
3. Для непрерывных переменных, у которых много уникальных значений, моду лучше искать для сгруппированных значений. Например, не искать самую частотную заработную плату, а искать самую частотную группу дохода. Ведь может легко получиться, что у вас из 1000 уникальных совпадут только 5. Но при этом при агрегации данных по категориям, получатся уже какие-то разумные частоты.
Меры центральной тенденции и форма распределения
- В симметричном распределении с одной модой (унимодальном) все три меры будут более-менее совпадать.
- В симметричном распределении с более чем одной модой, медиана и среднее будут более-менее совпадать.
- Для положительно ассиметричного унимодального распределения (скошенного вправо) мода меньше медианы, а медиана меньше среднего.
- Для отрицательно ассиметричного унимодального распределения (скошенного влево) среднее значение меньше медианы, а медиана меньше моды.