Основы статистики Flashcards

1
Q

Генеральная совокупность

A

Это совокупность всех объектов, которые представляют интерес в конкретном исследовании.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Выборка

A

Это группа объектов, отобранных из генеральной совокупности для исследования.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Репрезентативность

A

Соответствие характеристик выборки характеристикам генеральной совокупности.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Смещение выборки

A

Явление, при котором статистические характеристики выборки сильно отличаются (смещены) относительно характеристик генеральной совокупности.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Частотная таблица

A

Один из самых простых вариантов представления большого количества чисел. Для того чтобы построить частотную таблицу, необходимо выстроить от меньшего к большему все возможные значения, которые встречаются в наших данных. А потом для каждого их них посчитать частоту — количество раз, сколько встречается это значение.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Визуализация частотного распределения

A

Два типа диаграмм: гистограмма и полигон.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Самые популярные меры центральной тенденции

A

Среднее арифметическое, медиана и мода

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Среднее арифметическое

A

Число, равное сумме всех чисел выборки или генеральной совокупности, деленной на их количество.
Среднее арифметическое очень чувствительно к аномально маленьким или аномально большим значением

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Когда использовать среднее арифметическое?

A
  1. Для непрерывных количественных переменных, которые мы хотя бы в теории можем выразить дробными числами. Но для некоторых статистических тестов нам придется рассчитывать среднее и для дискретных переменных. Но если цель — именно описать распределение, представить свои данные, то можно выбрать другие меры.
  2. Для симметричных распределений. Мы видели, что происходит со средним арифметическим, когда аномально большое или аномальное малое значение для этой переменной может «увести» его в свою сторону.
  3. В теории, среднее арифметическое можно рассчитать для бинарной переменной, записанной единицами и нулями. Но смысл у него будет другой — такая мера по сути будет отражать долю единиц среди значений переменной. Различное ПО скорее всего такие переменные будет распознавать как количественные и ра
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Медиана

A

Точка ниже и выше которой находится ровно по 50% значений в распределении.
Медиана более предпочтительная мера центральной тенденции для распределений, в которых есть экстремальные значения

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Когда использовать медиану?

A
  1. В скошенных распределениях количественных переменных или в распределениях с экстремальными значениями.
  2. В распределениях количественных переменных в неограниченных распределениях. Например, вы хотите узнать, сколько студенты потратили на решение теста. Но при этом есть студенты, которые тест открыли, но так и не отправили решение. Поэтому среди значений с количеством минут у вас будут и значения «Не отправил решение». Рассчитать среднее для такой переменной не получится, а вот упорядочить по возрастанию, где «Не отправил решение» будет самым большим значением (ведь студенту потребовалось «бесконечно большое время», чтобы отправить работу) — можно.
  3. Для порядковых переменных. Так как такие переменные учитывают направление, но не учитывают точные расстояния между категориями, даже если они выражены числами — среднее для них вычислить не получиться. А вот медиану найти можно.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Мода

A

Значение переменной с самой большой частотой, т.е. самое популярное значение переменной.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Когда использовать моду?

A

Моду можно найти для любого распределения и любого типа переменных.
1. Для номинальных переменных мода — единственная мера центральной тенденции, которую можно вычислить
2. Для дискретных переменных (например, «количество детей в семье») в теории мы можем вычислить любую меру, но мода иногда предпочтительней именно для представления данных, потому что она гарантированно будет выражена целым числом.
3. Для непрерывных переменных, у которых много уникальных значений, моду лучше искать для сгруппированных значений. Например, не искать самую частотную заработную плату, а искать самую частотную группу дохода. Ведь может легко получиться, что у вас из 1000 уникальных совпадут только 5. Но при этом при агрегации данных по категориям, получатся уже какие-то разумные частоты.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Меры центральной тенденции и форма распределения

A
  1. В симметричном распределении с одной модой (унимодальном) все три меры будут более-менее совпадать.
  2. В симметричном распределении с более чем одной модой, медиана и среднее будут более-менее совпадать.
  3. Для положительно ассиметричного унимодального распределения (скошенного вправо) мода меньше медианы, а медиана меньше среднего.
  4. Для отрицательно ассиметричного унимодального распределения (скошенного влево) среднее значение меньше медианы, а медиана меньше моды.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly