Инструменты

За гранью среднего: меры центральной тенденции

В мире статистики и анализа данных, понятие ‎«‎среднего»‎ всегда занимало центральное место. Среднее арифметическое, медиана и мода — эти меры центральной тенденции являются важными инструментами для описания и понимания распределений данных. Однако, за гранью этих классических мер скрываются другие удивительные и информативные концепции, которые могут расширить наше понимание данных и позволить нам увидеть гораздо больше, чем просто ‎‎‎‎«‎среднее»‎.

В этой статье мы погрузимся в исследование мер центральной тенденции, выходящих за рамки привычных средств измерения типичных значений в наборе данных. Исследование этих дополнительных мер центральной тенденции позволит нам лучше понять данные, обнаруживать скрытые закономерности и тенденции, а также принимать более информированные решения на основе полученных результатов. Мы приглашаем вас в путешествие за грань среднего, чтобы расширить свой интеллектуальный горизонт и открыть новые возможности в области статистики и анализа данных.

Зачем нужны меры центральной тенденции?

Меры центральной тенденции используются для описания данных и определения их ‎«‎среднего»‎ значения. Они помогают нам обобщить информацию о наборе данных и понять, как данные распределены вокруг этой центральной точки. Основные меры центральной тенденции включают:

  1. Среднее значение (среднее арифметическое): Это простая сумма всех значений, разделенная на их количество. Однако среднее арифметическое чувствительно к выбросам и может быть искажено экстремальными значениями.
  2. Медиана: Это значение, которое разделяет данные пополам, когда они упорядочены. Медиана более устойчива к выбросам и идеальна для асимметричных данных.
  3. Мода: Мода — это наиболее часто встречающееся значение в данных. Она особенно полезна для категориальных данных.

Выбор конкретной меры зависит от характера данных и целей анализа. Часто лучше использовать несколько мер вместе, чтобы получить более полное представление о данных и их распределении.

Далее мы рассмотрим подробно описанные выше меры центральной тенденции, чтобы лучше понять, как они могут быть использованы для анализа данных.

Среднее арифметическое: Гармония чисел в математике и приложениях


Среднее арифметическое является одним из распространенных способов определения центральной тенденции и широко применяется в различных областях. Например, с помощью среднего арифметического мы можем оценить средний чек в ресторане или определить средний рейтинг фильма. Для вычисления среднего арифметического, необходимо сложить все значения исследуемой переменной и разделить полученную сумму на их количество. Среднее генеральной совокупности часто обозначается символом «μ» (мю), а среднее выборки — символами «X» или «X̅» (икс или икс с чертой).


Среднее арифметическое — число, равное сумме всех чисел выборки или генеральной совокупности, деленной на их количество.


Формула для среднего арифметического генеральной совокупности: $$\mu ={ {\Sigma X} \over N}$$ Формула для среднего арифметического выборки: $$M ={ {\Sigma X} \over n}$$
ΣX здесь значит, что нужно найти сумму всех значений X. Например, найдем сумму значений для выборки X = [2, 5, 9, 1, 7]. $$ΣX = 2 + 5 + 10 + 1 + 7 = 25$$ $$μ = \frac{ΣX}{N} = \frac{25}{5} = 5$$

Балансировочная точка

Одной из важных свойств среднего арифметического является его роль в качестве центральной точки баланса для данных. Позвольте рассмотреть пример для лучшего понимания. 

Предположим, что у нас есть генеральная совокупность N = 5, X = [1, 2, 6, 6, 10] . Найдем среднее арифметическое: $$ΣX = 1 + 2 + 6 + 6 + 10 = 25$$ $$μ = \frac{25}{5} = 5$$ А теперь посмотрим, как наши значения переменной отличаются от среднего:

ЗначениеДистанция от среднего
X = 1Ниже среднего на 4
X = 2Ниже среднего на 3
X = 6Ниже среднего на 1
X = 6Ниже среднего на 1
X = 10Ниже среднего на 5

Обратите внимание, что среднее арифметическое служит точкой баланса, которая уравновешивает расстояния до точек выше и ниже него. Расстояния от значений, которые находятся выше среднего арифметического, и от значений, которые находятся ниже него, будут равными.

Сумма дистанций ниже среднего арифметического: 4 + 3 = 7

Сумма дистанций выше среднего арифметического: 1 + 1 + 5 = 7

Также из этого свойства очевидно, что значение среднего арифметического всегда находится между наименьшим и наибольшим значением нашего распределения — оно не может выходить за пределы этого интервала. Если вдруг вы рассчитали среднее арифметическое и обнаружили, что это не так, то нужно искать ошибку в вычислениях.

Есть еще один важный нюанс, среднее арифметическое очень чувствительно к аномально маленьким или аномально большим значением. Такие значения еще называются выбросами, но подробнее об этом мы поговорим позже. Если мы встретим такие в наших данных, то они могут повлиять на нашу меру центральной тенденции и «утянуть» среднее арифметическое за собой вправо или влево.

Предположим, что у нас есть выборка, где X = [50, 30, 10, 45, 50] . Найдем среднее арифметическое: $$М = \frac{50 + 30 + 10 + 45 + 50}{5} = \frac{185}{5} = 37$$ Если мы посмотрим на значение среднего, то в принципе увидим, что оно достаточно репрезентативно — да, наблюдений с точно таким же значением переменной у нас нет. Но как минимум два значения (35 и 40) не сильно от него отличаются.

А теперь представим, что одно значение в нашей выборке — аномально большое:
 X = [50, 30, 10, 45, 400] $$М = \frac{50 + 30 + 10 + 45 + 400}{5} = \frac{535}{5} = 107$$ Среднее у такой выборки другое, но самое главное, что оно абсолютно нерепрезентативное. В наших данных просто-напросто нет похожих на него значений — четыре из них минимум в два раз меньше, а одно — в четыре раза больше. Является ли такая статистика хорошей мерой центральной тенденции в этом случае? Пожалуй, нет. Есть, например, способы с этим работать — например, рассчитать усеченное среднее, отбросив некоторый процент самых больших и самых маленьких значений в выборке. Или можно обратить внимание на другие меры центральной тенденции, например, на медиану.

Когда использовать среднее арифметическое?

  • Для непрерывных количественных переменных, которые мы хотя бы в теории можем выразить дробными числами. Согласитесь, что «среднее количество студентов в группе — 20.7» звучит странно. Но для некоторых статистических тестов нам придется рассчитывать среднее и для дискретных переменных. Но если цель — именно описать распределение, представить свои данные, то можно выбрать другие меры.
  • Для симметричных распределений. Мы видели, что происходит со средним арифметическим, когда аномально большое или аномальное малое значение для этой переменной может «увести» его в свою сторону.
  • В теории, среднее арифметическое можно рассчитать для бинарной переменной, записанной единицами и нулями. Но смысл у него будет другой — такая мера по сути будет отражать долю единиц среди значений переменной. Различное ПО скорее всего такие переменные будет распознавать как количественные и рассчитывать для них среднее в различных сводных таблицах. Будьте аккуратны и интерпретируйте эту меру корректно.

Медиана: Путь к справедливости и устойчивости в разных областях.

Медиана — это статистическая мера центральной тенденции, которая показывает значение, разделяющее упорядоченный набор данных на две равные части, где половина значений находится выше медианы, а другая половина — ниже. Медиана может быть полезной для измерения справедливости и устойчивости в различных ситуациях:

  1. Доходы и богатство: Медиана доходов или богатства может быть использована для оценки справедливости распределения ресурсов в обществе. Если большинство людей имеет доход или богатство, превышающее медиану, это может свидетельствовать о более равномерном распределении ресурсов.
  2. Образование: Медиана уровня образования или достижений может указывать на доступность образовательных возможностей и справедливость в образовательной системе. Если медиана находится на более высоком уровне, это может свидетельствовать о широком доступе к образованию и более справедливом распределении образовательных возможностей.
  3. Здравоохранение: Медиана здоровья или ожидаемой продолжительности жизни может указывать на уровень доступности и справедливости в системе здравоохранения. Если медиана находится на достаточно высоком уровне, это может указывать на доступность качественного здравоохранения для большинства людей.
  4. Качество жизни: Медиана показателей качества жизни, таких как доступ к чистой воде, жилью, безопасности, также может быть использована для измерения справедливости и устойчивости в обществе. Если большинство людей имеет доступ к основным услугам и уровень жизни, превышающий медиану, это может указывать на более справедливое и устойчивое общество.

Медиана — это точка ниже и выше которой находится ровно по 50% значений в распределении.


Чтобы найти медиану, нам нужно упорядочить значения переменной от меньшего к большему и найти то значение, которое делит распределение пополам.

Предположим, что у нас есть выборка из пяти наблюдений $$X = [5, 10, 8, 11, 3]$$ Для начала упорядочим значения: $$[3, 5, 8, 10, 11]$$ Теперь найдем значение в серединке распределения — это 8. Слева от и справа от этого числа у нас находится по два значения переменной —3 и 5, 10 и 11. 

Что делать, если в выборке четное количество элементов? $$3, 5, 8, 10, 11, 12$$ В самой выборке нет элемента, который делит ее пополам. Но на самом деле, если мы представим наши значения переменной на шкале координат, мы такие числа найдем. Например, гипотетическое значение 9 делит выборку пополам — слева остаются 3, 5, и 8, а справа 10, 11, и 12. Таким образом, в определении медианы есть некоторая субъективность. Но все-таки, одна из самых популярных конвенций нахождения медианы для распределения с четным количеством элементов — это среднее арифметическое центральных элементов. $$\frac{8 + 10}{2} = 9$$ Мы уже говорили, что среднее арифметическое не очень хорошо реагирует на появление в распределении аномальных значений — сильно больших или сильно маленьких. Давайте посмотрим, как ведет себя медиана.

Возьмем те же две выборки:  $$X = [50, 30, 10, 45, 50] \ и \ X = [50, 30, 10, 45, 400]$$ Упорядочим значения: $$10, 30, 45, 50, 50$$ $$10, 30, 45, 50, 400$$ Видим, что медиана в этих двух выборках одна и та же — 45. А вот среднее у нас очень сильно менялось. И это неудивительно — медиана не зависит от конкретных значений переменных, а только от их порядкового номера. А значит медиана более предпочтительная мера центральной тенденции для распределений, в которых есть экстремальные значения. Например, медиану предпочтительно использовать, когда мы говорим о зарплатах — в таких данных у нас всегда очень много выбросов справа от среднего, которые сильно на него влияют. А значит, «средняя» зарплата почти всегда будет завышенной по сравнению с «медианной», но именно последняя будет лучше отражать положение дел. Поэтому обращайте внимание на то, какую меру центральной тенденции вам презентуют — возможно, у этого есть двойное дно.

Когда использовать медиану?

  • В скошенных распределениях количественных переменных или в распределениях с экстремальными значениями. Мы убедились, что медиана гораздо более устойчива к экстремальным значениям переменной, потому что не зависит от них при вычислении.
  • В распределениях количественных переменных в неограниченных распределениях. Например, вы хотите узнать, сколько студенты потратили на решение теста. Но при этом есть студенты, которые тест открыли, но так и не отправили решение. Поэтому среди значений с количеством минут у вас будут и значения «Не отправил решение». Рассчитать среднее для такой переменной не получится, а вот упорядочить по возрастанию, где «Не отправил решение» будет самым большим значением (ведь студенту потребовалось «бесконечно большое время», чтобы отправить работу) — можно.
  • Для порядковых переменных. Так как такие переменные учитывают направление, но не учитывают точные расстояния между категориями, даже если они выражены числами — среднее для них вычислить не получиться. А вот медиану найти можно.

Мода: Искусство и наука нахождения наиболее распространенных значений.

Мода, пожалуй, самая понятная и очевидная мера центральной тенденции.


Мода — это мера центральной тенденции, которая представляет собой значение или значения в наборе данных, которые встречаются наиболее часто. В отличие от среднего значения и медианы, мода не зависит от точных числовых значений исходных данных, а сконцентрирована на самых часто встречающихся значениях.


Мода особенно полезна, когда вам интересны наиболее типичные или распространенные значения в наборе данных. Например, в анализе продаж товаров мода может помочь определить наиболее популярный продукт. В медицине мода может использоваться для определения наиболее распространенного симптома или заболевания.

Мы говорим про моду последней, а меж тем мода — самая универсальная мера центральной тенденции. Так для номинальных переменных мы не можем посчитать среднее или найти медиану, а найти моду — вполне.

Чтобы найти моду, нам нужно построить частотную таблицу и определить самое часто встречающееся значение. Предположим, мы попросили 65 школьников выбрать из предложенных их любимого персонажа книг о Гарри Поттере. После агрегации данных мы получили следующую таблицу:

ПерсонажКоличество наблюдений
Гарри Поттер12
Гермиона Грейнджер29
Рон Уизли15
Драко Малфой9

Легко увидеть, что «Гермиона Грейнджер» — наше модальное значение. Ее выбрало больше всего опрошенных. Также легко найти моду на графике распределения — гистограмме или столбчатой диаграмме.

Бывают случаи, когда у нас в распределении переменной есть несколько мод. Такое распределение будет называться бимодальным (если моды две) или мультимодальным (если мод больше двух).

Моду можно определять и более субъективно — это значения, которые популярнее других. Представим, что в примере выше ответы распределились другим образом:

ПерсонажКоличество наблюдений
Гарри Поттер10
Гермиона Грейнджер25
Рон Уизли23
Драко Малфой7

Формально, Гермиона все еще самый популярный персонаж. Но если мы посмотрим на распределение, что увидим, что Рона выбрало не сильно меньше человек, а вот разница этих двух персонажей с Гарри и Драко огромна. Скорее всего, здесь можно говорить о том, что моды две — Гермиона и Рон. Так как определение моды нам чаще всего будет нужно для того, чтобы описать и лучше понять наши данные, такие допущения не страшны.

Когда использовать моду?

  • Моду можно найти для любого распределения и любого типа переменных.
  • Для номинальных переменных мода — единственная мера центральной тенденции, которую можно вычислить
  • Для дискретных переменных (например, «количество детей в семье») в теории мы можем вычислить любую меру, но мода иногда предпочтительней именно для представления данных, потому что она гарантированно будет выражена целым числом.
  • Для непрерывных переменных, у которых много уникальных значений, моду лучше искать для сгруппированных значений. Например, не искать самую частотную заработную плату, а искать самую частотную группу дохода. Ведь может легко получиться, что у вас из 1000 уникальных совпадут только 5. Но при этом при агрегации данных по категориям, получатся уже какие-то разумные частоты.

Меры центральной тенденции и форма распределения

Есть некоторые закономерности, по которым себя ведут меры центральных тенденций в различных распределениях.

  1. В симметричном распределении с одной модой (унимодальном) все три меры будут более-менее совпадать.
  2. В симметричном распределении с более чем одной модой, медиана и среднее будут более-менее совпадать.
  3. Для положительно ассиметричного унимодального распределения (скошенного вправо) мода меньше медианы, а медиана меньше среднего.
  4. Для отрицательно ассиметричного унимодального распределения (скошенного влево) среднее значение меньше медианы, а медиана меньше моды.

Заглавной греческой буквой  Σ (сигма) обозначается сумма. Традиционно используется следующая запись: $$\sum\limits_{i=m}^na_i = a_m + a_{m+1}+a_{m+2}+\dots+a_{n-1}+a_n$$ Она означает, что мы складываем $$все \ элементы \ a_i , \ индексы \ (i) \ которых \ изменяются \ от \ m  \ до \ n.$$ Это важно прописывать, если мы складываем не все элементы рассматриваемого ряда, а только их часть: например, с первого по десятый. В таком случае запись будет оформлена таким образом: $$\sum\limits_{i=1}^{10}a_i$$ Однако если из контекста понятно, что рассматриваются все числа, то границы можно не прописывать, а использовать сокращенное обозначение: $$Σa_i$$ .

Пред.
Руководство по установке и настройке Apache Airflow на сервер с использованием Docker

Руководство по установке и настройке Apache Airflow на сервер с использованием Docker

Содержание Show Шаг 1

След.
Подготовка к собеседованию по ML: ответы на основные вопросы

Подготовка к собеседованию по ML: ответы на основные вопросы

Содержание Show Какие популярные модели Classic ML ты знаешь?

Вам также может понравиться