Содержание Show
В мире статистики и анализа данных, понятие «среднего» всегда занимало центральное место. Среднее арифметическое, медиана и мода — эти меры центральной тенденции являются важными инструментами для описания и понимания распределений данных. Однако, за гранью этих классических мер скрываются другие удивительные и информативные концепции, которые могут расширить наше понимание данных и позволить нам увидеть гораздо больше, чем просто «среднее».
В этой статье мы погрузимся в исследование мер центральной тенденции, выходящих за рамки привычных средств измерения типичных значений в наборе данных. Исследование этих дополнительных мер центральной тенденции позволит нам лучше понять данные, обнаруживать скрытые закономерности и тенденции, а также принимать более информированные решения на основе полученных результатов. Мы приглашаем вас в путешествие за грань среднего, чтобы расширить свой интеллектуальный горизонт и открыть новые возможности в области статистики и анализа данных.
Зачем нужны меры центральной тенденции?
Меры центральной тенденции используются для описания данных и определения их «среднего» значения. Они помогают нам обобщить информацию о наборе данных и понять, как данные распределены вокруг этой центральной точки. Основные меры центральной тенденции включают:
- Среднее значение (среднее арифметическое): Это простая сумма всех значений, разделенная на их количество. Однако среднее арифметическое чувствительно к выбросам и может быть искажено экстремальными значениями.
- Медиана: Это значение, которое разделяет данные пополам, когда они упорядочены. Медиана более устойчива к выбросам и идеальна для асимметричных данных.
- Мода: Мода — это наиболее часто встречающееся значение в данных. Она особенно полезна для категориальных данных.
Выбор конкретной меры зависит от характера данных и целей анализа. Часто лучше использовать несколько мер вместе, чтобы получить более полное представление о данных и их распределении.
Далее мы рассмотрим подробно описанные выше меры центральной тенденции, чтобы лучше понять, как они могут быть использованы для анализа данных.
Среднее арифметическое: Гармония чисел в математике и приложениях
Среднее арифметическое является одним из распространенных способов определения центральной тенденции и широко применяется в различных областях. Например, с помощью среднего арифметического мы можем оценить средний чек в ресторане или определить средний рейтинг фильма. Для вычисления среднего арифметического, необходимо сложить все значения исследуемой переменной и разделить полученную сумму на их количество. Среднее генеральной совокупности часто обозначается символом «μ» (мю), а среднее выборки — символами «X» или «X̅» (икс или икс с чертой).
Среднее арифметическое — число, равное сумме всех чисел выборки или генеральной совокупности, деленной на их количество.
Формула для среднего арифметического генеральной совокупности: $$\mu ={ {\Sigma X} \over N}$$ Формула для среднего арифметического выборки: $$M ={ {\Sigma X} \over n}$$
ΣX здесь значит, что нужно найти сумму всех значений X. Например, найдем сумму значений для выборки X = [2, 5, 9, 1, 7]. $$ΣX = 2 + 5 + 10 + 1 + 7 = 25$$ $$μ = \frac{ΣX}{N} = \frac{25}{5} = 5$$
Балансировочная точка
Одной из важных свойств среднего арифметического является его роль в качестве центральной точки баланса для данных. Позвольте рассмотреть пример для лучшего понимания.
Предположим, что у нас есть генеральная совокупность N = 5, X = [1, 2, 6, 6, 10] . Найдем среднее арифметическое: $$ΣX = 1 + 2 + 6 + 6 + 10 = 25$$ $$μ = \frac{25}{5} = 5$$ А теперь посмотрим, как наши значения переменной отличаются от среднего:
Значение | Дистанция от среднего |
X = 1 | Ниже среднего на 4 |
X = 2 | Ниже среднего на 3 |
X = 6 | Ниже среднего на 1 |
X = 6 | Ниже среднего на 1 |
X = 10 | Ниже среднего на 5 |
Обратите внимание, что среднее арифметическое служит точкой баланса, которая уравновешивает расстояния до точек выше и ниже него. Расстояния от значений, которые находятся выше среднего арифметического, и от значений, которые находятся ниже него, будут равными.
Сумма дистанций ниже среднего арифметического: 4 + 3 = 7
Сумма дистанций выше среднего арифметического: 1 + 1 + 5 = 7
Также из этого свойства очевидно, что значение среднего арифметического всегда находится между наименьшим и наибольшим значением нашего распределения — оно не может выходить за пределы этого интервала. Если вдруг вы рассчитали среднее арифметическое и обнаружили, что это не так, то нужно искать ошибку в вычислениях.
Есть еще один важный нюанс, среднее арифметическое очень чувствительно к аномально маленьким или аномально большим значением. Такие значения еще называются выбросами, но подробнее об этом мы поговорим позже. Если мы встретим такие в наших данных, то они могут повлиять на нашу меру центральной тенденции и «утянуть» среднее арифметическое за собой вправо или влево.
Предположим, что у нас есть выборка, где X = [50, 30, 10, 45, 50] . Найдем среднее арифметическое: $$М = \frac{50 + 30 + 10 + 45 + 50}{5} = \frac{185}{5} = 37$$ Если мы посмотрим на значение среднего, то в принципе увидим, что оно достаточно репрезентативно — да, наблюдений с точно таким же значением переменной у нас нет. Но как минимум два значения (35 и 40) не сильно от него отличаются.
А теперь представим, что одно значение в нашей выборке — аномально большое:
X = [50, 30, 10, 45, 400] $$М = \frac{50 + 30 + 10 + 45 + 400}{5} = \frac{535}{5} = 107$$ Среднее у такой выборки другое, но самое главное, что оно абсолютно нерепрезентативное. В наших данных просто-напросто нет похожих на него значений — четыре из них минимум в два раз меньше, а одно — в четыре раза больше. Является ли такая статистика хорошей мерой центральной тенденции в этом случае? Пожалуй, нет. Есть, например, способы с этим работать — например, рассчитать усеченное среднее, отбросив некоторый процент самых больших и самых маленьких значений в выборке. Или можно обратить внимание на другие меры центральной тенденции, например, на медиану.
Когда использовать среднее арифметическое?
- Для непрерывных количественных переменных, которые мы хотя бы в теории можем выразить дробными числами. Согласитесь, что «среднее количество студентов в группе — 20.7» звучит странно. Но для некоторых статистических тестов нам придется рассчитывать среднее и для дискретных переменных. Но если цель — именно описать распределение, представить свои данные, то можно выбрать другие меры.
- Для симметричных распределений. Мы видели, что происходит со средним арифметическим, когда аномально большое или аномальное малое значение для этой переменной может «увести» его в свою сторону.
- В теории, среднее арифметическое можно рассчитать для бинарной переменной, записанной единицами и нулями. Но смысл у него будет другой — такая мера по сути будет отражать долю единиц среди значений переменной. Различное ПО скорее всего такие переменные будет распознавать как количественные и рассчитывать для них среднее в различных сводных таблицах. Будьте аккуратны и интерпретируйте эту меру корректно.
Медиана: Путь к справедливости и устойчивости в разных областях.
Медиана — это статистическая мера центральной тенденции, которая показывает значение, разделяющее упорядоченный набор данных на две равные части, где половина значений находится выше медианы, а другая половина — ниже. Медиана может быть полезной для измерения справедливости и устойчивости в различных ситуациях:
- Доходы и богатство: Медиана доходов или богатства может быть использована для оценки справедливости распределения ресурсов в обществе. Если большинство людей имеет доход или богатство, превышающее медиану, это может свидетельствовать о более равномерном распределении ресурсов.
- Образование: Медиана уровня образования или достижений может указывать на доступность образовательных возможностей и справедливость в образовательной системе. Если медиана находится на более высоком уровне, это может свидетельствовать о широком доступе к образованию и более справедливом распределении образовательных возможностей.
- Здравоохранение: Медиана здоровья или ожидаемой продолжительности жизни может указывать на уровень доступности и справедливости в системе здравоохранения. Если медиана находится на достаточно высоком уровне, это может указывать на доступность качественного здравоохранения для большинства людей.
- Качество жизни: Медиана показателей качества жизни, таких как доступ к чистой воде, жилью, безопасности, также может быть использована для измерения справедливости и устойчивости в обществе. Если большинство людей имеет доступ к основным услугам и уровень жизни, превышающий медиану, это может указывать на более справедливое и устойчивое общество.
Медиана — это точка ниже и выше которой находится ровно по 50% значений в распределении.
Чтобы найти медиану, нам нужно упорядочить значения переменной от меньшего к большему и найти то значение, которое делит распределение пополам.
Предположим, что у нас есть выборка из пяти наблюдений $$X = [5, 10, 8, 11, 3]$$ Для начала упорядочим значения: $$[3, 5, 8, 10, 11]$$ Теперь найдем значение в серединке распределения — это 8. Слева от и справа от этого числа у нас находится по два значения переменной —3 и 5, 10 и 11.
Что делать, если в выборке четное количество элементов? $$3, 5, 8, 10, 11, 12$$ В самой выборке нет элемента, который делит ее пополам. Но на самом деле, если мы представим наши значения переменной на шкале координат, мы такие числа найдем. Например, гипотетическое значение 9 делит выборку пополам — слева остаются 3, 5, и 8, а справа 10, 11, и 12. Таким образом, в определении медианы есть некоторая субъективность. Но все-таки, одна из самых популярных конвенций нахождения медианы для распределения с четным количеством элементов — это среднее арифметическое центральных элементов. $$\frac{8 + 10}{2} = 9$$ Мы уже говорили, что среднее арифметическое не очень хорошо реагирует на появление в распределении аномальных значений — сильно больших или сильно маленьких. Давайте посмотрим, как ведет себя медиана.
Возьмем те же две выборки: $$X = [50, 30, 10, 45, 50] \ и \ X = [50, 30, 10, 45, 400]$$ Упорядочим значения: $$10, 30, 45, 50, 50$$ $$10, 30, 45, 50, 400$$ Видим, что медиана в этих двух выборках одна и та же — 45. А вот среднее у нас очень сильно менялось. И это неудивительно — медиана не зависит от конкретных значений переменных, а только от их порядкового номера. А значит медиана более предпочтительная мера центральной тенденции для распределений, в которых есть экстремальные значения. Например, медиану предпочтительно использовать, когда мы говорим о зарплатах — в таких данных у нас всегда очень много выбросов справа от среднего, которые сильно на него влияют. А значит, «средняя» зарплата почти всегда будет завышенной по сравнению с «медианной», но именно последняя будет лучше отражать положение дел. Поэтому обращайте внимание на то, какую меру центральной тенденции вам презентуют — возможно, у этого есть двойное дно.
Когда использовать медиану?
- В скошенных распределениях количественных переменных или в распределениях с экстремальными значениями. Мы убедились, что медиана гораздо более устойчива к экстремальным значениям переменной, потому что не зависит от них при вычислении.
- В распределениях количественных переменных в неограниченных распределениях. Например, вы хотите узнать, сколько студенты потратили на решение теста. Но при этом есть студенты, которые тест открыли, но так и не отправили решение. Поэтому среди значений с количеством минут у вас будут и значения «Не отправил решение». Рассчитать среднее для такой переменной не получится, а вот упорядочить по возрастанию, где «Не отправил решение» будет самым большим значением (ведь студенту потребовалось «бесконечно большое время», чтобы отправить работу) — можно.
- Для порядковых переменных. Так как такие переменные учитывают направление, но не учитывают точные расстояния между категориями, даже если они выражены числами — среднее для них вычислить не получиться. А вот медиану найти можно.
Мода: Искусство и наука нахождения наиболее распространенных значений.
Мода, пожалуй, самая понятная и очевидная мера центральной тенденции.
Мода — это мера центральной тенденции, которая представляет собой значение или значения в наборе данных, которые встречаются наиболее часто. В отличие от среднего значения и медианы, мода не зависит от точных числовых значений исходных данных, а сконцентрирована на самых часто встречающихся значениях.
Мода особенно полезна, когда вам интересны наиболее типичные или распространенные значения в наборе данных. Например, в анализе продаж товаров мода может помочь определить наиболее популярный продукт. В медицине мода может использоваться для определения наиболее распространенного симптома или заболевания.
Мы говорим про моду последней, а меж тем мода — самая универсальная мера центральной тенденции. Так для номинальных переменных мы не можем посчитать среднее или найти медиану, а найти моду — вполне.
Чтобы найти моду, нам нужно построить частотную таблицу и определить самое часто встречающееся значение. Предположим, мы попросили 65 школьников выбрать из предложенных их любимого персонажа книг о Гарри Поттере. После агрегации данных мы получили следующую таблицу:
Персонаж | Количество наблюдений |
---|---|
Гарри Поттер | 12 |
Гермиона Грейнджер | 29 |
Рон Уизли | 15 |
Драко Малфой | 9 |
Легко увидеть, что «Гермиона Грейнджер» — наше модальное значение. Ее выбрало больше всего опрошенных. Также легко найти моду на графике распределения — гистограмме или столбчатой диаграмме.
Бывают случаи, когда у нас в распределении переменной есть несколько мод. Такое распределение будет называться бимодальным (если моды две) или мультимодальным (если мод больше двух).
Моду можно определять и более субъективно — это значения, которые популярнее других. Представим, что в примере выше ответы распределились другим образом:
Персонаж | Количество наблюдений |
---|---|
Гарри Поттер | 10 |
Гермиона Грейнджер | 25 |
Рон Уизли | 23 |
Драко Малфой | 7 |
Формально, Гермиона все еще самый популярный персонаж. Но если мы посмотрим на распределение, что увидим, что Рона выбрало не сильно меньше человек, а вот разница этих двух персонажей с Гарри и Драко огромна. Скорее всего, здесь можно говорить о том, что моды две — Гермиона и Рон. Так как определение моды нам чаще всего будет нужно для того, чтобы описать и лучше понять наши данные, такие допущения не страшны.
Когда использовать моду?
- Моду можно найти для любого распределения и любого типа переменных.
- Для номинальных переменных мода — единственная мера центральной тенденции, которую можно вычислить
- Для дискретных переменных (например, «количество детей в семье») в теории мы можем вычислить любую меру, но мода иногда предпочтительней именно для представления данных, потому что она гарантированно будет выражена целым числом.
- Для непрерывных переменных, у которых много уникальных значений, моду лучше искать для сгруппированных значений. Например, не искать самую частотную заработную плату, а искать самую частотную группу дохода. Ведь может легко получиться, что у вас из 1000 уникальных совпадут только 5. Но при этом при агрегации данных по категориям, получатся уже какие-то разумные частоты.
Меры центральной тенденции и форма распределения
Есть некоторые закономерности, по которым себя ведут меры центральных тенденций в различных распределениях.
- В симметричном распределении с одной модой (унимодальном) все три меры будут более-менее совпадать.
- В симметричном распределении с более чем одной модой, медиана и среднее будут более-менее совпадать.
- Для положительно ассиметричного унимодального распределения (скошенного вправо) мода меньше медианы, а медиана меньше среднего.
- Для отрицательно ассиметричного унимодального распределения (скошенного влево) среднее значение меньше медианы, а медиана меньше моды.
Заглавной греческой буквой Σ (сигма) обозначается сумма. Традиционно используется следующая запись: $$\sum\limits_{i=m}^na_i = a_m + a_{m+1}+a_{m+2}+\dots+a_{n-1}+a_n$$ Она означает, что мы складываем $$все \ элементы \ a_i , \ индексы \ (i) \ которых \ изменяются \ от \ m \ до \ n.$$ Это важно прописывать, если мы складываем не все элементы рассматриваемого ряда, а только их часть: например, с первого по десятый. В таком случае запись будет оформлена таким образом: $$\sum\limits_{i=1}^{10}a_i$$ Однако если из контекста понятно, что рассматриваются все числа, то границы можно не прописывать, а использовать сокращенное обозначение: $$Σa_i$$ .