Меры вариативности

Содержание Показать

Меры вариативности, или как их еще называют — меры разброса, играют ключевую роль в анализе данных, помогая нам понять их разнообразие. Представьте, что вы приобрели пакет яблок в супермаркете - все фрукты одинаково красные, примерно одинакового размера и с схожим вкусом. Здесь наблюдается отсутствие вариативности в характеристиках яблок. Тем временем, яблоки с дачи могут быть разнообразными: от маленьких до крупных, разноцветных, и с вкусом, варьирующимся от кислого до сладкого. В этом случае все три переменные (размер, цвет и вкус) принимают различные значения, подчеркивая наличие вариативности.

Использование мер вариативности помогает оценить степень сходства или различий в данных. Интересно отметить, что в обоих примерах средний вес яблок может быть одинаковым — вес меньших яблок с дачи может быть скомпенсирован весом более крупных. А значит, одной только меры центральной тенденции недостаточно, чтобы знать, что же происходит в наших данных.

Меры вариативности— представляют собой количественные меры, выражающие различия между значениями в распределении. Более формально — это степень индивидуальных отклонений значений от центральной тенденции.

Аналогично мерам центральной тенденции, существует несколько показателей вариативности. В этой статье мы рассмотрим основные из них:

размах;
интерквартильный размах;
дисперсия;
среднеквадратичное отклонение.

Размах

Наиболее простым показателем разброса данных является размах. Он представляет собой разницу между наибольшим и наименьшим значениями в наборе данных. Этот показатель помогает нам оценить, насколько значения переменной разбросаны вокруг среднего значения или сконцентрированы в узком диапазоне.

Размах — разность между наибольшим и наименьшим значениями результатов наблюдений.

Предположим, у нас есть переменная [math]X[/math], представляющая количество пройденных километров велосипедистом за 9-ти дневный период:$$X=[27, 8, 13, 80, 5, 12, 22, 18, 24]$$Чтобы рассчитать размах ([math]R[/math]) этой переменной, вычитаем минимальное значение из максимального:$$R = X_{\text{max}} - X_{\text{min}} = 80-5 = 75$$Таким образом, размах переменной [math]X[/math] составляет 75 км.

Преимуществом размаха является его простота расчета, наглядность и понятность, что делает его привлекательным для оценки разброса значений. Однако у него есть существенный недостаток: отсутствие информации о характере распределения внутри интервала разброса, и он неустойчив к выбросам. Эти ограничения в определенной степени сужают его применимость по сравнению с более сложными мерами рассеяния, такими как дисперсия и стандартное отклонение.

Интерквартильный размах

Для понимания интерквартильного размаха важно разобраться с понятием квартилей. Фактически, мы уже имеем некоторое представление о них, так как медиана представляет собой второй квартиль распределения, разделяя его на две равные части (50% и 50%).

Квартили — это значения, которые разделяют упорядоченный набор данных на четыре равные части.

Первый квартиль (еще его называют нижним) — отделяет первые 25% значений от следующих 75%.
Второй квартиль (он же медиана) — делит выборку пополам (50% и 50%).
Третий квартиль (еще его называют верхним) — отделяет первые 75% выборки от следующих 25%.
Четвертый квартиль по сути уже не делит выборку — ниже него располагается 100% значений.

Для расчета интерквартильного размаха необходимо определить первый и третий квартили распределения, которые делят данные на 25% и 75% соответственно. Эта мера часто используется совместно с медианой, так как обе они опираются на порядковые номера значений переменной.

Интерквартильный размах (IQR - inter-quartile range) - это мера разброса в статистике, которая представляет собой разницу между третьим ([math]Q_3[/math]) и первым ([math]Q_1[/math]) квартилями в упорядоченном наборе данных. Интерквартильный размах охватывает центральные 50% данных и служит показателем разброса в этой области. Он является устойчивой к выбросам мерой, так как не зависит от крайних значений.

$$IQR= Q_3 - Q_1$$Давайте рассчитаем интерквартильный размах для переменной [math]X=[5, 8, 12, 13, 18, 22, 24, 27, 80][/math]. Мы уже работали с этим примером и видели, что простой размах получается для нее не очень релевантным. Сначала упорядочим значения, чтобы найти квартили:$$5, 8, 12, 13, 18, 22, 24, 27, 80$$Для нахождения первого ([math]Q_1[/math]) и третьего ([math]Q_3[/math]) квартилей в упорядоченном ряду данных, следует выполнить следующие шаги:

Найти медиану (второй квартиль, [math]Q_2[/math]): В нашем случае, это 18.
Найти первый квартиль ([math]Q_1[/math]): Это медиана набора данных, который находится левее общей медианы. В данном случае, это среднее между 8 и 12, то есть $$Q_1 = \frac{8 + 12}{2} = \frac{20}{2} = 10$$.
Найти третий квартиль ([math]Q_3[/math]): Это медиана набора данных, который находится правее общей медианы. В нашем случае, это среднее между 24 и 27, то есть $$Q_3 = \frac{ 24+ 27}{2} = \frac{20}{2} = 25.5$$Таким образом, первый квартиль ([math]Q_1=10[/math]), а третий квартиль ([math]Q_3=25.5[/math])$$IQR = 25.5-10 = 15.5$$

Теперь давайте вспомним, что у нас был размах величины 75 для этой же переменной. Поскольку при расчете интерквартильного размаха мы исключили аномальное значение 80, можно утверждать, что интерквартильный размах лучше отражает характер распределения. Таким образом, можно заключить, что как и медиана, интерквартильный размах менее подвержен влиянию аномальных значений в переменной по сравнению с другими мерами вариативности.

Дисперсия и среднеквадратичное отклонение

Если интерквартильный размах часто используется в сочетании с медианой, то среднеквадратичное отклонение становится незаменимым спутником для среднего арифметического. Отклонение - это, вероятно, наиболее часто применяемая мера вариативности, которая принимает среднее арифметическое как точку отсчета и оценивает, насколько данные группируются вокруг этого среднего значения или, наоборот, насколько они удалены от него.

Но давайте начнем с определения того, что такое отклонение от среднего.

Отклонение от среднего — это разница между значением переменной и ее средним арифметическим.

Математически, отклонение от среднего для генеральной совокупности можно выразить следующим образом:$$X-μ$$И так для выборки:$$X-М$$К примеру, если рассматривается генеральная совокупность с средним значением [math]μ = 30[/math], и у нас есть конкретное значение переменной [math]X = 33[/math], то отклонение данного значения от среднего можно выразить следующим образом:$$X-μ = 33-30 = 3$$Отклонение может принимать отрицательное значение в случае, если конкретное значение переменной меньше среднего. Например, для переменной [math]X=25[/math] из того же распределения отклонение будет равно [math]-5[/math].

Поскольку нашей целью является создание меры разброса, которая полностью описывает распределение данных, было бы полезно найти метрику, которая агрегирует все отклонения от среднего в нашей генеральной совокупности. Давайте рассмотрим этот подход для заданной генеральной совокупности:$$N = 5, X = [6, 3, 7, 9, 0], μ = 5$$

[math]X[/math]	[math]X - μ[/math]
[math]6[/math]	[math]6-5=1[/math]
[math]3[/math]	[math]3-5=-2[/math]
[math]7[/math]	[math]7-5=2[/math]
[math]9[/math]	[math]9-5=4[/math]
[math]0[/math]	[math]0-5=-5[/math]

Генеральная совокупность

Пожалуй, следующим логичным шагом было бы найти среднее отклонений от среднего распределения. Но на самом деле из свойств среднего арифметического мы уже знаем, что сумма этих дистанций будет равна [math]0[/math]$$\frac{Σ(X - μ)}{N} = \frac{1+(-2)+2+4+(-5)}{5} = \frac{0}{5} = 0$$Что нам может здесь помочь? Один из вариантов — возвести отклонения в квадрат. Так мы избавимся от знаков минус, а затем сможем найти среднее квадратичное отклонение. Такая мера вариативности называется — дисперсия.

дисперсия — среднее квадратов отклонений от среднего арифметического распределения.

[math]X[/math]	[math]X - μ[/math]	[math](X - μ)^2[/math]
[math]6[/math]	[math]6-5=1[/math]	[math]1[/math]
[math]3[/math]	[math]3-5=-2[/math]	[math]4[/math]
[math]7[/math]	[math]7-5=2[/math]	[math]4[/math]
[math]9[/math]	[math]9-5=4[/math]	[math]16[/math]
[math]0[/math]	[math]0-5=-5[/math]	[math]25[/math]

Генеральная совокупность

Дисперсия для нашей переменной будет равна:$$\frac{Σ(X - μ)^2}{N} = \frac{1 + 4 + 4 + 16+25}{5} = \frac{70}{5} = 14$$Таким образом мы знаем, что в среднем квадрат отклонения от среднего находится на расстоянии [math]14[/math] единиц измерения от среднего арифметического распределения. Полезная ли это мера? Пожалуй. Но интерпретировать ее не просто — гораздо полезнее знать, что расстояние между Москвой и Ростовом-на-Дону составляет [math]960[/math] километров по трассе, чем квадрат этого расстояния — [math]921600[/math] километров.

Мы возводили отклонения в квадрат, чтобы перехитрить арифметику — нам нужно было избавиться от отрицательных чисел, чтобы посчитать среднее отклонений. Теперь было бы неплохо вернуться от квадратичных к оригинальным единицам измерений. Сделать это на самом деле несложно — мы просто извлечем квадратный корень из нашей дисперсии. Это и будет среднеквадратичное (оно же среднеквадратическое или стандартное) отклонение.

Среднеквадратичное отклонение (стандартное отклонение) — квадратный корень дисперсии. Мера, которая определяет среднее отклонение от среднего арифметического распределения.

$$\sqrt{\frac{Σ(X - μ)^2}{N}} = \sqrt{14} \approx 3.74$$Таким образом мы можем сказать, что в нашей генеральной совокупности:$$N = 5, X = [6, 3, 7, 9, 0], μ = 5$$данные в среднем отличаются от [math]μ[/math] на [math]3.74[/math]

Давайте теперь рассмотрим формулы для двух важных статистических показателей: дисперсии и среднеквадратичного отклонения. Обозначения для генеральной совокупности и выборки будут различаться, чтобы учесть особенности вычислений для каждого случая. Используем [math]\sigma[/math] (сигма) для генеральной совокупности и [math]s[/math] для выборки. Дисперсия, представляющая собой квадрат среднеквадратичного отклонения, будет обозначаться как [math]\sigma^2[/math] и [math]s^2[/math] соответственно.

Формула дисперсии генеральной совокупности:$$σ^2 = \frac{Σ(X - μ)^2}{N}$$Формула среднеквадратичного отклонения генеральной совокупности:$$σ = \sqrt{\frac{Σ(X - μ)^2}{N}}$$При извлечении значений из генеральной совокупности даже при строгом соблюдении правил выборки, вероятность попадания в выборку более редких значений (тех, что сильно отклоняются от среднего) остается крайне малой. Это может привести к тому, что выборка склонна недооценивать вариативность генеральной совокупности, из которой она была взята. Однако математики выяснили, что эта ситуация предсказуема, и ее можно корректировать.

Корректировка заключается в том, что в нашей формуле в знаменателе мы будем использовать не [math]n[/math] (количество наблюдений в выборке), а [math]n - 1[/math]. А раз мы уменьшаем значение в знаменателе на [math]1[/math], то результат деления станет немного больше — мы как будто искусственно немного увеличиваем значение нашей выборочной дисперсии и среднеквадратичного отклонения.

Формула дисперсии выборки:$$s^2 = \frac{Σ(X - M)^2}{n - 1}$$Формула среднеквадратичного отклонения выборки:$$s = \sqrt{\frac{Σ(X - M)^2}{n - 1}}$$Эти формулы предоставляют нам инструменты для оценки степени изменчивости данных в генеральной совокупности и выборке, что является важным аспектом статистического анализа.

Какую меру вариативности выбрать?

Выбор меры вариативности зависит от особенностей распределения данных и требований конкретного анализа. Рассмотрим основные меры: размах, интерквартильный размах, дисперсия и среднеквадратичное отклонение.

Размах:

Преимущества: Прост в вычислении и понимании. Учитывает максимальное и минимальное значения в наборе данных.
Недостатки: Чувствителен к выбросам (аномальным значениям), что может исказить общую картину изменчивости.

Интерквартильный размах:

Преимущества: Устойчив к выбросам, так как основывается на квартилях. Лучше отображает центральную часть распределения, игнорируя крайние значения.
Недостатки: Менее информативен о полном разнообразии данных, чем размах.

Дисперсия:

Преимущества: Учитывает все значения в наборе данных, предоставляя обширную информацию о разбросе. Используется в статистических методах.
Недостатки: Чувствителна к выбросам из-за использования квадратов отклонений.

Среднеквадратичное отклонение:

Преимущества: Предоставляет стандартную меру разброса данных. Легко интерпретировать.
Недостатки: Чувствительно к выбросам, поскольку использует дисперсию.

Какую меру выбрать?

Если важна полная вариабельность данных и нет проблем с выбросами, можно использовать размах.
Если данные содержат выбросы, рекомендуется использовать интерквартильный размах для более устойчивой оценки центральной части распределения.
Для статистических анализов, особенно при нормальном распределении, дисперсия и среднеквадратичное отклонение предоставляют дополнительные статистические характеристики.

Пройдите квиз по этой статье

Чтобы закрепить пройденный материал

Квиз генерируется нейросетью. Эта модель отлично работает с длинным контекстом, рассуждениями и логикой, но иногда ошибается (как и все нейросети).

Статистический анализ и прогнозирование

Автор Зураб Шахбанов 58 статей

zurab@shakhbanov.ru

Комментарии

Пред.

Установка GitLab с использованием Docker: эффективное развертывание среды разработки

В современном мире разработки программного обеспечения - использование систем

5,3KПросмотров

3 минуты чтения

След.

Задача №2: Summary Ranges

Содержание Показать ПроблемаРешение №1Решение №2Заключение В этой статье мы

3 минуты чтения

1,9KПросмотров

Cookie	Период	Описание
cookielawinfo-checkbox-analytics	11 месяцев	Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Аналитика».
cookielawinfo-checkbox-functional	11 месяцев	Файл cookie устанавливается в соответствии с соглашением о файлах cookie GDPR для записи согласия пользователя на использование файлов cookie в категории «Функциональные».
cookielawinfo-checkbox-necessary	11 месяцев	Файлы cookie используются для хранения согласия пользователя на использование файлов cookie в категории «Необходимые».
cookielawinfo-checkbox-others	11 месяцев	Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Другое».
cookielawinfo-checkbox-performance	11 месяцев	Файл cookie используется для хранения согласия пользователя на использование файлов cookie в категории «Производительность».
viewed_cookie_policy	11 месяцев	Файл cookie устанавливается в соответствии согласия на использование файлов cookie GDPR и используется для хранения того, дал ли пользователь согласие на использование файлов cookie или нет. Он не хранит никаких личных данных.

Обязательно к просмотруПосмотреть все

Задача №2: Summary Ranges

Прогнозирование заказов такси 🚖

Вопросы по классическому ML (основы машинного обучения)

Градиентный спуск

Популярные темы

Сейчас в трендеПосмотреть все

Вопросы по классическому ML (Предобработка данных и признаки)

Линейная регрессия

Вопросы по классическому ML (основы машинного обучения)

Меры вариативности

Содержание Показать

Размах

Интерквартильный размах

Дисперсия и среднеквадратичное отклонение

Какую меру вариативности выбрать?

Пройдите квиз по этой статье

Установка GitLab с использованием Docker: эффективное развертывание среды разработки

Задача №2: Summary Ranges

Основные понятия и принципы статистики

Z-оценка

Дисперсия: путь к пониманию разброса данных

Основные типы переменных в статистике: категориальные и количественные, дискретные и непрерывные.

Ответ ИИ-помощника

Ответ интеллектуального помощника

Обязательно к просмотруПосмотреть все

Задача №2: Summary Ranges

Прогнозирование заказов такси 🚖

Вопросы по классическому ML (основы машинного обучения)

Градиентный спуск

Вопросы по классическому ML (Предобработка данных и признаки)

Линейная регрессия

Вопросы по классическому ML (основы машинного обучения)

Меры вариативности

Содержание Показать

Размах

Интерквартильный размах

Дисперсия и среднеквадратичное отклонение

Какую меру вариативности выбрать?

Пройдите квиз по этой статье

Установка GitLab с использованием Docker: эффективное развертывание среды разработки

Задача №2: Summary Ranges

Вам также может понравиться

Основные понятия и принципы статистики

Z-оценка

Дисперсия: путь к пониманию разброса данных

Основные типы переменных в статистике: категориальные и количественные, дискретные и непрерывные.

Ответ ИИ-помощника

Ответ интеллектуального помощника