Инструменты

Z-оценка

Z-оценка — это один из ключевых инструментов в статистике, который используется для оценки того, насколько далеко наблюдаемое значение отклоняется от среднего значения выборки, измеренного в единицах стандартного отклонения. Этот метод позволяет стандартизировать данные и сравнивать их в различных контекстах.

В данной статье мы рассмотрим основные принципы Z-оценки, её применения и значение в статистическом анализе.

Z-оценка, также известная как Z-статистика или стандартизированное значение, выражает, насколько наблюдаемое значение отклоняется от среднего значения в выборке в единицах стандартного отклонения.

Формула для расчета Z-оценки выглядит следующим образом:$$ Z = \frac{(X – \mu)}{\sigma} $$Где:

  • [math]X [/math] – наблюдаемое значение,
  • [math]\mu[/math] – среднее значение выборки,
  • [math]\sigma[/math] – стандартное отклонение выборки.

Значение Z указывает, сколько стандартных отклонений наблюдаемое значение находится от среднего. Если Z равно 0, это означает, что наблюдаемое значение равно среднему. Положительные значения Z указывают на то, что наблюдаемое значение выше среднего, а отрицательные значения – ниже.

Допустим, у нас есть две группы студентов, группа А и группа B, которые сдали один и тот же тест по математике. Группа Асостоит из студентов, которые посещали регулярные занятия по математике, а группа B – из студентов, которые не посещали эти занятия.

Средняя оценка за тест у группы А составила 85 баллов, со стандартным отклонением 5 баллов [math](\sigma = 5)[/math], в то время как у группы B средняя оценка составила 75 баллов, со стандартным отклонением 10 баллов [math](\sigma = 10)[/math].

Таким образом, относительная позиция значения в распределении действительно зависит и от среднего, и от среднеквадратичного отклонения. А значение переменной само по себе не несет много информации.

В прошлых статьях мы говорили о среднем арифметическом и среднеквадратичном отклонении в контексте описания распределений наших переменных. А теперь мы попробуем использовать эти понятия для того, чтобы описать отдельные значения с помощью Z-оценок. Это способ выразить любое значение переменной в количестве среднеквадратичных отклонений от среднего распределения. С помощью z-оценок мы можем стандартизировать распределение — выразить все значения в терминах дистанции от среднего. Поэтому z-оценка еще называется стандартизированной.

Интерактивная вставка доступна по ссылке

Теперь представим, что у студента из группы А оценка за тест составила 90 баллов, а у студента из группы B– также 90 баллов.

Для студента из группы А его Z-оценка будет:

[math] Z_A = \frac{(90 – 85)}{5} = 1 [/math]

Это означает, что его оценка находится на расстоянии 1 стандартного отклонения выше среднего значения в группе А.

Для студента из группы B его Z-оценка будет:

[math] Z_B = \frac{(90 – 75)}{10} = 1.5 [/math]

Это означает, что его оценка находится на расстоянии 1.5 стандартного отклонения выше среднего значения в группы B.

Из этого примера видно, что Z-оценка позволяет сравнивать оценки студентов из разных групп, учитывая различия в средних значениях и стандартных отклонениях в этих группах.

А теперь давайте по оценке найдем оригинальное значение. Мы знаем, что [math]z = 1.5[/math], [math]μ = 75[/math] и [math]\sigma = 10[/math].

Восстанавливаем значение по формуле:$$X = μ + zσ$$$$X = 75 + (1.5 \times 10) = 90$$

Стандартизированное распределение и его свойства

Если мы превратим все значения переменной в распределении в Z-оценки, то мы получим Z-распеределение или стандартизированное распределение. Такое распределение сохранит форму оригинального распределения, но среднее в нем будет равно нулю, а среднеквадратичное отклонение — единице.

Представьте, что нам нужно сравнить результаты тестирования двух групп студентов, которые сдавали разные экзамены по английскому языку. Первая группа писала тест, оцениваемый по шкале от [math]0[/math] до [math]9[/math], а вторая — от [math]0[/math]  до [math]120[/math]. С теми студентами, которые набрали максимальное количество баллов или наоборот умудрились получить [math]0[/math]  — все просто. Их оценки мы можем сравнить друг с другом. А дальше начинаются вопросы — лучше ли оценка [math]60[/math] из [math]120[/math]  чем [math]5[/math] из [math]9[/math] ? Тут нам и помогут стандартизированные распределения. После того как мы найдем z-оценку для каждого оригинального значения переменной в двух группах, мы сможем сравнить оценки между собой.

Z-распределение обладает и важными свойствами, так через Z-оценки мы можем описать пропорции нормального распределения: если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки — то есть самые типичные для нее значения. Знание этих пропорций пригодится и при разговоре о тестировании гипотез, когда мы будем оценивать вероятность случайного получения некоторых значений1.

Применение Z-оценки

  1. Стандартизация данных: Z-оценка часто используется для стандартизации данных, особенно в случаях, когда распределение данных существенно отличается от нормального. После стандартизации данные можно сравнивать и анализировать в различных контекстах, не зависящих от оригинальной шкалы измерений.
  2. Определение вероятности: Значение Z используется для определения вероятности наблюдаемого значения в стандартном нормальном распределении. Это позволяет оценивать, насколько вероятно возникновение наблюдаемого значения в предположении нормального распределения.
  3. Идентификация выбросов: Высокие или низкие значения Z могут служить индикаторами выбросов в данных. Значения Z, превышающие определенный порог (например, 3 или -3), могут быть интерпретированы как потенциальные выбросы.
  4. Метрика эффективности: В контексте A/B-тестирования Z-оценка используется для оценки статистической значимости различий между двумя группами. Это помогает определить, являются ли наблюдаемые различия реальными или случайными.

Заключение

Z-оценка играет важную роль в статистическом анализе, позволяя стандартизировать данные и оценивать их отклонения от среднего в единицах стандартного отклонения. Этот инструмент широко применяется в различных областях, включая науку, экономику, медицину и маркетинг. Понимание и умение использовать Z-оценку являются ключевыми навыками для проведения статистического анализа данных и принятия обоснованных решений на основе статистических выводов.

  1. ВШЭ: “Статистика для анализа данных” ↩︎
Пред.
Задача №4: Move Zeroes

Задача №4: Move Zeroes

Дан массив целых чисел nums, и требуется переместить все нули в конец массива,

След.
Задача №5: Reverse Linked List

Задача №5: Reverse Linked List

Содержание Show Итеративный методРекурсивный методЗаключение Задача обращения

Вам также может понравиться