Z-оценка — это один из ключевых инструментов в статистике, который используется для оценки того, насколько далеко наблюдаемое значение отклоняется от среднего значения выборки, измеренного в единицах стандартного отклонения. Этот метод позволяет стандартизировать данные и сравнивать их в различных контекстах.
В данной статье мы рассмотрим основные принципы Z-оценки, её применения и значение в статистическом анализе.
Z-оценка, также известная как Z-статистика или стандартизированное значение, выражает, насколько наблюдаемое значение отклоняется от среднего значения в выборке в единицах стандартного отклонения.
Формула для расчета Z-оценки выглядит следующим образом:$$ Z = \frac{(X — \mu)}{\sigma} $$Где:
- [math]X [/math] — наблюдаемое значение,
- [math]\mu[/math] — среднее значение выборки,
- [math]\sigma[/math] — стандартное отклонение выборки.
Значение Z указывает, сколько стандартных отклонений наблюдаемое значение находится от среднего. Если Z равно 0, это означает, что наблюдаемое значение равно среднему. Положительные значения Z указывают на то, что наблюдаемое значение выше среднего, а отрицательные значения — ниже.
Допустим, у нас есть две группы студентов,
и группа А
, которые сдали один и тот же тест по математике. группа B
состоит из студентов, которые посещали регулярные занятия по математике, а Группа А
— из студентов, которые не посещали эти занятия.группа B
Средняя оценка за тест у
составила 85 баллов, со стандартным отклонением 5 баллов [math](\sigma = 5)[/math], в то время как у группы А
средняя оценка составила 75 баллов, со стандартным отклонением 10 баллов [math](\sigma = 10)[/math].группы B
Таким образом, относительная позиция значения в распределении действительно зависит и от среднего, и от среднеквадратичного отклонения. А значение переменной само по себе не несет много информации.
В прошлых статьях мы говорили о среднем арифметическом и среднеквадратичном отклонении в контексте описания распределений наших переменных. А теперь мы попробуем использовать эти понятия для того, чтобы описать отдельные значения с помощью Z-оценок. Это способ выразить любое значение переменной в количестве среднеквадратичных отклонений от среднего распределения. С помощью z-оценок мы можем стандартизировать распределение — выразить все значения в терминах дистанции от среднего. Поэтому z-оценка еще называется стандартизированной.
Интерактивная вставка доступна по ссылке
Теперь представим, что у студента из
оценка за тест составила 90 баллов, а у студента из группы А
— также 90 баллов.группы B
Для студента из
его Z-оценка будет:группы А
[math] Z_A = \frac{(90 — 85)}{5} = 1 [/math]
Это означает, что его оценка находится на расстоянии 1 стандартного отклонения выше среднего значения в
.группе А
Для студента из
его Z-оценка будет:группы B
[math] Z_B = \frac{(90 — 75)}{10} = 1.5 [/math]
Это означает, что его оценка находится на расстоянии 1.5 стандартного отклонения выше среднего значения в
.группы B
Из этого примера видно, что Z-оценка позволяет сравнивать оценки студентов из разных групп, учитывая различия в средних значениях и стандартных отклонениях в этих группах.
А теперь давайте по оценке найдем оригинальное значение. Мы знаем, что [math]z = 1.5[/math], [math]μ = 75[/math] и [math]\sigma = 10[/math].
Восстанавливаем значение по формуле:$$X = μ + zσ$$$$X = 75 + (1.5 \times 10) = 90$$
Стандартизированное распределение и его свойства
Если мы превратим все значения переменной в распределении в Z-оценки, то мы получим Z-распеределение или стандартизированное распределение. Такое распределение сохранит форму оригинального распределения, но среднее в нем будет равно нулю, а среднеквадратичное отклонение — единице.
Представьте, что нам нужно сравнить результаты тестирования двух групп студентов, которые сдавали разные экзамены по английскому языку. Первая группа писала тест, оцениваемый по шкале от [math]0[/math] до [math]9[/math], а вторая — от [math]0[/math] до [math]120[/math]. С теми студентами, которые набрали максимальное количество баллов или наоборот умудрились получить [math]0[/math] — все просто. Их оценки мы можем сравнить друг с другом. А дальше начинаются вопросы — лучше ли оценка [math]60[/math] из [math]120[/math] чем [math]5[/math] из [math]9[/math] ? Тут нам и помогут стандартизированные распределения. После того как мы найдем z-оценку для каждого оригинального значения переменной в двух группах, мы сможем сравнить оценки между собой.
Z-распределение обладает и важными свойствами, так через Z-оценки мы можем описать пропорции нормального распределения: если в случае с интерквартильным размахом мы знаем, что он дает нам информацию о разбросе в центральных 50% выборки, то теперь мы можем оценивать и количество данных в частях нормального распределения. Так в интервале от минус одного до плюс одного среднеквадратичного отклонения располагается примерно 68% выборки — то есть самые типичные для нее значения. Знание этих пропорций пригодится и при разговоре о тестировании гипотез, когда мы будем оценивать вероятность случайного получения некоторых значений1.
Применение Z-оценки
- Стандартизация данных: Z-оценка часто используется для стандартизации данных, особенно в случаях, когда распределение данных существенно отличается от нормального. После стандартизации данные можно сравнивать и анализировать в различных контекстах, не зависящих от оригинальной шкалы измерений.
- Определение вероятности: Значение Z используется для определения вероятности наблюдаемого значения в стандартном нормальном распределении. Это позволяет оценивать, насколько вероятно возникновение наблюдаемого значения в предположении нормального распределения.
- Идентификация выбросов: Высокие или низкие значения Z могут служить индикаторами выбросов в данных. Значения Z, превышающие определенный порог (например, 3 или -3), могут быть интерпретированы как потенциальные выбросы.
- Метрика эффективности: В контексте A/B-тестирования Z-оценка используется для оценки статистической значимости различий между двумя группами. Это помогает определить, являются ли наблюдаемые различия реальными или случайными.
Заключение
Z-оценка играет важную роль в статистическом анализе, позволяя стандартизировать данные и оценивать их отклонения от среднего в единицах стандартного отклонения. Этот инструмент широко применяется в различных областях, включая науку, экономику, медицину и маркетинг. Понимание и умение использовать Z-оценку являются ключевыми навыками для проведения статистического анализа данных и принятия обоснованных решений на основе статистических выводов.