В статистике величину называют статисти́чески зна́чимой, если мала вероятность случайного возникновения этой величины или ещё более крайних величин. Здесь под крайностью понимается степень отклонения тестовой статистики от нуль-гипотезы.
Проверка гипотезы H (задающей вероятностное распределение P индекс H) состоит в следующем. Выбирается событие S ( знак принадлежности Ω(называемое статистическим критерием), которое (по каким-либо соображениям) «почти несовместимо» с гипотезой H в том смысле, что условная вероятность P H (S) события S (при условии, что гипотеза H верна) не превышает какого-то малого (по сравнению с единицей) числа альфа α, называемого уровнем значимости: P H (S) <_ α. Затем проводится опыт. Если событие S происходит, то гипотеза H отвергается (говорят, что наблюдается отклонение от гипотезы на уровне значимости α. В противном случае, гипотеза не отвергается (однако никакой метод статистики, ни даже науки в целом, не может «окончательно доказать» гипотезу).
Таким образом, уровень α значимости теста — вероятность отклонить гипотезуH, если на самом деле она верна (решение известное как ошибка первого рода, или ложноположительное решение).
Популярными уровнями значимости являются 10 %, 5 %, 1 %, и 0,1 %.
Различные значения α-уровня имеют свои достоинства и недостатки. Меньшие α-уровни дают бо́льшую уверенность в том, что уже установленная альтернативная гипотеза значима, но при этом есть больший риск не отвергнуть ложную нулевую гипотезу (ошибка второго рода, или «ложноотрицательное решение»), и таким образом меньшая статистическая мощность. Выбор α-уровня неизбежно требует компромисса между значимостью и мощностью, и следовательно между вероятностями ошибок первого и второго рода.
При использовании тестов на статистическую значимость нужно иметь в виду, что тест вовсе не дает оснований для принятия гипотезы