Дом, который не построил Фишер

Про проверку гипотез в статистике написан уже миллион статей, и, боюсь, это даже не преувеличение. Зачем писать миллион первую? И чем она будет отличаться от привычных увещеваний вычислять p-value и сравнивать его с 0.05? Или от звучащих все громче призывов сдать это все в утиль и перейти уже наконец на сторону Байесовского Добра? К тому же у очередной статьи есть нешуточный риск не столько внести больше ясности в эту запутанную и довольно туманную историю, сколько запутать ее еще сильнее. Но я все же рискну.

§ 1. От гипотезы к реальности и обратно

В этом разделе не будет формул и вычислений. Сначала важно сделать так, чтобы мы с вами заговорили на одном языке. Делать это мы будем с помощью очень простого и не очень серьезного примера.

Представьте, что вы почему-то оказались в изоляции от всего мира, в пустой закрытой комнате, в которой есть только окно. И представьте, что вас очень интересует текущее время года за этим окном. Точнее, вас по какой-то причине мучает вопрос «Сейчас лето?» Сразу же обратите внимание, что вопрос поставлен не в вероятностных терминах, не «Какова вероятность, что сейчас лето?». Кто запретил так ставить вопрос? Никто. Но притворимся, что мы с вами сейчас выбрали одну из сторон в многовековом философском споре и сказали: текущее время года является свершившимся фактом объективной реальности, которой всё равно, знаем ли мы об этом факте или нет. Наше незнание — сугубо наша личная проблема, и оно не дает нам право говорить о вероятностях неизвестных фактов только лишь потому, что они нам неизвестны. Итак, выдвигая гипотезу «Сейчас лето», мы либо ошибаемся, либо нет; это утверждение объективно либо истинно, либо ложно, и всё, никаких вероятностей пока нет и быть не может. Здесь самое время сказать, что у меня сейчас нет ни малейшего желания ни защищать эту философию, ни нападать на ее, следуя последней моде. Всё, что вы прочитаете ниже, является просто кратким популярным изложением того, как выглядит проверка гипотез строго внутри нее, и что случается, если пересекать ее границы, не отдавая себе в этом отчета. Но вернемся к примеру.

Первый порыв — сразу же бежать к окну и смотреть, что там. Стоп, никто никуда пока не бежит. Сначала надо решить, на что конкретно вы будете смотреть и почему. Это важно: мы договариваемся о правилах игры до того, как она началась, а не задним числом или по ходу дела. Такая железная дисциплина призвана спасти нас от невольного стремления высмотреть нечто, что говорит в пользу желательного для нас исхода. К сожалению, наш мозг очень горазд на такие фокусы и зачастую делает это весьма коварно и незаметно, так что сразу ставим ему заслон.

Можно предложить такое правило принятия решения: если за окном сейчас мы увидим снегопад, то гипотезу «Сейчас лето» отвергаем. Если дело происходит в наших средних широтах, то снегопад календарным летом очень маловероятен, но не исключен. Последнее принципиально, так как создает риск ошибиться, отвергая гипотезу. Нетрудно сообразить, что вероятность увидеть снегопад летом это и есть вероятность совершить такую ошибку.

Пора начинать произносить всякие правильные слова. Проверяемое утверждение принято называть нулевой гипотезой (обозначаем как H₀). Правило, с помощью которого заранее договариваемся ее проверять, называем критерием, или просто тестом. Если нулевая гипотеза ошибочно отвергается, когда на самом деле она верна, мы говорим об ошибке первого рода. Вероятность совершить такую ошибку обозначим по традиции буквой ɑ, и еще раз повторим, что эта вероятность определяется вами заранее и не может измениться, так как она продиктована уже произошедшим выбором критерия. Полезно запомнить также термины «уровень значимости» и «размер теста», которые очень часто употребляют как синонимы вероятности ɑ (строго говоря, это не совсем корректно, но не будем сейчас слишком уж занудствовать).

Скрытый текст

Интересно, что событие «выглядываем в окно летом и видим, что идет снег» мы считаем случайным. Это именно та парадигма, в которой мы согласились работать — случайность, а вместе с ней и вероятность, приходит не со стороны гипотезы (я не устану это повторять), а с нашей стороны, так как процесс получения нами информации (данных, выборки) предполагается случайным, не детерминированным по своей природе. Откуда и почему берется эта случайность, вопрос довольно спорный, и мы не будем здесь в него погружаться. Скажем так: пусть сам снегопад и не случаен, как и время года, но мы выглядываем в окно в случайный момент времени. Можно вспомнить и более прозрачный, хоть и затасканный, пример с монеткой. Монетка стала «честной» или еще какой-то в тот момент, когда сошла с конвейера на монетном дворе, теперь ее (не)честность уже свершившийся факт, к которому нельзя пришить вероятность; но чтобы проверить гипотезу про монетку, мы будем ее подбрасывать, и вот эта деятельность уже считается случайной… Если такая философия кажется вам сомнительной, то вы не одиноки, вместе с вами так думают многие математики, статистики, да и просто практикующие исследователи и аналитики, и в последнее время их становится все больше. Их взгляды и методы, кстати, тоже совсем не безупречны, но отложим пока этот разговор на будущее.

Резюмируем алгоритм проверки гипотезы следующей мантрой:

«Нулевая гипотеза отвергается, если в результате проверки произошло нечто, что скорее всего не должно происходить, если гипотеза верна…»

Это нечто будем называть критическим событием. Кажется, что звучит вполне логично: критическое событие маловероятно при верной гипотезе, плохо с ней совместимо (как снег летом), поэтому его появление дает веские основания гипотезу отвергнуть. Особенно радует тот факт, что хотя мы и рискуем при этом ошибиться, но идем на этот риск с открытыми глазами, так как выбрав критерий, мы знаем вероятность такой ошибки, а значит можем сопоставить эту вероятность с ценой ошибки, т. е. с тем, насколько мы боимся ее совершить. Совершенно понятно, что практические ситуации бывают очень разными, а значит разными могут быть и устраивающие нас значения вероятности ɑ. Об этом нельзя забывать, чтобы не стать героем известного анекдота про статистика, целью всей жизни которого было оказываться не правым в 5% случаев.

Все это прекрасно, но радоваться рано. В конце нашей мантры мы неслучайно поставили многоточие, так как в таком виде она попросту неполна, и ее логику легко разбить. Как вам такой критерий: Критическим событием будет лицезрение за окном редкой перелетной птицы, которая бывает в наших краях только летом. Мантра работает: событие летом «маловероятно», так как птица редкая. Беда только в том, что в другое время года оно вообще невозможно, а это значит, что с помощью такого критерия мы никогда не отвергнем гипотезу «Сейчас лето», если она в действительности не верна. И это очень плохо.

Если вы подумали, что разобравшись с этим запутанным примером, вы от меня отделались, то как бы не так. В эту кроличью нору можно падать бесконечно. Отвергнем гипотезу о лете, если увидим в небе комету. Но явление кометы одинаково маловероятно и летом, и в любое другое время года, и даже интуитивно становится непонятным, как такой критерий поможет отличить истинную гипотезу от ложной. Или, скажем, пусть критическим событием будет температура в диапазоне от +26⁰С до +26,1⁰С. Диапазон очень узок, вероятность такого даже летом соответственно будет мала, но странно отвергать гипотезу о лете, если на термометре типично летняя температура, которую вряд ли застанешь осенью или зимой. И т. д. Снегопад в качестве критерия выгодно выделяется на этом фоне, так как он не только маловероятен летом, но и становится заметно более вероятным в другое время года, а значит обладает гораздо лучшей способностью отличать лето от всего остального, что нам и нужно.

Таким образом, мы явно поторопились, сосредоточившись на риске отвергнуть верную нулевую гипотезу, и совершенно забыв о возможности другой ошибки — принять нулевую гипотезу, когда на самом деле верна какая-то другая. Как вы уже догадались, она называется ошибкой второго рода, ее вероятность обозначим β, а другая гипотеза называется альтернативной (или конкурирующей) — H₁ или H_A. Если мы игнорируем существование альтернативы, считаем ее пустой формальностью и никак не связываем с ней выбор критического события, мы по сути пытаемся совершить хлопок одной ладонью. Поэтому гораздо логичнее и полнее будет следующая редакция нашей мантры:

«Нулевая гипотеза отвергается, если в результате проверки произошло критическое событие, которое маловероятно, если гипотеза верна, и при этом как можно более вероятно, если верна альтернативная гипотеза»

Мы должны заключить, что из всего множества критических событий, обладающих желаемой вероятностью ɑ, надо выбирать такое, которое минимизирует вероятность β. Можно, конечно, с тем же успехом говорить и о максимизации величины 1-β, которую метко прозвали мощностью критерия. В самом деле, мощность — это вероятность не совершить ошибку второго рода, т. е. это вероятность отвергнуть нулевую гипотезу в пользу альтернативной, когда эта нулевая гипотеза в самом деле не верна. Мы как бы смотрим на H₀ в микроскоп (или телескоп, если вам это ближе), и думаем о мощности оптики, которая поможет нам уличить нулевую гипотезу во лжи, если она действительно ложна.

Внимательный читатель, вероятно, заметил странный перекос в том, как мы относимся к нулевой и альтернативной гипотезам. Мы заботимся о том, чтобы ɑ была малым числом, а значит хотим отвергать H₀ только если для этого есть очень веские основания. Это значит, что нулевая гипотеза защищена своего рода презумпцией невиновности — мы не станем немедленно признавать ее «виновной» при возникновении малейших подозрений, а наоборот требуем для этого очень весомых улик. Разумеется, значение ɑ можно и нужно выбирать на свое усмотрение, по ситуации, мы об этом уже упоминали, но все равно остается ощущение, что нулевая гипотеза и уровень значимости являются «главными», а альтернативная гипотеза и мощность идут как будто по остаточному принципу. Тому есть причины. Во многих случаях (в клинических испытаниях, естественно-научных и социологических исследованиях) нулевую гипотезу удобно формулировать как «отсутствие искомого эффекта»: лекарство не работает, у далекой звезды нет экзопланет, и т. п. Недаром за гипотезой закрепилось название «нулевая». И научное сообщество по понятным причинам консервативно и очень не любит, когда объявленное обнаружение эффекта оказывается ложным.

Что касается альтернативной гипотезы, то ее можно формулировать в виде простого логического отрицания нулевой (H₀: сейчас лето; H₁: сейчас не лето), но никто не запрещает как-то ее конкретизировать (H₀: сейчас лето; H₁: сейчас осень или весна). Теперь мы понимаем, что от выбора альтернативы будут решающим образом зависеть и выбор критического события и мощность критерия. Кстати, во втором случае надо еще быть готовым к тому, что в реальности неверны обе гипотезы. На вопрос «А как правильно?» не может быть одного универсального ответа. В конце концов, в прикладных задачах балом правит контекст. Мы ведь проверяем гипотезы вовсе не потому, что нам ужасно нравится сама эта процедура, а потому что мы решаем какую-то конкретную задачу, хотим принять решение, сделать вывод, а затем действовать в соответствии с ним, и иметь дело с последствиями. В последующих разделах мы на примерах увидим, как предлагаемая методика позволяет заранее планировать эксперимент так, чтобы эти последствия были контролируемы, насколько это возможно в пресловутых «условиях неопределенности».

И в заключение этого странного параграфа поздравим друг друга с тем, что мы только что осилили более 10000 знаков про классическую проверку гипотез, ни разу не упомянув p-value и прилагающегося к нему сэра Рональда Фишера. Это сделано осознанно, чтобы хотя бы символически развести по разным углам две конфликтующие методологии, которые прочно переплелись в сознании наших современников, породив огромное количество страданий и кривотолков. Так что пусть p-value пока подождет.

Продолжение следует

ссылка на оригинал статьи https://habr.com/ru/articles/1022344/