Дом, который не построил Фишер (Часть 2)

§2. Z в вакууме

Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать.

Пусть имеется случайная величина ξ с неизвестным математическим ожиданием μ, которое и будет предметом нашего интереса. Для простоты сделаем два, мягко говоря, не слишком правдоподобных предположения: случайная величина ξ имеет нормальное распределение, причем его дисперсия известна и равна σ². Конечно, чтобы не потерять связь с реальностью, от этих предположений хорошо бы избавиться, но за это придется заплатить необходимостью привлекать, например, предельные теоремы, что уведет разговор далеко в сторону, так что остановимся на нашем простом, пусть и ужасно искусственном, случае.

Итак, запишем сказанное выше так:

ξ ~ N( μ=?, σ²)

У нас, конечно, имеется iid-выборка размера n: X = {x₁, x₂, … x_n}. Аббревиатура iid (independent identically distributed) означает простую случайную выборку, т. е. все x_i независимы и порождены одной случайной величиной ξ.

Мы хотим проверить нулевую гипотезу о том, что математическое ожидание μ равно конкретному числу μ₀.

H₀: μ= μ₀

Чтобы нулевая гипотеза у нас не висела в пустоте и имела смысл, должна быть и альтернативная гипотеза. И опять же для простоты пусть она пока будет односторонней:

H₁: μ> μ₀

По имеющейся выборке мы без труда вычислим обычное выборочное среднее , но здесь мы запишем его в немного непривычном виде:

$\bar X = \frac{1}{n}x_1 + \frac{1}{n}x_2 + ... \frac{1}{n}x_n$

Так как все x_i имеют одно и то же распределение N( μ, σ² ), к тому же независимы друг от друга, выборочное среднее оказывается простой линейной комбинацией одинаково распределенных и независимых нормальных случайных величин, а значит тоже будет иметь нормальное распределение: это напрямую следует из свойств этого распределения, расчехлять ЦПТ и прочие хитрости нет необходимости. Вспоминая элементарные правила действий со случайными величинами, можно проверить, что параметры этого распределения есть $E(\bar X)=μ$ и $Var(\bar X) = \frac{\sigma^2}{n}$ .

Теперь произведем центрирование и нормирование этого среднего:

$Z = \frac{(\bar X-\mu)\sqrt(N))}{\sigma}$

Смысл этой операции в том, что теперь случайная величина Z имеет удобное стандартное нормальное распределение N(μ=0, σ²=1). Чтобы в этом убедиться, достаточно опять вспомнить о линейных свойствах этого распределения и обратить внимание, что в выражении для Z имеется только одна случайная компонента, выборочное среднее $\bar X$ , а остальное — просто фиксированные числа. И еще раз подчеркнем, что это точное, не асимптотическое, утверждение — при наших допущениях о нормальном распределении ξ и известной дисперсии оно строго справедливо для любого размера выборки, даже очень маленького.

Констатируем:

Z = $\frac{(\bar X-\mu)\sqrt(N))}{\sigma}$ ~ N(0, 1) (1)

А теперь сделаем два почти тривиальных, но невероятно важных наблюдения:

1) Распределение Z не зависит от того, чему в действительности равно математическое ожидание μ. Имеется в виду, что подставляя в (1) вместо μ его истинное значение, каким бы оно ни было на самом деле, мы можем быть уверены, что Z ~ N(0, 1). Будь это не так, то при неизвестном μ мы не знали бы и распределения Z. В литературе вам может встретиться термин pivotal quantity, и это именно оно: функция от данных и параметра, распределение которой не зависит от этого параметра. Это весьма ценное свойство по целому ряду причин, но прямо сейчас нам важна только одна:

2) Теперь мы получаем право в (1) заменить μ на любое наше гипотетическое значение μ₀ и смело заявить, что если нулевая гипотеза H₀: μ= μ₀ верна, то

Z = $\frac{(\bar X-\mu_0)\sqrt(N))}{\sigma}$ ~ N(0, 1) (2)

А сейчас внимание. В нашем распоряжении оказалась случайная величина, вероятностное «поведение» которой нам заранее известно, при условии, что H₀ верна. Что если рассчитанное по нашей выборке наблюдаемое значение z(X) окажется там, где мы вряд ли ожидаем его увидеть, если z действительно распределено как N(0,1)? Мы таким образом оказываемся в рамках той нехитрой логической конструкции, которая обсуждалась в §1. Увидев значение z(X) подозрительно далеко в хвосте стандартного нормального распределения (Рисунок 1), мы можем заключить, что произошло событие, которое, скорее всего, не должно было произойти, если Z имеет такое распределение.

На вопрос «почему так случилось?» можно дать два взаимоисключающих ответа: А) подстановка нашего μ₀ в (2) привела к тому, что Z имеет какое-то другое распределение, а это значит, что μ≠μ₀, и нулевая гипотеза не верна; Б) даже маловероятные события иногда случаются, поэтому существует возможность, что наши подозрения напрасны, так что отвергнув гипотезу, мы совершим ошибку первого рода (см. §1).

Вернемся к Рисунку 1. Попадание z(X) в зону правее порогового значения z_CRIT есть не что иное, как критическое событие, о котором говорилось в первой части. Интервал (z_CRIT, +∞) совершенно официально именуется критической областью или областью отвержения нулевой гипотезы. Выбирать значение z_CRIT каждый волен как ему вздумается, руководствуясь здравым смыслом и без оглядки на «best practice», традиции и прочие эзотерические вещи. Главное понимать, что этот выбор определяет вероятность попасть в критическую зону — уже знакомую нам α. Она же — вероятность совершить ошибку первого рода, так как z(X) может именно с такой вероятностью оказаться в этой зоне, если верно (2), т. е. если верна H₀.

Если z_CRIT в критическую область не попадает, т. е. если $z(X) \notin (z_{crit}, +\infty)$ , мы, вместо «нулевая гипотеза принимается», должны осторожно сказать что-то вроде «нулевая гипотеза не отвергается», «для ее отклонения нет серьезных оснований», и т. п. По крайней мере, так нас наставляют авторы учебников и редакторы научных журналов. Но гораздо важнее всей этой ритуальной семантики контекст задачи и, стало быть, наше осознанное решение о том, насколько серьезны должны быть эти «основания», и свое решение мы выражаем выбором α и, как следствие, выбором z_CRIT. Конечно, если вы академический ученый, то осторожные, консервативные формулировки придутся ко двору, так как они стоят на страже спокойствия научного сообщества (и вашей репутации). Но я не знаю, кто вы, поэтому и счел нужным написать этот абзац.

Почему критическую область мы выбрали в правом хвосте, а не где-то еще? Потому что при всех сделанных допущениях выражение (2) справедливо, только если H₀ верна. Если же верна альтернативная гипотеза H₁: μ> μ₀, про которую мы опять чуть не забыли, то статистика Z, как это следует опять же из свойств нормального распределения, будет все равно подчиняться нормальному закону с той же дисперсией σ²=1, однако ее математическое ожидание теперь окажется равным не нулю, а некоторой положительной величине Δ /(σ/√n) (где Δ=μ₁-μ₀ и μ₁ это истинное значение генерального среднего), так как теперь E()=μ₁. Распределение Z перемещается вправо, и тогда, выбрав другую критическую область, пусть и соответствующую тому же уровню значимости α, мы бы нанесли удар по мощности теста (см. Рис. 2).

Рисунок 2. Вверху: верна нулевая гипотеза. Внизу: верна альтернатива

Теперь вероятность события z(X)> z_CRIT равна уже не α (Рис 2, нижняя панель), а площади закрашенной желтым области под кривой справа от z_CRIT. Это вероятность отклонить ложную нулевую гипотезу, если на самом деле она не верна, а верно μ=μ₁. Это и есть мощность теста, 1-β. Площадь, закрашенная на этом рисунке голубым, является вероятностью ошибки второго рода, β. Концептуально эти понятия уже обсуждались в §1, не будем повторяться. Однако обратите внимание, что μ₁ это лишь одна точка из возможного множества точек, представляющих нашу альтернативу H₁: μ> μ₀. Поэтому очень полезно будет рассматривать мощность как функцию от возможных значений μ₁, а еще нагляднее — как функцию от величины эффекта, Δ=μ₁-μ₀ (Рис. 3). Очевидно, чем больше Δ, тем дальше вправо сдвигается альтернативное распределение z-статистики и тем больше мощность критерия.

Вспомним, что «сдвиг» произошел на величину Δ /(σ/√n), а значит он и, как следствие, мощность, зависят не только от Δ, но также от размера выборки n и дисперсии генеральной совокупности. Причем зависимость от дисперсии обратная — чем меньше σ², тем больше мощность при прочих равных, что согласуется с интуицией. Все эти факты намекают на возможность планировать эксперимент заранее. В частности, отвечать на вопросы типа «Какого размера выборку надо собрать, чтобы эффект не меньший, чем Δ, был обнаружен с вероятностью не меньше, чем 1-β, если уровень значимости равен α?». И этим мы еще обязательно займемся.

Скрытый текст

На Рисунке 2 мы изобразили плотности нулевого и одного из альтернативных распределений z-статистики на двух разных панелях, чтобы еще раз церемониально указать на их несовместность. В реальности верна либо гипотеза H₀ (Рис 2, верхняя панель), либо какая-то другая (Рис. 2, нижняя панель) — эти два варианта не являются двумя возможными результатами предстоящего случайного испытания, которым можно присваивать вероятности. Сформулировав гипотезы, вы уже сделали выбор, и теперь поручаете данным оценить, насколько этот выбор был близок к реальному (и фиксированному) положению вещей. Данные выскажут свое мнение вероятностным языком, так как вы добывали их случайным образом, как пресловутые разноцветные шары из корзины в задачниках по теории вероятностей. Но факт истинности или ложности гипотезы все это время остается неизменным и неслучайным. Например, подбрасывая монету, вы оставляете ее физические свойства неизменными, а ведь гипотеза H₀: P_орел=1/2 это по сути гипотеза о монете как о физическом объекте. Как уже говорилось, критиковать такую философию можно и нужно, но это тема для отдельного разговора.

Теперь мы почти готовы двигаться дальше. «Почти», потому нам осталось извлечь еще один, и очень страшный, скелет из шкафа классической статистики.

§3. P-value unmasked (и немного истории)

Сугубо техническая сторона дела выглядит очень просто. Как узнать, что вычисленное значение статистики теста, например z(X), оказалось в критической области? Можно, конечно, просто сравнить z_CRIT и z(X), и если z(X)> z_CRIT, то критическое событие произошло. Но можно поступить и по-другому: вычислить вероятность события z>z(X). На Рисунке 4 видно, что если эта вероятность оказалась меньше заранее выбранного уровня значимости α, то это также однозначно указывает на попадание статистики теста в область отвержения гипотезы.

Вероятность P(z>z(X)) получила бесхитростное название p-значение (p-value). И, казалось бы, на этом разговор о нем можно заканчивать. Но не все так просто, особенно если вспомнить, что речь идет о методах, разработанных в 1920-30 годах, когда у людей не было возможности быстро и точно вычислять значения любых функций распределения для произвольных точек. И в самом деле, p-value, детище вездесущего Р. Фишера, изначально не было задумано просто как инструмент, обслуживающий ту методологию, которую мы обсуждали до сих пор. И дело тут вовсе не в сложности вычислений, а в гораздо более принципиальных (и абстрактных) вещах. P-value было подано как альтернатива методу, который мы рассматривали до сих пор и который Фишер считал, ни много ни мало, антинаучным. По мнению Фишера, авторы этого метода, Е. Нейман и Э. Пирсон, отступились от научного метода, предложив механическое бинарное правило «отвергнуть / не отвергнуть» вместо того, чтобы дать ученым инструмент, точно измеряющий степень согласованности эмпирических данных с гипотезой, какой бы эта степень ни была, и оставляющий человеку возможность самому оценивать ее серьезность и принимать решение.

У Неймана и Пирсона, разумеется, нашлись свои веские контрагрументы. Спор получился на редкость громким и до неприличия жестким, и ни одна из сторон не вышла из него явным победителем. Озадаченная публика почесала в затылке и пришла к заключению, что по-своему прав и Фишер и его оппоненты. Все бы ничего, но это привело к тому, что со временем нюансы методологического спора забылись, и p-value стали воспринимать как неотъемлемую часть процедуры Неймана-Пирсона. Так родился странный гибрид, который сейчас очень часто преподносится как нечто само собой разумеющееся, и от которого поморщились бы и Фишер, и Нейман с Пирсоном.

Вообще, синтез противоборствующих идей нередко бывает полезным. Но здесь, похоже, не тот случай. Поэтому далее нам придется двигаться очень осторожно, чтобы не допустить путаницы. Итак, что же такое p-value, и как его интерпретировать?

1) Первый возможный ответ мы уже дали: это индикатор, показывающий, попала ли статистика теста в критическую область. Всё. Никаких Фишеровских «степеней согласованности», мы остаемся на уже знакомой территории методологии Неймана-Пирсона. Это вполне уважаемая позиция, и не надо бояться обидеть великого статистика.

2) Второй ответ: p-value – это, образно говоря, «линейка», измеряющая, насколько сильно отклонились данные от того, что ожидалось, если нулевая гипотеза верна. В самом деле, если его значение мало, близко к нулю, то это означает, что тестовая статистика настолько далеко заехала в маловероятную зону своего распределения при верной H₀, что дальше уже почти некуда — в том смысле, что еще более аномальный результат маловероятен. Это и есть идея Фишера в чистом виде. Мы не сравниваем p-value со значением α, не думаем о мощности и размере эффекта (альтернативная гипотеза вообще игнорируется). Мы просто смотрим на одно число, p-value, и пытаемся понять, что нам теперь думать о нулевой гипотезе.

На первый взгляд помирить спорщиков не так уж и сложно. В самом деле, почему бы не сказать, что важен не только факт преодоления критического порога статистикой теста, но и насколько далеко или близко от этого порога она оказалась? Или, если угодно, давайте вспомним наш шуточный пример из §1. Что если за окном мы увидели не просто небольшой мокрый снег с дождем, а настоящий снегопад по всем правилам, как в новогоднюю ночь? Другими словами, критическое событие происходит, просто оно выражено сравнительно более ярко. В этом случае очень хочется сказать совершенно естественную вещь: «тогда наша уверенность в том, что сейчас не лето, будет гораздо больше». Однако, если мы хотим оставаться последовательными, то так говорить нельзя! Потому что в выбранной нами классической парадигме мы даже не помышляем об измерении уверенности (этим занимается так называемая байесовская статистика, на которую мы намекали во врезке в §1, не назвав ее по имени) — вместо этого нас интересуют лишь вероятности получить те или иные данные при фиксированных и неслучайных гипотезах. Иронично, что Фишер, мягко говоря, не был приверженцем байесовского подхода, и прекрасно осознавал созданное им же противоречие. Он промучился с ним многие годы, но вопрос так и остался нерешенным.

Обратите внимание, что ни одна из двух озвученных выше интепретаций не говорит, что p-value – это вероятность ошибки первого рода. В рамках парадигмы Неймана-Пирсона такое утверждение было бы попросту абсурдным. Вероятность α фиксируется заранее и не может измениться в зависимости от того, что случилось с тестовой статистикой. Это установленное «правило игры», а не счет, с которым закончился конкретный матч. В качестве другой аналогии представьте себе, что лимит разрешенной скорости на участке дороги всякий раз менялся бы в зависимости от того, как быстро двигался мимо радара очередной автомобиль.

С версией Фишера все еще жестче. Она вообще не говорит об α. Это, конечно, не значит, что она отвергает саму возможность ошибиться. Но если бы Фишера нарядили в форму инспектора ГИБДД, он не стал бы никого штрафовать и, стало быть, беспокоиться, что штраф выписан несправедливо. Он просто смотрел бы на показания радара и пытался бы из увиденного сделать вывод о состоянии дороги и возможностях автомобилей у местного населения. Он предлагает нам мыслить индуктивно: от частных фактов о мире ко все более точному описанию этого мира по мере накопления фактов. Возня с квитанциями и судами ему противна. Для него фиксированной вероятности ошибки просто не существует. Если он изначально думал, что дорога тут плохая или местные автолюбители ездят на развалюхах, то увидев на радаре 120 км/ч, он заподозрит неладное о своем исходном мнении и, может быть, решит разобраться с вопросом более внимательно. А может быть, не решит, выбор за ним.

Но как бы то ни было, в обеих парадигмах утверждение о том, что p-value есть вероятность ошибки первого рода, логически несостоятельно. Представим себе ситуацию: мы вычислили p-value, и теперь, глядя на него, спрашиваем: «Какова теперь вероятность ошибки первого рода?». Другими словами, наш вопрос звучит так: «какова вероятность, что, если нулевая гипотеза верна, я ошибусь, если отвергну ее?». Но это очень странный вопрос. Если гипотеза в самом деле верна, то отвергая ее, я совершенно точно ошибусь, вероятность этого равна 1. И эта вероятность вообще никак не зависит от моей выборки и от того, что я по ней посчитал, в том числе от p-value.

Путаница «p-value / вероятность ошибки», возможно, вызвана тем, что слово «вероятность» (буква p в названии) инстинктивно хочется связать с чем-то уже знакомым, и тут вероятность ошибки первого рода очень удобно подворачивается под руку. Но это еще не самое страшное. Гораздо сильнее желание привязать вероятность к самой гипотезе, и вот с этим желанием бороться не в пример сложнее. Действительно, мы отвергаем нулевую гипотезу при «малом» значении p-value, и кому-то может показаться логичным, что это значение и есть вероятность, что H₀ верна. Но, во-первых, еще раз занудно повторим, что вероятности гипотез мы вообще не рассматриваем, так как считаем истинность/ложность гипотезы данностью. А во-вторых, даже если махнуть рукой на принципы и начать говорить о гипотезе как о случайном событии, все равно получается что-то нелепое. P-value вычисляется в предположении, что H₀ верна — напомним, что это вероятность получить такое же или еще более «подозрительное» значение статистики теста, если она действительно имеет заявленное при нулевой гипотезе распределение. Таким образом, речь идет о двух разных вопросах. Мы спрашиваем, чему равна вероятность события z(X)> z_CRIT при условии, что H₀ верна, и это не то же самое, что вероятность верности H₀при условии, что мы получили определенное значение статистики. В конце концов, нельзя безнаказанно менять местами «причину и следствие»: в общем случае P(A|B)≠P(B|A).

Напоследок упомянем еще один зловредный миф: p-value как мера размера эффекта Δ. Когда видишь очень малое значение p-value, есть соблазн заявить, что это свидетельство большой величины Δ. Возможно, тут будет уместна еще одна юридическая аналогия. Убедительность улик (малое p-value) ≠ тяжесть преступления (большая Δ). Можно собрать очень веские свидетельства в пользу того, что подсудимый… просто перешел улицу на красный свет. Аналогично, можно получить, например, p-value=0.001 просто потому, что в вашем распоряжении огромная выборка, и критерий, соответственно, демонстрирует очень высокую мощность — он чутко улавливает даже очень незначительное отклонение от нулевой гипотезы, т. е. его статистика с высокой вероятностью попадает в критическую область. А между тем, настоящее значение Δ может быть весьма малым и вообще не представлять для вас практического интереса. Так что главный конфликт здесь в том, что Δ есть фиксированный, хоть и неизвестный, факт, а p-value по своей природе изменчиво и зависит от данных. Мы снова видим уже знакомый сюжет: неслучайная детерминированная реальность против случайности данных. Отступление от этого принципа всякий раз ведет к разнообразным заблуждениям, бороться с которыми на удивление трудно, но приходится.

****

После такого полемического и, признаться, несколько сумбурного чтива, будет полезно оставить несколько ключевых тезисов:

P-value– это вероятность того, что значение тестовойстатистики могло бы быть больше (и/или меньше, в зависимости от альтернативной гипотезы), чем ее полученное фактическое значение, если нулевая гипотеза верна (смотрим Рисунок 4).
P-value можно использовать как механический индикатор попадания статистики теста в критическуюобласть, не придавая ему больше никаких дополнительных «интерпретаций». В таком ракурсе p-value оказываетсяпросто инструментом методологии Неймана-Пирсона, которую мы описывали в §1. Мы всего лишь сравниваем его с выбранным значением α, и на этом ставим точку.
Либо, следуя за Фишером, можно сказать, что это мера того, насколько данные согласуются с нулевой гипотезой. Чем меньше p-value, тем хуже данные поддерживают H₀. Можно попробовать сделать следующий шаг и сказать, что чем меньше p-value, тем сильнее мы уверены, что H₀ не верна. Звучит вполне естественно и логично, но следует помнить, что этоочень сомнительное утверждение, так как мы все еще находимся внутри парадигмы, в основе которой лежит представление о вероятности, как об «объективно» существующей величине, а не байесовской степени уверенности. Переход на байесовские рельсы с необходимостью повлечет за собой полную смену парадигмы, не только философской, но и математической, и в этих рамках для p-value места уже не найдется.
Такили иначе, ни в коем случае нельзя рассматривать p-value как вероятность ошибки, или как вероятность гипотезы. Это очень грубые логические ляпы, последствия которых могут быть весьма тяжелыми, даже без всякой философии. Не является p-valueи измерителем величины эффекта. Вообще, из неверных представлений о p-value можно составить длинный и веселый хит-парад. Вы без труда найдете множество статей на эту тему. Например, вот одна из наиболее полных. А вот ставшее уже знаменитым заявление Американской статистической ассоциации. Советую ознакомиться.

Продолжение следует

ссылка на оригинал статьи https://habr.com/ru/articles/1023932/