Математика объясняет, почему нормальное распределение встречается повсюду

Центральная предельная теорема зародилась как барный трюк для азартных игроков XVIII века. Сегодня учёные пользуются ею каждый день

Куда бы вы ни посмотрели, вы везде наткнётесь на похожую на колокол кривую – кривую нормального распределения.

Поставьте мерный стакан у себя во дворе и записывайте уровень воды после каждого дождя: ваши данные будут соответствовать кривой нормального распределения. Запишите предположения 100 человек о количестве желейных конфет в банке — они тоже будут следовать кривой нормального распределения. Измерьте рост достаточно большого числа женщин, вес многих мужчин, результаты экзаменов, время, за которое бегуны пробегают марафон — вы всегда получите ту же гладкую, округлую кривую, сужающуюся к краям.

Почему кривая нормального распределения появляется в таком количестве наборов данных?

Ответ сводится к центральной предельной теореме — математической истине, настолько мощной, что новичкам она часто кажется невозможной, словно фокус природы. «Центральная предельная теорема удивительна тем, что она настолько неинтуитивна и неожиданна», — говорит Даниэла Уиттен, биостатистик из Вашингтонского университета. Благодаря ей самый невообразимый хаос может обернуться поразительной предсказуемостью.

Сегодня она является опорой, на которой держится большая часть современной эмпирической науки. Практически каждый раз, когда учёный использует измерения, чтобы сделать выводы о мире, центральная предельная теорема скрыта где-то в методах. Без неё науке было бы трудно с какой-либо уверенностью говорить о чём-либо.

«Я не думаю, что без центральной предельной теоремы существовала бы такая область знаний, как статистика, — сказал Ларри Вассерман, статистик из Университета Карнеги-Меллон. — Она охватывает всё».

Чистота из порока

Пожалуй, неудивительно, что стремление найти закономерности в хаосе зародилось именно в сфере азартных игр.

В лондонских кофейнях начала XVIII века математический талант Абрахама де Муавра был очевиден. Многие его современники, в том числе Исаак Ньютон и Эдмонд Галлей, признавали его гениальность. Де Муавр был членом Королевского общества, но он также был беженцем — французом, который в молодости покинул свою родину из-за преследований протестантов. Как иностранец, он не мог получить стабильную академическую должность, достойную его таланта. Поэтому, чтобы оплачивать счета, он стал консультантом для игроков, стремившихся получить преимущество при помощи математики.

Абрахам де Муавр одним из первых стал проводить математические исследования в области азартных игр.

Подбрасывание монеты, бросок кубика и вытаскивание карты из колоды — это случайные действия, у которых каждый из исходов одинаково вероятен. Де Муавр понял, что при объединении множества случайных действий результат подчиняется определённой закономерности.

Подбросьте монету 100 раз и посчитайте, сколько раз выпал орёл. Число будет где-то около 50, но не очень точно. Повторите этот эксперимент 10 раз, и вы можете получить 10 разных результатов.

Теперь представьте, что вы играете в эту игру 1 миллион раз. Большинство результатов будет близко к 50. Вы почти никогда не получите менее 10 орлов или более 90. Если вы построите график, показывающий, сколько раз вы видите каждое число от нуля до 100, вы увидите классическую форму колокола с 50 в центре. Чем больше раз вы играете в эту игру, тем более плавным и чётким становится этот колокол.

Де Муавр вычислил точную форму этой кривой, которую позже назвали нормальным распределением. Она позволяла ему, без необходимости фактически играть в игру, определять вероятность различных исходов. Например, вероятность получить от 45 до 55 орлов составляет около 68%.

Де Муавр с почти религиозным упорством восхищался «непоколебимым порядком вселенной», который в конечном итоге преодолевал любые отклонения от колокола. «Со временем, — писал он, — эти нерегулярности станут ничтожными по сравнению с повторяемостью того порядка, который естественным образом вытекает из первоначального замысла».

Книга «Доктрина вероятностей», впервые изданная в 1718 году, стала первым учебником по теории вероятности. Во втором издании, вышедшем в 1738 году, были представлены работы, которые впоследствии привели к формулировке центральной предельной теоремы.

Он использовал эти идеи, чтобы прожить скромную жизнь в Лондоне, написав книгу под названием «Доктрина вероятностей», которая стала библией для азартных игроков, и проводя неформальные консультации в знаменитом кафе Old Slaughter’s Coffee House. Но даже де Муавр не осознавал всего масштаба своего открытия. Только когда Пьер-Симон Лаплас развил эту идею в 1810 году, спустя десятилетия после смерти де Муавра, был раскрыт весь её потенциал.

Возьмём пример, чуть более сложный, чем подбрасывание монеты: броски кубика. Каждый бросок кубика имеет шесть одинаково вероятных исходов. Если вы будете многократно бросать кубик и подсчитывать результаты, вы получите график, который будет выглядеть плоским — вы обязательно увидите примерно столько же бросков с результатом 1, сколько с результатом 2, 4 или 6.

Теперь бросьте этот кубик 10 раз и вычислите среднее значение. Скорее всего, вы получите примерно 3,5. Повторите эксперимент ещё много раз и постройте график всех результатов. Вы получите кривую нормального распределения, пик которой находится на отметке 3,5, с чётко определённой структурой по обеим сторонам.

В этом и заключается магия центральной предельной теоремы. Вы начали с распределения возможных результатов, которое не имеет никакой структуры — равные шансы выпадения от 1 до 6. Но, взяв среднее значение из множества измерений, а затем повторив этот процесс снова и снова, вы получаете точную, предсказуемую математическую структуру: кривую нормального распределения.

Лаплас сформулировал эту структуру в виде простой формулы, которая впоследствии стала известна как центральная предельная теорема. Каким бы нерегулярным ни был случайный процесс, даже если его невозможно смоделировать, среднее значение множества результатов имеет распределение, описанное этой теоремой. «Это действительно мощный инструмент, потому что он означает, что нам не нужно заботиться о том, каково распределение величин, по которым вычисляется среднее, — сказала Уиттен. — Важно только то, что само среднее значение будет подчиняться нормальному распределению».

Универсальный инструмент

Усреднение может показаться чем-то, доступным только человеку, но центральная предельная теорема незаметно применяется ко всему, что мы наблюдаем в мире, например, к росту людей. «Рост человека может зависеть от роста его отца, роста его матери, генетики, питания и всех этих мелких факторов, которые складываются друг с другом», — сказал Джеффри Розенталь, статистик из Университета Торонто. Эти факторы не связаны друг с другом (как правило, рост вашего отца не имеет никакого отношения к тому, что вы едите). «Это похоже на усреднение множества мелких факторов», — сказал Розенталь, и именно поэтому рост приблизительно следует нормальному распределению.

Даниэла Уиттен, биостатистик из Вашингтонского университета.

Именно поэтому самые разные наборы данных, кажется, спонтанно принимают эту прекрасную форму. «Везде, где за кулисами скрывается среднее значение, если это среднее по достаточному количеству данных, вы в итоге получите нормальное распределение», — сказала Уиттен.

Эта теорема также даёт статистикам возможность определить, когда происходит что-то подозрительное. Допустим, вы пьёте кофе в Old Slaughter’s, когда один из посетителей протягивает вам монету и делает ставку, что вы не сможете 45 раз из ста выбросить её орлом. Вы пробуете и получаете только 20 орлов. Как определить, не дал ли он вам монету с секретом, и является ли процесс не таким случайным, как обычно? Благодаря центральной предельной теореме вы знаете, что числа до 20 охватывают лишь 0,15% колокола, так что вероятность того, что честная монета даст столь плохой результат, составляет всего 0,15%. Вас почти наверняка обманывают.

В этом и заключается истинная сила формулы Лапласа. Он знал, что усреднение любого процесса даёт вам кривую нормального распределения, которая позволяет сделать выводы об этом процессе, не зная никаких глубинных подробностей того, как он работает.

Обращаться с осторожностью

Несмотря на свою центральную роль в современной науке, центральная предельная теорема имеет свои собственные ограничения. Она работает только тогда, когда вы объединяете много выборок, и эти выборки должны быть независимыми. Если это не так — например, если вы проводите общенациональный опрос по выборам президента только в одном маленьком городке в штате Мэн — повторение эксперимента не приблизит вас к ожидаемой кривой нормального распределения.

Иногда в науке аномальные значения могут оказаться важнее средних. «Столетние наводнения вдруг стали происходить чаще, — говорит Ричард Д. Де Во, специалист по прикладной статистике из Уильямс-колледжа. — В наши дни моделирование экстремальных явлений, вероятно, не менее важно, чем моделирование средних значений».

К счастью, идея, лежащая в основе центральной предельной теоремы — сила и надёжность средних значений — широко используется для расширения возможностей статистики. Статистики часто формулируют версию центральной предельной теоремы для той конкретной задачи, над которой они работают. «Есть довольно много сложных областей науки, где, если поразмыслить, можно перевести всё в формулу среднего по выборке плюс некоторая погрешность», — сказал Вассерман. В таких случаях можно использовать вариант этой теоремы, чтобы упростить задачу.

Центральная предельная теорема служит опорой современной науки прежде всего потому, что она отражает устройство окружающего нас мира. Когда мы объединяем множество независимых измерений, мы получаем кластеры. И если мы достаточно умны, мы можем использовать эти кластеры, чтобы узнать что-то интересное о процессах, которые их сформировали.

ссылка на оригинал статьи https://habr.com/ru/articles/1023990/