Не пики, а бассейны: почему эволюция — это блуждание по графу жизни

Не пики, а бассейны: почему эволюция — это блуждание по графу жизни

Каждый, кто хоть раз открывал школьный учебник биологии или читал научно-популярные статьи об искусственном интеллекте, сталкивался с классической и завораживающей метафорой: ландшафт приспособленности (fitness landscape).

Нам рисуют трёхмерную топографическую карту. На ней есть низины (плохие, нежизнеспособные комбинации генов), пологие склоны и величественные вершины — так называемые пики приспособленности. Популяция организмов или агентов генетического алгоритма изображается в виде кучки альпинистов. Ведомые безжалостным гидом по имени Естественный Отбор, они шаг за шагом карабкаются вверх по градиенту. Кто залез на самый высокий пик — тот венец творения, альфа-самец и триумфатор эволюции.

Эта картинка интуитивна, красива и… плохо работает на больших масштабах. Более того, если бы реальное пространство возможностей было устроено так, как на этих двухмерных графиках, эволюция на Земле завершилась бы, едва начавшись, намертво застряв на первой же кочке — в локальном максимуме.

Что если главный объект эволюции — это вообще не вершина? Что если природа играет в совершенно другую игру, где важна не высота горы, а архитектура проводящих каналов? Давайте отбросим старые метафоры, вооружимся статистической физикой неравновесных процессов, комбинаторикой и теорией графов, и совершим побег из этого «высокоразмерного» лабиринта.

Комбинаторный взрыв и геометрия пространства Хэмминга

Чтобы понять, где ломается школьная метафора, нужно осознать истинный масштаб эволюционного поля боя.

Давайте закодируем генетический текст. Пусть это будет не весь колоссальный геном человека, а скромный, изолированный функциональный участок ДНК или белок-кодирующий ген длиной нуклеотидов. Алфавит у нас четырёхбуквенный: A, C, G, T.

Каково полное число возможных последовательностей такой длины?

$\Omega = q^L = 4^{1000} \approx 10^{602}$

Для сравнения: в нашей видимой Вселенной насчитывается всего около $10^{80}$ атомов. Число $10^{602}$ невозможно визуализировать. Конфигурационное пространство жизни — это не просто «большой» объём, это невообразимая пустота, в которой отдельные работающие биологические последовательности распределены разреженнее, чем молекулы водорода в межгалактическом пространстве.

В дискретной математике такое пространство моделируется как граф Хэмминга $H_{q, L}$ . Каждая конкретная последовательность из 1000 букв — это вершина графа. Две вершины соединены ребром тогда и только тогда, когда они отличаются ровно на одну букву. В биологии это называется точечной мутацией.

Давайте встанем в любую точку (наш исходный работающий ген) и осмотримся. Сколько у нас ближайших соседей, до которых можно добраться за один мутационный шаг? Формула проста:

$K = (q - 1)L = (4 - 1) \times 1000 = 3000 \text{ вариантов}$

Каждый раз, когда организм копирует этот ген, мутационный шум может забросить его в одно из 3000 направлений. Но настоящая магия высокоразмерных пространств начинается, когда мы делаем несколько шагов. Для подсчёта числа состояний на определённом удалении физики используют шар Хэмминга радиуса :

$B_{q}(L,r)=\sum_{k=0}^{r}\binom{L}{k}(q-1)^{k}$

Давайте посчитаем, сколько вариантов гена находится от нас на расстоянии всего трёх мутаций () для ДНК ():

(1 шаг): $1 + 1000 \cdot 3 = 3001 \approx 3 \times 10^3$ вариантов
(2 шага): $1 + 3000 + \binom{1000}{2} \cdot 3^2 \approx 4.5 \times 10^6$ вариантов
(3 шага): $B_4(1000, 3) \approx 4.5 \times 10^9$ вариантов

Вдумайтесь: на расстоянии всего трёх опечаток от одного небольшого участка ДНК длиной 1000 нуклеотидов лежит число вариантов, сопоставимое с населением всей нашей планеты.

Огромная часть этого комбинаторного океана — абсолютно мёртвая, токсичная пустыня. Мутации в подавляющем большинстве случаев ломают структуру белка, превращая молекулярную машину в бесформенный комок химического мусора. Но из-за того, что размерность пространства колоссальна, даже если жизнеспособной остаётся ничтожная доля процента вариантов, в абсолютных числах мы получаем миллионы альтернативных рабочих путей.

Шар Хэмминга вокруг исходной последовательности . Радиус задаёт число позиций, в которых последовательность может отличаться от . Даже для небольшого числа мутационных шагов размер окрестности растёт комбинаторно: для участка ДНК длиной уже при в шаре лежит порядка $4{,}5\times 10^9$ последовательностей. Важно, что это ещё не жизнеспособный бассейн, а только геометрическая окрестность возможных вариантов.

Парадокс выживания: Приспособленность против Проводимости

И вот здесь на сцену выходят два геометрических свойства, которые фатально путают в классических дискуссиях об эволюции: Приспособленность (Fitness) и Проводимость (Conductivity).

Приспособленность () — это локальный параметр. Он отвечает на вопрос: «Насколько эффективен данный конкретный организм в данной точке среды прямо сейчас?» Fitness — это то, что видит и фильтрует естественный отбор в режиме реального времени. Это «качество жизни» сегодня.
Проводимость ( $\rho$ ) — это топологический параметр окрестности. Математически мы можем определить его как долю жизнеспособных соседей среди всех возможных одношаговых мутаций в подграфе жизнеспособности :

$\rho(x) = \frac{|\{y \in V : d_H(x,y)=1\}|}{(q-1)L}$

Представьте две эволюционные конфигурации (два генотипа):

Генотип А («Острый шпиль»): Обладает феноменальным уровнем приспособленности ( $F \to \max$ ). Организм работает как идеальные швейцарские часы. Но его топологическая проводимость ничтожно мала ( $\rho \approx 0$ ). Любая микроскопическая опечатка при копировании ДНК приводит к летальному исходу. Вокруг этого шпиля — выжженная земля.
Генотип Б («Широкое плато»): Его приспособленность средняя, он работает чуть хуже, тратит чуть больше энергии. Но его проводимость высока. Это значит, что из 3000 его мутационных соседей значительная часть вариантов остаётся живыми, функциональными и способными размножаться.

Сиюминутный отбор всегда выберет Генотип А — он эффективнее прямо сейчас. Но в долгосрочной исторической перспективе Генотип А обречён. Стоит среде минимально измениться, популяции со шпиля нужно сделать шаг в сторону, чтобы адаптироваться. Она делает шаг — и мгновенно вымирает из-за хрупкости окрестности.

Генотип Б в это время спокойно дрейфует по своей сети. Его популяция накопляет мутации, которые биологи называют нейтральными. Внешне организмы могут не меняться, но их геномы расползаются по бассейну жизнеспособности — огромному связному подграфу в пространстве Хэмминга. И когда мир вокруг меняется, у популяции Б в закромах уже лежат тысячи проверенных, живых вариантов.

Fitness говорит о настоящем. Проводимость — о будущем. Точка с высокой проводимостью сохраняет за популяцией возможность отвечать на новые, ещё не возникшие вызовы среды.

Перколяция: как из случайной пыли сшиваются эволюционные материки

Но откуда берутся эти гигантские тоннели в мёртвом пространстве вариантов? Почему они вообще связны? Чтобы ответить на этот вопрос, физики используют теорию перколяции (протекания).

Давайте построим строгую «игрушечную модель» (toy model) на компьютере. Возьмём уменьшенный гиперкуб — пространство Хэмминга для строк длины при алфавите . Всего в нашей скромной вселенной будет $4^8 = 65\,536$ вершин. У каждой вершины ровно $(4-1)\times 8 = 24$ соседа.

Теперь запустим процесс: будем объявлять вершины «жизнеспособными» случайным образом с фиксированной вероятностью . Все остальные вершины закрасим чёрным — это мёртвая зона.

Если ничтожно мало, наши живые точки — это редкая, изолированная пыль, разбросанная по гиперкубу. Случайное блуждание популяции на таком графе невозможно: любой шаг с живой вершины с огромной вероятностью ведёт на мёртвую территорию. Эволюция заперта в клетке исходного генотипа.
Мы начинаем плавно увеличивать . Добавляем живые вершины. Островки начинают расти, но всё ещё остаются изолированными архипелагами.
И вдруг, при достижении критического значения , происходит фазовый переход — порог перколяции. В одну долю секунды изолированные лужицы «сшиваются» вместе, и по всему гиперкубу прорастает Гигантский связный кластер (Giant Connected Component, GCC). Появляется непрерывный лабиринт, по которому можно пройти из одного конца пространства в другой.

В пространствах высокой размерности порог перколяции наступает фантастически рано. Для больших систем его аналитическая оценка приближается к величине:

$p_c \approx \frac{1}{(q-1)L}$

Для реального белкового домена или участка ДНК длиной нуклеотидов при алфавите ДНК () порог перколяции составляет всего:

$p_c \approx \frac{1}{3 \times 100} \approx 0.0033 \quad (0.33\%)$

Это ошеломляющий вывод. Жизни не нужно, чтобы конфигурационное пространство было заполнено хорошими вариантами. Достаточно, чтобы всего несколько вариантов из тысячи были жизнеспособными. При такой смешной плотности геометрия высокой размерности автоматически гарантирует появление гигантских бассейнов проводимости. Жизнь течёт по многомерным капиллярам.

Две оптики эволюционного ландшафта. Слева показана классическая статическая картина адаптивного ландшафта: каждая точка имеет приспособленность , а эволюция часто представляется как движение к локальному пику. Справа показана кинетическая картина: популяция блуждает внутри жизнеспособного бассейна и редко находит выход к новому бассейну . В этой постановке барьер может быть не энергетическим, а топологическим или энтропийным: если доля выходных мутаций равна , то $\Delta S_{\mathrm{top}}=-\ln b_A$ , а характерное время выхода масштабируется как $\tau_{A\to B}\sim \frac{1}{N_e\mu b_A P_{\mathrm{fix}}}$ . Иными словами, геометрия бассейна превращается во время эволюционного ожидания.

Эволюция как задача Крамерса: Топологический Барьер

Хорошо, у нас есть гигантские связные бассейны. Как популяция движется по ним во времени? Как происходят великие эволюционные прорывы — появление нового фенотипа или метаболического пути?

В физике неравновесных процессов есть классическая задача Крамерса. Представьте себе тяжёлую частицу, лежащую на дне потенциальной ямы. Рядом находится ещё более глубокая яма, но они разделены высоким энергетическим барьером $\Delta U$ . Время от времени тепловые флуктуации (шум ) толкают частицу, и случается редкое событие выхода. Среднее время ожидания такого перехода (escape time) описывается формулой:

$\tau_{\text{Kramers}} \sim \exp\left(\frac{\Delta U}{D}\right)$

Переведём эволюцию на язык задачи Крамерса, но перевернём физический смысл барьера.

В бассейне жизнеспособности популяция не испытывает энергетического сопротивления — мутации внутри бассейна нейтральны, отбор их не подавляет. Барьер в эволюционной задаче — не энергетический, а энтропийно-топологический.

Представьте, что внутри гигантского бассейна есть лишь крошечная группа вершин , которые граничат с другим эволюционным режимом . Множество — это поглощающая граница. Популяция совершает случайное блуждание по бассейну . Её «тепловой шум» — это мутационное давление, определяемое эффективным размером популяции и скоростью мутаций $\mu$ .

Какова вероятность, ткнувшись наугад, попасть именно в эту дверь? Она определяется геометрическим параметром — долей выходных мутаций. Если вокруг нас направлений, а к выходу ведёт только часть, то $b_A = m_{\text{out}} / (q-1)L$ .

Мы можем определить высоту топологического барьера через энтропию доступных путей:

$\Delta S_{\text{top}} = -\ln b_A$

Тогда фундаментальное время ожидания эволюционной инновации (время первого достижения границы, First-Passage Time) приобретает чистую крамерсовскую форму:

$\tau_{A\to B} \sim \frac{1}{N_e \mu P_{\text{fix}}} \exp(\Delta S_{\text{top}}) = \frac{1}{N_e \mu b_A P_{\text{fix}}}$

где $P_{\text{fix}}$ — вероятность фиксации возникшего варианта.

Мы застреваем в биологических эпохах стагнации не потому, что впереди гора, а потому, что комната возможностей огромна, а замочная скважина к новому признаку — микроскопическая. Эволюционные эпохи — это топология, превращённая во время.

Эффект извилистого русла: когда геометрия тормозит историю

Но реальность ещё интереснее. Базовая формула Крамерса предполагает, что внутри бассейна популяция перемешивается мгновенно. То есть она одинаково часто бывает во всех точках бассейна, и средняя плотность выходов по всему объёму одинакова. Но если мы приближаемся к порогу перколяции $p \to p_c$ , структура бассейна драматически меняется. Из плотного, монолитного материка он превращается в изрезанную, ветвистую и пористую губку. В физике этот режим порождает эффект критического замедления (critical slowing down). Время релаксации (перемешивания) популяции внутри лабиринта $\tau_{\text{mix}}$ устремляется в бесконечность. Бассейн изобилует «карманами», тупиковыми длинными коридорами и узкими горлышками. Популяция попадает в такой карман и может крутиться там тысячи поколений, где локальная доля выходов равна нулю. Математически, спектральный зазор $\lambda_1$ дискретного лапласиана стремится к нулю, блокируя быструю диффузию. Что это значит для биологии? Представьте два разных вида организмов. У них одинаковый размер популяций , одинаковая скорость мутаций $\mu$ , и одинаковое среднее число выходов наружу.

Но у Вида №1 бассейн — плотный и хорошо проводящий. Они перемешиваются мгновенно и находят выход быстро.
А у Вида №2 бассейн из-за особенностей архитектуры графа оказался извилистым лабиринтом. Они застревают в кинетических ловушках и будут искать ту же самую дверь в тысячи раз дольше.

Геометрия подменяет собой хронологию. Скорость исторического развития жизни продиктована тем, насколько «гладкими» или «рыхлыми» оказались связные тоннели в пространстве вариантов.

Слабый отбор внутри бассейна: кинетические ловушки

До сих пор мы считали блуждание внутри бассейна полностью нейтральным. Однако в реальности даже внутри жизнеспособной зоны существуют небольшие флуктуации приспособленности . Это превращает задачу в диффузию в слабом потенциале.

Мы можем задать переходные вероятности с учётом интенсивности отбора $\beta$ :

$P_{xy}=\frac{\mathbb{1}_{\{y\in A, d_H(x,y)=1\}}\exp[\beta F(y)]}{\sum_{z\in A, d_H(x,z)=1}\exp[\beta F(z)]}$

При наличии отбора стационарное распределение популяции смещается. Она больше не посещает вершины равновероятно, а «стекает» в области с большим локальным фитнесом:

$\pi(x) \propto \exp[\beta F(x)]$

Это приводит к важнейшему физическому выводу: эффективная доля выходов становится взвешенным средним $b_{A}^{\text{eff}} = \sum \pi(x) b(x)$ . Отбор может работать как ускоритель, так и как жесткий тормоз эволюции.

Если точка обладает великолепным локальным фитнесом, но ребра из неё не ведут к поглощающей границе ( $m_{\text{out}} = 0$ ), отбор намертво заперет популяцию в этой координате. Популяция попадет в кинетическую ловушку. Она будет идеально приспособлена к текущему моменту, но топологически слепа и лишена будущего.

Как это выглядит в реальности? Пример из мира РНК-молекул

Чтобы всё это не казалось чистой абстракцией из области теоретической физики, давайте спустимся на уровень реальных молекул, которые изучают биоинформатики. Идеальный полигон для проверки этой теории — вторичная структура РНК.

РНК — это строка из четырёх букв (A, U, G, C). Линейная строка — это генотип. Но чтобы выполнять работу в клетке (например, резать другие молекулы, как рибозим), нить РНК должна свернуться в пространстве в замысловатую фигуру с петлями, шпильками и узлами. Эта укладка — фенотип.

Учёные из Института Санта-Фе (Андреас Вагнер, Питер Шустер) годами гоняли суперкомпьютерные симуляции, сворачивая миллионы случайных РНК-последовательностей. И они обнаружили ровно то, о чём говорит наша модель:

Пространство асимметрично: Существует гигантское количество «мусорных» фенотипов, в которые сворачивается пара-тройка случайных строк. Но есть несколько «мажорных» структур (планов строения), к которым приводят миллионы совершенно разных последовательностей.
Нейтральные сети пронизывают пространство: Если взять РНК с мажорной структурой и начать менять в ней буквы по одной так, чтобы форма укладки не менялась, вы обнаружите, что можете уйти по этому графу на противоположный конец генетической Вселенной! Вы полностью перепишете исходный текст, заменив 90% букв, но молекула будет упорно сворачиваться в ту же самую рабочую форму.
Окрестности пересекаются: Самое потрясающее открытие заключалось в том, что гигантские бассейны разных мажорных фенотипов в пространстве Хэмминга не изолированы друг от друга. Они переплетены как многомерные спагетти. Блуждая по бассейну структуры А, вы почти всегда проходите вплотную (на расстоянии одной мутации) от границ бассейнов структур Б, В и Г. Замочные скважины инноваций всегда рядом, нужно только до блуждать до правильного перекрестка.

Почему это уже известно — и где здесь новая идея

Здесь нужно сразу сделать честную оговорку. Картина, о которой идёт речь, не появляется из пустоты и не является новой эволюционной теорией.

В специальной литературе близкие идеи давно существуют под разными названиями: нейтральные сети, генотипические сети, дырявые адаптивные ландшафты (holey adaptive landscapes), перколяция на ландшафтах приспособленности, robustness и evolvability. У Гаврильца близкая идея появляется в языке дырявых адаптивных ландшафтов: высокоприспособленные генотипы в большой размерности могут соединяться в протяжённые сети. У Вагнера похожий акцент сделан на genotype networks и их роли в появлении эволюционных инноваций. Здесь я использую эту линию как основу, но смещаю популярную метафору: от поиска вершин к анализу бассейнов проводимости.

Поэтому здесь нет открытия новой математики. Но есть важный сдвиг акцента, ради которого, мне кажется, и стоит писать эту статью.

В классической картине ландшафта приспособленности тоже говорят о «бассейнах притяжения». Но обычно это бассейны вокруг пиков: область состояний, из которых популяция при данном правиле движения приходит к локальному максимуму. Главным героем всё равно остаётся вершина. Бассейн важен постольку, поскольку он ведёт к ней.

Здесь центр тяжести другой.

Бассейн важен не потому, что он ведёт к пику, а потому что он сам является областью высокой проводимости. Его ценность не в конечной вершине, а в том, сколько жизнеспособных путей он держит открытыми, насколько далеко внутри него можно блуждать малыми шагами и сколько новых возможностей из него вырастает.

В старой метафоре бассейн обслуживает пик. В этой картине пик становится лишь частным элементом внутри более важного объекта: связной, проводящей области жизнеспособности.

Именно здесь, как мне кажется, находится главный поворот.

Если смотреть на эволюцию через пики, главный вопрос звучит так:

какая форма лучше всего приспособлена сейчас?

Если смотреть через бассейны проводимости, вопрос меняется:

в какой области пространства жизнь может долго продолжать движение?

	Картина пиков	Картина бассейнов
Главный объект	Локальный максимум приспособленности	Связная область жизнеспособности
Главный вопрос	Какая форма лучше работает сейчас?	В какой области можно продолжать движение?
Что измеряем	Текущую приспособленность	Проводимость, связность и число продолжений
Образ движения	Подъём к вершине	Блуждание внутри проводящей области
Роль отбора	Усиливает более успешные варианты	Фильтрует переходы внутри уже заданного графа
Образ будущего	Достижение локального оптимума	Сохранение пространства будущих ходов

Это не отменяет классическую картину, но меняет её масштаб и приоритеты. Пик говорит о текущем выигрыше. Бассейн говорит о будущем: сколько безопасных ходов остаётся, насколько далеко можно уйти без разрушения системы и есть ли из этой области выходы к новым режимам.

Поэтому задача этой статьи — не открыть новую математическую биологию, а перевести уже известные идеи нейтральных сетей и дырявых ландшафтов в образ, который меняет популярную интуицию об эволюции.

В массовом изложении всё ещё доминирует картинка подъёма на пик приспособленности. Есть вершина, есть отбор, есть движение вверх. Эта метафора полезна, но она незаметно делает главным объектом эволюции отдельную точку: самый приспособленный вариант, локальный максимум, оптимальное решение для данной среды.

Если же смотреть на пространство геномов как на высокоразмерный граф, главным объектом становится не вершина, а связная область. Не пик, а бассейн. Не максимальная точка, а проводящая компонента жизнеспособных состояний.

Отбор в такой картине не исчезает. Он остаётся реальным и важным фильтром: меняет вероятности переходов, усиливает одни траектории и закрывает другие. Но он действует уже внутри некоторой геометрии возможностей. Он не создаёт весь граф, не задаёт его размерность и не объясняет полностью, почему одни области оказываются широкими и проводящими, а другие — узкими и хрупкими.

Похожая логика возникает и за пределами биологии. В физике неупорядоченных систем важна не только энергия отдельного состояния, но и связность доступных переходов. В задачах перколяции нас интересует не просто доля занятых узлов, а момент, когда они образуют большую связную компоненту. В современных нейронных сетях похожий сдвиг произошёл в понимании loss landscape: хорошие решения часто оказываются не изолированными минимумами, а широкими связными областями низкой ошибки.

Конечно, это не буквальное отождествление. Жизнеспособность организма, энергия физической системы и ошибка нейросети — разные вещи. Но геометрический вопрос похож: как устроено множество допустимых состояний в пространстве огромной размерности? Оно распадается на изолированные точки или образует широкие связные области?

В этом смысле я предлагаю говорить не столько о пиках, сколько о бассейнах. Не потому что пики не существуют, а потому что для долгой эволюции может быть важнее не высота отдельной точки, а форма области, в которой жизнь способна продолжать движение.

В старой картине бассейн ведёт к пику. В этой картине бассейн ценен сам по себе — как область, где у жизни остаётся будущее.

Философский итог: великий слепой фильтр

Упрощённая популярная версия дарвинизма часто звучит так: мир устроен жёстко, выживает сильнейший, а отбор постепенно создаёт совершенство.

Наша физико-геометрическая оптика предлагает гораздо более глубокий взгляд. Отбор — это не скульптор, который высекает форму из мрамора. Отбор — это просто грубый фильтр, который смывает совсем уж недееспособный брак. Он не создает направления движения, он лишь очерчивает границы бассейна.

Направленность большой эволюции и само существование длительной истории жизни — это следствие внутренней геометрии конфигурационного пространства.

История выигрывается не на пиках. Она выигрывается в широких, устойчивых к ошибкам бассейнах проводимости. Трилобиты были идеальными хозяевами палеозойских морей. Они создали роскошную систему высокоприспособленных пиков. Но их морфологический бассейн оказался изолированным тупиком. Среда изменилась, шпили обрушились, и они исчезли навсегда. Динозавры выстроили колоссальную империю адаптации, но когда мезозойская проводящая зона закрылась, их гигантские пики превратились в ловушки. Выжить смогла лишь одна ветка, успевшая нащупать узкий перколяционный выход, — птицы. Первые хордовые в кембрийском периоде не выглядели как венец творения. Но их план строения (хорда, осевая организация) обладал феноменальной топологической проводимостью. Из этого бассейна без катастрофических поломок системы последовательно развились и рыбы, и амфибии, и млекопитающие.

Жизнь продолжается не потому, что она идеальна. Она возможна потому, что в конфигурационном пространстве существуют редкие острова высокой проводимости, где малые изменения чаще продолжают траекторию, чем уничтожают её.

А теперь давайте перекинем мост в соседние дисциплины. Айтишникам, эта картина должна казаться до боли знакомой. Ведь loss landscapes при обучении глубоких нейросетей устроены похожим образом: локальные экстремумы — это кошмар для оптимизации, и современные сети обучаются именно потому, что в пространствах высокой размерности минимумы вырождаются в широкие, связные «долины проводимости».

ссылка на оригинал статьи https://habr.com/ru/articles/1038576/