«Тупая жара»: почему мозг животных троттлит, как перегретый сервер

от автора

Жаркий июльский полдень. Кондиционеры в ЦОД перестают справляться, температура на входе в стойки ползёт вверх — и кластер один за другим уходит в троттлинг. Процессоры сбрасывают частоты, латентность растёт, ошибки множатся, а планировщик принимает всё более сомнительные решения.

И вот что любопытно: ваш перегретый кластер всего лишь воспроизводит очень древний баг. Тот же самый, что в жару накрывает мозги почти всех живых существ. Учёные набрали уже приличную статистику: в жару птицы хуже учатся, собаки чаще кусаются, а горные козлы устраивают драки. Мозг — это тоже вычислительный субстрат, и он точно так же троттлит при перегреве.

Живые системы уходят в троттлинг

В ЮАР живёт небольшая чёрно-белая птица — южная дроздовая тимелия (pied babbler). В прохладный день она за секунды соображает, что до лакомства за прозрачной перегородкой достаточно обойти стенку сбоку. Но стоит столбику термометра подскочить — и птица упрямо бьётся в преграду, так и не сообразив её обойти. Ровно так ведёт себя зависший процесс, который снова и снова повторяет одну и ту же неудачную попытку и не ищет обходного пути.

Самцы гуппи в тёплой воде (эквивалент лёгкой волны жары) заваливают прохождение лабиринта — даже когда в конце ждёт привлекательная самка. Награда максимальная, приоритет высокий, а пропускная способность всё равно падает. SLA не спасает от физики.

Механизм прозаичен: температура воздуха тянет за собой температуру мозга, а перегретые нервы работают хуже. Страдает всё — восприятие, память, обучение. Ровно как транзистор, вышедший за пределы теплового пакета.

Тихий враг: необратимая деградация

Самое неприятное, что перегрев вредит и после того, как жара спала. У мышей плохие результаты в «горячих» лабиринтах связаны с воспалением гиппокампа — центра памяти — и с гибелью нейронов. У мух, перегретых в раннем возрасте, во взрослом мозге меньше структур, отвечающих за обучение. А у рыб-чистильщиков после аномальной жары ключевой «когнитивный» отдел мозга заметно усох.

Инженеру ЦОД эта закономерность знакома не понаслышке — с железом всё устроено точно так же. Перегрев — это не только сиюминутный троттлинг, но и ускоренное старение компонентов, тихая порча данных и падение наработки на отказ. Железо, пережившее перегрев, — это уже немного не то же самое железо.

Природа изобрела охлаждение раньше нас

Дальше — самое интересное для облачного провайдера. Животные отлично справляются с терморегуляцией. Птицы раскрывают крылья и часто дышат с открытым клювом — чистое пассивное охлаждение, радиаторы и обдув. А пчёлы прямо в полёте набирают капельки воды и наносят их себе на голову, устраивая «конвекционное охлаждение мозга». Это же буквально испарительное и жидкостное охлаждение — то самое, к которому дата-центры пришли постепенно.

И тут же — важное наблюдение. Хуже всех приходится тем, кто не управляет собственной температурой: рыбам и насекомым. Их «производительность» целиком зависит от окружающей среды. Полная аналогия с железом без активного терморегулирования: пока в зале прохладно — всё летает, чуть потеплело — и система деградирует, потому что собственного контура охлаждения у неё нет.

Жара = борьба за ресурсы

Ещё один эффект жары — рост агрессии. Разбор почти 70 000 случаев укусов собак в США показал: в 90-градусный день (~32 °C) риск на 10% выше, чем в 60-градусный (~15 °C). А наблюдения за сернами в Апеннинах выявили закономерность: чем жарче, тем скуднее растительность и тем яростнее животные дерутся за оставшиеся кормовые участки.

Переведём на язык систем: при дефиците ресурсов под нагрузкой процессы начинают конкурировать друг с другом — взаимные блокировки, состояния гонки, каскадные отказы. Механика ровно та же, что у серн на склоне: ресурса на всех не хватает — начинается борьба.

И человек здесь не исключение. Ещё в XIX веке заметили, что число насильственных преступлений во Франции достигает пика летом; позже жару связали с ростом агрессии и числа ошибок у людей. Получается, что в жару деградирует не только железо в стойке, но и человек, который им управляет: в душной серверной оператор ошибается чаще — и это часть той же самой проблемы перегрева.

Мораль

Тепло — тихий враг надёжности, и это касается любых систем со сколько-нибудь сложной «вычислительной» начинкой: от мозга серны до вашего кластера. Природа решала задачу охлаждения естественным отбором, дата-центры — инженерными расчётами. Но итог один: и живой мозг, и дата-центр теряют производительность, как только охлаждение перестаёт справляться.

Поэтому в Cloud4Y охлаждение — не «приятное дополнение», а базовая инфраструктура наравне с питанием и сетью. Мозги (и процессоры) должны оставаться холодными.

По мотивам материала «They call it stupid hot for a reason: Heat muddles animal brains».

ссылка на оригинал статьи https://habr.com/ru/articles/1054848/