Вступление и заметка об автоскейлинге
В прошлой статье я допустил неточность, сказав, что prefork это один из пулов, к которому применим autoscale. Точнее было бы сказать, что prefork — единственный пул c которым есть смысл использовать автомасштабирование Celery. Сами авторы Eventlet не скупятся на зеленые потоки и по умолчанию создают 1000 потоков.
Механизм autoscale технически реализован и для Eventlet, и для Gevent, но на практике бесполезен: в отличие от процессов и системных потоков(threading) новые гринлеты почти не увеличивают нагрузку на систему. Не нужно переключать контекст, мигрировать по ядрам и вставать в очередь к планировщику. Не вытесняющая, а кооперативная многозадачность: зеленые потоки добровольно уступают контроль в точках, где происходит операция ввода-вывода (I/O). Конечно, есть и обратная сторона медали: если один из потоков не в состоянии уступить ресурс, то это может привести к остановке всего воркера.
Примечание: Далее слова гринлет, поток, зелёный поток будут использоваться как синонимы. Если понятие будет касаться ОС, то к нему будет добавлено системный.
Gevent vs. Eventlet
Важное примечание
Согласно официальной документации Eventlet, разработка новых проектов на Eventlet не рекомендуется. Проект сейчас находится в режиме поддержки и исправления ошибок. Для новых приложений авторы советуют использовать, а старым проектам — мигрировать на asyncio. В контексте же Celery можно мигрировать на Gevent.
|
|
Gevent |
Eventlet |
|---|---|---|
|
Реализация |
|
Чистый Python |
|
Производительность |
Ожидается выше из-за C для 10k+ потоков |
Медленнее при очень высоких нагрузках |
|
Hub(координация гринлетов) |
Скрыт от пользователя |
Можно переключить (eventlet.hubs.use_hub()) |
|
Monkey patch |
Агрессивный, но более гибкий |
Консервативный |
|
Статус* |
Де-факто стандарт(6.4k stars) |
Только поддержка(1.3k stars). |
|
Стабильность |
Реже встречаются критические сбои |
* - количество звёздочек актуально на май 2026 года.
Основное различие между двумя библиотеками кроется в их внутреннем планировщике (event loop) и реализации. Отсюда же и разница в производительности, патчинге и совместимости.
Hub’s
Хаб (Hub) — это центральный планировщик, который реализует событийный цикл (event loop). Он занимается мониторингом I/O-операций, управляет таймерами и диспетчеризирует события нужным обработчикам.
У Eventlet есть четыре реализации хаба, которые выбираются автоматически в порядке epoll → poll → select. Хаб выбирается в зависимости от системы(см. таблицу), но вы можете выбрать хаб вручную, в том числе и AsyncioHub, который здесь рассматривать не будет, так как асинхронность редко используется внутри Celery-задач. Главная причина для выбора конкретного хаба — это оптимизация производительности под платформу и нагрузку.
|
Характеристика |
SelectHub |
PollHub |
EpollHub |
AsyncioHub |
|---|---|---|---|---|
|
Кроссплатформенность |
Да |
Только Unix |
Только Linux |
Да |
|
Системный вызов |
|
|
|
Цикл событий Python |
|
Производительность |
Наименьшая |
Хорошая |
Отличная (сложность O(1)) |
Хорошая, на уровне |
|
Макс. кол-во FD |
Низкое (обычно 1024) |
Высокое (зависит от системы) |
Очень высокое (зависит от системы) |
Зависит от платформы |
|
Use-case |
Простые приложения, Windows |
Серверы с умеренной нагрузкой |
Высоконагруженные серверы на Linux |
Интеграция или миграция на |
|
Выбор по умолчанию |
3-й приоритет (fallback) |
2-й приоритет |
1-й приоритет (если Linux) |
Только при явном указании |
У Gevent же внутренний хаб и цикл событий скрыты от пользователя и не предназначены для прямого выбора или настройки. Хаб создаётся автоматически для каждого потока и предоставляет к нему доступ через API, но смена реализации не является публичным интерфейсом.
-
libev— легковесный event loop на C, используемый по умолчанию. Обеспечивает высокую производительность на Linux через epoll, на macOS — через kqueue. -
libuv— движок из Node.js, доступен как альтернатива. Лучше работает в Windows.
Monkey Patching
Gevent и Eventlet на лету заменяют блокирующие функции стандартной библиотеки Python (например, socket.recv, time.sleep, requests.get) на их неблокирующие версии, интегрированные с event loop. Даже несмотря на то, что Celery сам старается патчить, когда вы запускаете воркер с гринлет-пулом, всё же лучше вызывать патчинг явно в собственном коде до импорта celery и других модулей.
from gevent import monkeymonkey.patch_all()from celery import Celeryapp = Celery('proj')
Как это выглядит изнутри воркера Celery:
-
Когда зеленый поток выполняет операцию чтения данных из сокета, которая обычно заморозила бы его в ожидании, хаб зеленых потоков перехватывает этот запрос через monkey-patched функцию.
-
Блокирующий вызов преобразуется в регистрацию события. Поток сообщает event loop’у: «Я жду, пока появятся данные на этом сокете». После этого он немедленно уступает управление.
-
Воркер Celery переключается на выполнение другого зеленого потока, который готов к работе.
-
Когда данные приходят, event loop просыпается, находит ожидающий поток и дает ему возможность продолжить выполнение.
Совместимость стандартных модулей с Monkey Patching
|
Модуль |
Gevent |
Eventlet |
Примечания |
|---|---|---|---|
|
|
✅ Полная |
✅ Полная |
Базовый модуль, патчится в первую очередь |
|
|
✅ Полная |
✅ Полная |
Требует |
|
|
✅ |
✅ |
Только функции ожидания, не |
|
|
✅ Полная |
✅ Полная |
Критично для event loop |
|
|
⚠️ С флагом |
⚠️ С флагом |
Патчинг потоков — источник тонких багов, используйте с осторожностью |
|
|
⚠️ Частичная |
⚠️ Частичная |
|
|
|
⚠️ Только |
⚠️ Минимально |
Большинство системных вызовов остаются блокирующими |
|
|
✅ Полная |
✅ Полная |
Устаревшие модули, но работают |
|
|
✅ Полная |
✅ Полная |
Основа для |
|
|
✅ Полная |
✅ Полная |
Замена на кооперативные очереди |
|
|
⚠️ Ограниченная |
❌ Не поддерживается |
Обработка сигналов в асинхронной модели — сложная тема |
|
|
✅ С |
✅ Полная |
Важно для асинхронных DNS-запросов |
|
|
✅ С |
✅ С |
Требуется отдельный патч: |
|
|
✅ Встроенная поддержка |
✅ Встроенная поддержка |
Библиотека сама детектит gevent/eventlet |
|
|
✅ С |
✅ С |
Работает «из коробки» при патчинге |
|
|
⚠️ Работает, но не идеально |
⚠️ Работает, но не идеально |
Лучше использовать |
|
|
⚠️ Требует |
⚠️ Требует |
Многие низкоуровневые вызовы блокирующие |
|
|
❌ Блокирует event loop |
❌ Блокирует event loop |
Выносите криптооперации в |
|
|
❌ Блокирует event loop |
❌ Блокирует event loop |
Тяжёлые CPU-вычисления останавливают весь воркер |
Список пропатченных библиотек можно проверить
from gevent import monkeyprint(monkey.get_patched_modules())import eventlet.patcherprint(eventlet.patcher.is_monkey_patched('socket'))
Таким образом этот пул Celery позволяет одному воркеру с одним системным процессом поддерживать тысячи одновременно ожидающих I/O зеленых потоков при минимальном потреблении ресурсов. Один автор утверждает, что сократил потребление памяти на 63%.
Обратная сторона медали
-
Ограничения на библиотеки или дополнительные патчи. См. таблицу выше.
-
Воркеры нужно запускать с флагами, которые отключат блокирующие цикл событий инструменты Celery.
-
--without-gossipотключает обмен событиями между воркерами о состоянии кластера. Использовать: в больших кластерах, чтобы снизить нагрузку на брокер -
--without-mingleотключает синхронизацию между воркерами на старте. Использовать: при частых перезапусках воркеров, чтобы ускорить старт. -
--without-heartbeatотключает «общение» между воркером и брокером о статусе исполнителя. Использовать: только если вы уверены в стабильности сети (рискуете потерять контроль над «зависшими» воркерами).
-
-
Отсутствие штатных средств Celery по контролю работы воркера(лимиты по времени, счёт выполненных задач).
-
Патчинг сам по себе. Стоит создать новую задачу с ошибкой и можно навредить всему воркеру. Просто мнение.
Runtime
Рабочее окружение
Все замеры проведены с версией celery 5.6.3, на ноутбуке с процессором AMD Ryzen 5 5500U with Radeon Graphics × 6 в консоли Linux Mint 22.3 — Cinnamon 64-bit.
С помощью cgroups и cpuset ограничил эксперимент двумя ядрами(первые потоки): 5 и 6. Некая имитация отдельного 2-ядерного сервера.
Брокер: RabbitMQ. Для некоторых брокеров, к примеру, старых версий Redis механизм получения задач может работать иначе.
Методика
Каждые 1.6(5 — по расписанию) секунд в брокере публикуются задачи(I/O и memory-bound, нормальный runtime — 1.7 сек) в количестве, равном максимальному количеству рабочих потоков. Каждый рабочий поток ограничен worker_prefetch_multiplier=1, то есть может взять одну задачу за раз. Длительность одного замера 300 секунд, по окончании работы воркер перезапускается, а очередь опустошается. Каждый вариант(2 очереди Х 2 режима Х 3 кол-ва потоков) запускается 20 раз.
Все 240 замеров были проведены в случайном порядке.
Прошу учесть, что в проведённом эксперименте задачи содержали существенную для гринлетов (35% времени от нормального runtime) CPU‑нагрузку. В таких условиях зелёные потоки уступают prefork-воркерам, которые используют оба ядра(процессы распределяет планировщик ОС). В чисто I/O-сценариях(5-10% времени CPU) отрыв был бы меньше или gevent мог бы оказаться быстрее.
Накопительная нагрузка (cumulative)
|
Режим |
Ср. процессов |
Длительность (с) |
Задач |
Throughput (з/с) |
Сред. latency (с) |
CV latency |
95% ДИ для среднего |
Медиана (с) |
90-й перц. (с) |
95-й перц. (с) |
|---|---|---|---|---|---|---|---|---|---|---|
|
gevent(2) |
1.00 |
303.92 |
224.4 |
0.74 |
62.20 |
1.4% |
[61.80 – 62.60] |
61.83 |
110.98 |
116.60 |
|
eventlet(2) |
1.00 |
303.92 |
224.3 |
0.74 |
62.07 |
0.2% |
[62.00 – 62.14] |
61.43 |
111.15 |
115.80 |
|
gevent(4) |
1.00 |
304.06 |
406.9 |
1.34 |
71.20 |
0.5% |
[71.02 – 71.38] |
71.14 |
125.94 |
132.91 |
|
eventlet(4) |
1.00 |
304.06 |
405.4 |
1.33 |
71.53 |
0.6% |
[71.32 – 71.74] |
71.30 |
126.44 |
133.24 |
|
gevent(8) |
1.00 |
302.73 |
544.2 |
1.80 |
98.68 |
0.7% |
[98.37 – 98.98] |
98.02 |
175.00 |
184.68 |
|
eventlet(8) |
1.00 |
302.72 |
542.5 |
1.79 |
98.96 |
0.3% |
[98.82 – 99.11] |
98.55 |
175.46 |
185.12 |
Равномерная нагрузка по расписанию (schedule)
|
Режим |
Ср. процессов |
Длительность (с) |
Задач |
Throughput (з/с) |
Сред. latency (с) |
CV latency |
95% ДИ для среднего |
Медиана (с) |
90-й перц. (с) |
95-й перц. (с) |
|---|---|---|---|---|---|---|---|---|---|---|
|
gevent(2) |
1.00 |
302.73 |
119.9 |
0.40 |
2.04 |
0.5% |
[2.04 – 2.05] |
2.14 |
2.41 |
2.43 |
|
eventlet(2) |
1.00 |
302.73 |
119.9 |
0.40 |
2.04 |
0.4% |
[2.04 – 2.05] |
2.18 |
2.41 |
2.43 |
|
gevent(4) |
1.00 |
302.78 |
238.1 |
0.79 |
2.56 |
0.5% |
[2.56 – 2.57] |
2.82 |
3.18 |
3.74 |
|
eventlet(4) |
1.00 |
302.78 |
238.6 |
0.79 |
2.57 |
0.5% |
[2.56 – 2.57] |
2.79 |
3.19 |
3.74 |
|
gevent(8) |
1.00 |
302.88 |
476.2 |
1.57 |
4.07 |
1.6% |
[4.04 – 4.10] |
3.75 |
6.45 |
7.08 |
|
eventlet(8) |
1.00 |
302.88 |
476.5 |
1.57 |
4.09 |
2.1% |
[4.05 – 4.13] |
3.75 |
6.45 |
7.09 |
Как видно, Gevent и Eventlet при такой нагрузке друг от друга мало чем отличаются. С натяжкой можно сказать, что gevent начинает формировать базу для превосходства над eventlet при тысячах потоков, но подобная экстраполяция будет преждевременной.
Для задач по расписанию есть интересная деталь, их количество не кратно 120, что было нормой для prefork. Скорее всего это связано с тем, что в последней итерации воркер иногда не успевал доделать задачу и она «испарялась»: при остановке воркера невыполненная задача возвращалась в очередь и там уже удалялась перед новым запуском. И поэтому снова подтверждается тезис о том, что если у вас много вычислений внутри задачи, используйте prefork.
Гринлеты vs. Prefork
Пересчитаем на одно ядро. Возьмём нагруженную очередь (cumulative), режим 8 потоков/процессов:
|
|
Prefork (concurrency=8) |
Gevent/Eventlet (8) |
|---|---|---|
|
Ядер использовано |
2 |
1 |
|
Throughput (з/с) |
4.23 |
1.80 |
|
Throughput на одно ядро |
2.115 |
1.80 |
|
Средняя latency (с) |
22.55 |
98.68 |
Как видно, даже на одно ядро prefork производительнее (~17%) для конкретной синтетической задачи. Latency у gevent в 4.4 раза выше (98.7 с против 22.6 с), что также ожидаемо: очередь накапливается, потому что одно ядро не справляется. Но всё-таки не ставьте крест на зелёных потоках! Они не предназначены для длительной и серьёзной нагрузки на процессор.
|
|
Зелёные потоки ( |
Системные процессы ( |
|---|---|---|
|
Параллелизм |
Кооперативный (задачи сами уступают I/O) |
Вытесняющий (ОС переключает процессы) |
|
Плотность |
Очень высокая (тысячи зелёных потоков в одном процессе) |
Низкая (число процессов ограничено памятью) |
|
I/O-bound задачи |
Огромный выигрыш |
Плохо (процессы дороги) |
|
CPU-bound задачи |
Плохо (только одно ядро) |
Хорошо (много ядер) |
|
|
Нужно использовать |
Работают |
|
|
Нет. Настраивать через supervisor/systemd |
Работает |
|
Изоляция |
Нет (падение одного гринлета может убить весь воркер) |
Падение одного процесса не влияет на остальные |
|
Monkey patching |
Обязателен ( |
Не нужен |
Малые выводы
-
Выбирайте gevent для celery в новых проектах. Eventlet официально не рекомендуется.
-
Если в задаче больше 10-15% чистого CPU, стоит рассматривать prefork. Уже при 35% CPU-времени prefork ощутимо выигрывает.
-
Зелёные потоки хороши для I/O-bound задач. Тысячи параллельных запросов к АПИ или БД, а потребление ресурсов на уровне одного системного процесса.
-
Блокировка event loop: если гринлет забывает уступить управление (цикл без sleep или I/O или высокая ЦПУ-нагрузка), он может заблокировать весь воркер.
-
Celery-time_limit и
max_tasks_per_childне работают. Штатными средствами задачу прервать не удастся. Нужно настраивать тайм-ауты внутри задачиgevent.Timeout/eventlet.Timeout.
Я признаю ограничения эксперимента: заставил зеленые потоки трудиться над непривычными задачами. Поэтому постараюсь по окончании разбора Celery сделать большое сравнение пулов с реальными подключениями к БД, АПИ и какой-нибудь логикой.
Исходный код эксперимента: https://github.com/okolobackend/Celery-Architecture-and-Scaling
ссылка на оригинал статьи https://habr.com/ru/articles/1036606/