Зеленые потоки Celery. Gevent и Eventlet

Вступление и заметка об автоскейлинге

В прошлой статье я допустил неточность, сказав, что prefork это один из пулов, к которому применим autoscale. Точнее было бы сказать, что prefork — единственный пул c которым есть смысл использовать автомасштабирование Celery. Сами авторы Eventlet не скупятся на зеленые потоки и по умолчанию создают 1000 потоков.

Механизм autoscale технически реализован и для Eventlet, и для Gevent, но на практике бесполезен: в отличие от процессов и системных потоков(threading) новые гринлеты почти не увеличивают нагрузку на систему. Не нужно переключать контекст, мигрировать по ядрам и вставать в очередь к планировщику. Не вытесняющая, а кооперативная многозадачность: зеленые потоки добровольно уступают контроль в точках, где происходит операция ввода-вывода (I/O). Конечно, есть и обратная сторона медали: если один из потоков не в состоянии уступить ресурс, то это может привести к остановке всего воркера.

Примечание: Далее слова гринлет, поток, зелёный поток будут использоваться как синонимы. Если понятие будет касаться ОС, то к нему будет добавлено системный.

Gevent vs. Eventlet

Важное примечание

Согласно официальной документации Eventlet, разработка новых проектов на Eventlet не рекомендуется. Проект сейчас находится в режиме поддержки и исправления ошибок. Для новых приложений авторы советуют использовать, а старым проектам — мигрировать на asyncio. В контексте же Celery можно мигрировать на Gevent.

	Gevent	Eventlet
Реализация	`libev` / `libuv` (написаны на C)	Чистый Python
Производительность	Ожидается выше из-за C для 10k+ потоков	Медленнее при очень высоких нагрузках
Hub(координация гринлетов)	Скрыт от пользователя	Можно переключить (eventlet.hubs.use_hub())
Monkey patch	Агрессивный, но более гибкий	Консервативный
Статус*	Де-факто стандарт(6.4k stars)	Только поддержка(1.3k stars).
Стабильность	Реже встречаются критические сбои	Бывают проблемы с соединениями БД и брокеров

* - количество звёздочек актуально на май 2026 года.

Основное различие между двумя библиотеками кроется в их внутреннем планировщике (event loop) и реализации. Отсюда же и разница в производительности, патчинге и совместимости.

Hub’s

Хаб (Hub) — это центральный планировщик, который реализует событийный цикл (event loop). Он занимается мониторингом I/O-операций, управляет таймерами и диспетчеризирует события нужным обработчикам.

У Eventlet есть четыре реализации хаба, которые выбираются автоматически в порядке epoll → poll → select. Хаб выбирается в зависимости от системы(см. таблицу), но вы можете выбрать хаб вручную, в том числе и AsyncioHub, который здесь рассматривать не будет, так как асинхронность редко используется внутри Celery-задач. Главная причина для выбора конкретного хаба — это оптимизация производительности под платформу и нагрузку.

Характеристика	SelectHub	PollHub	EpollHub	AsyncioHub
Кроссплатформенность	Да	Только Unix	Только Linux	Да
Системный вызов	`select.select()`	`select.poll()`	`select.epoll()`	Цикл событий Python `asyncio`
Производительность	Наименьшая	Хорошая	Отличная (сложность O(1))	Хорошая, на уровне `asyncio`
Макс. кол-во FD	Низкое (обычно 1024)	Высокое (зависит от системы)	Очень высокое (зависит от системы)	Зависит от платформы
Use-case	Простые приложения, Windows	Серверы с умеренной нагрузкой	Высоконагруженные серверы на Linux	Интеграция или миграция на `asyncio`
Выбор по умолчанию	3-й приоритет (fallback)	2-й приоритет	1-й приоритет (если Linux)	Только при явном указании

У Gevent же внутренний хаб и цикл событий скрыты от пользователя и не предназначены для прямого выбора или настройки. Хаб создаётся автоматически для каждого потока и предоставляет к нему доступ через API, но смена реализации не является публичным интерфейсом.

libev — легковесный event loop на C, используемый по умолчанию. Обеспечивает высокую производительность на Linux через epoll, на macOS — через kqueue.
libuv — движок из Node.js, доступен как альтернатива. Лучше работает в Windows.

Monkey Patching

Gevent и Eventlet на лету заменяют блокирующие функции стандартной библиотеки Python (например, socket.recv, time.sleep, requests.get) на их неблокирующие версии, интегрированные с event loop. Даже несмотря на то, что Celery сам старается патчить, когда вы запускаете воркер с гринлет-пулом, всё же лучше вызывать патчинг явно в собственном коде до импорта celery и других модулей.

from gevent import monkeymonkey.patch_all()from celery import Celeryapp = Celery('proj')

Как это выглядит изнутри воркера Celery:

Когда зеленый поток выполняет операцию чтения данных из сокета, которая обычно заморозила бы его в ожидании, хаб зеленых потоков перехватывает этот запрос через monkey-patched функцию.
Блокирующий вызов преобразуется в регистрацию события. Поток сообщает event loop’у: «Я жду, пока появятся данные на этом сокете». После этого он немедленно уступает управление.
Воркер Celery переключается на выполнение другого зеленого потока, который готов к работе.
Когда данные приходят, event loop просыпается, находит ожидающий поток и дает ему возможность продолжить выполнение.

Совместимость стандартных модулей с Monkey Patching

Модуль	Gevent	Eventlet	Примечания
`socket`	✅ Полная	✅ Полная	Базовый модуль, патчится в первую очередь
`ssl`	✅ Полная	✅ Полная	Требует `monkey.patch_all()` до импорта `ssl`
`time`	✅ `sleep()`	✅ `sleep()`	Только функции ожидания, не `time.time()`
`select` / `poll` / `epoll`	✅ Полная	✅ Полная	Критично для event loop
`threading`	⚠️ С флагом `thread=True`	⚠️ С флагом `thread=True`	Патчинг потоков — источник тонких багов, используйте с осторожностью
`subprocess`	⚠️ Частичная	⚠️ Частичная	`Popen.wait()` может блокировать, лучше выносить в threadpool
`os`	⚠️ Только `os.fork`	⚠️ Минимально	Большинство системных вызовов остаются блокирующими
`urllib` / `urllib2`	✅ Полная	✅ Полная	Устаревшие модули, но работают
`http.client` / `httplib`	✅ Полная	✅ Полная	Основа для `requests` и других HTTP-клиентов
`queue` / `Queue`	✅ Полная	✅ Полная	Замена на кооперативные очереди
`signal`	⚠️ Ограниченная	❌ Не поддерживается	Обработка сигналов в асинхронной модели — сложная тема
`dns` / `socket.getaddrinfo`	✅ С `dns=True`	✅ Полная	Важно для асинхронных DNS-запросов
`psycopg2`	✅ С `psycogreen`	✅ С `psycogreen`	Требуется отдельный патч: `from psycogreen.gevent import patch_psycopg`
`pymongo`	✅ Встроенная поддержка	✅ Встроенная поддержка	Библиотека сама детектит gevent/eventlet
`redis-py`	✅ С `gevent`	✅ С `eventlet`	Работает «из коробки» при патчинге `socket`
`requests`	⚠️ Работает, но не идеально	⚠️ Работает, но не идеально	Лучше использовать `grequests` (gevent) или перейти на `aiohttp` + `asyncio`
`boto3` (AWS SDK)	⚠️ Требует `gevent.threadpool`	⚠️ Требует `eventlet.tpool`	Многие низкоуровневые вызовы блокирующие
`cryptography` / `pyOpenSSL`	❌ Блокирует event loop	❌ Блокирует event loop	Выносите криптооперации в `ThreadPool`
`numpy` / `scipy`	❌ Блокирует event loop	❌ Блокирует event loop	Тяжёлые CPU-вычисления останавливают весь воркер

Список пропатченных библиотек можно проверить

from gevent import monkeyprint(monkey.get_patched_modules())import eventlet.patcherprint(eventlet.patcher.is_monkey_patched('socket'))

Таким образом этот пул Celery позволяет одному воркеру с одним системным процессом поддерживать тысячи одновременно ожидающих I/O зеленых потоков при минимальном потреблении ресурсов. Один автор утверждает, что сократил потребление памяти на 63%.

Обратная сторона медали

Ограничения на библиотеки или дополнительные патчи. См. таблицу выше.
Воркеры нужно запускать с флагами, которые отключат блокирующие цикл событий инструменты Celery.
- --without-gossip отключает обмен событиями между воркерами о состоянии кластера. Использовать: в больших кластерах, чтобы снизить нагрузку на брокер
- --without-mingle отключает синхронизацию между воркерами на старте. Использовать: при частых перезапусках воркеров, чтобы ускорить старт.
- --without-heartbeat отключает «общение» между воркером и брокером о статусе исполнителя. Использовать: только если вы уверены в стабильности сети (рискуете потерять контроль над «зависшими» воркерами).
Отсутствие штатных средств Celery по контролю работы воркера(лимиты по времени, счёт выполненных задач).
Патчинг сам по себе. Стоит создать новую задачу с ошибкой и можно навредить всему воркеру. Просто мнение.

Runtime

Рабочее окружение

Все замеры проведены с версией celery 5.6.3, на ноутбуке с процессором AMD Ryzen 5 5500U with Radeon Graphics × 6 в консоли Linux Mint 22.3 — Cinnamon 64-bit.

С помощью cgroups и cpuset ограничил эксперимент двумя ядрами(первые потоки): 5 и 6. Некая имитация отдельного 2-ядерного сервера.

Брокер: RabbitMQ. Для некоторых брокеров, к примеру, старых версий Redis механизм получения задач может работать иначе.

Методика

Каждые 1.6(5 — по расписанию) секунд в брокере публикуются задачи(I/O и memory-bound, нормальный runtime — 1.7 сек) в количестве, равном максимальному количеству рабочих потоков. Каждый рабочий поток ограничен worker_prefetch_multiplier=1, то есть может взять одну задачу за раз. Длительность одного замера 300 секунд, по окончании работы воркер перезапускается, а очередь опустошается. Каждый вариант(2 очереди Х 2 режима Х 3 кол-ва потоков) запускается 20 раз.

Все 240 замеров были проведены в случайном порядке.

Прошу учесть, что в проведённом эксперименте задачи содержали существенную для гринлетов (35% времени от нормального runtime) CPU‑нагрузку. В таких условиях зелёные потоки уступают prefork-воркерам, которые используют оба ядра(процессы распределяет планировщик ОС). В чисто I/O-сценариях(5-10% времени CPU) отрыв был бы меньше или gevent мог бы оказаться быстрее.

Накопительная нагрузка (cumulative)

Режим	Ср. процессов	Длительность (с)	Задач	Throughput (з/с)	Сред. latency (с)	CV latency	95% ДИ для среднего	Медиана (с)	90-й перц. (с)	95-й перц. (с)
gevent(2)	1.00	303.92	224.4	0.74	62.20	1.4%	[61.80 – 62.60]	61.83	110.98	116.60
eventlet(2)	1.00	303.92	224.3	0.74	62.07	0.2%	[62.00 – 62.14]	61.43	111.15	115.80
gevent(4)	1.00	304.06	406.9	1.34	71.20	0.5%	[71.02 – 71.38]	71.14	125.94	132.91
eventlet(4)	1.00	304.06	405.4	1.33	71.53	0.6%	[71.32 – 71.74]	71.30	126.44	133.24
gevent(8)	1.00	302.73	544.2	1.80	98.68	0.7%	[98.37 – 98.98]	98.02	175.00	184.68
eventlet(8)	1.00	302.72	542.5	1.79	98.96	0.3%	[98.82 – 99.11]	98.55	175.46	185.12

Равномерная нагрузка по расписанию (schedule)

Режим	Ср. процессов	Длительность (с)	Задач	Throughput (з/с)	Сред. latency (с)	CV latency	95% ДИ для среднего	Медиана (с)	90-й перц. (с)	95-й перц. (с)
gevent(2)	1.00	302.73	119.9	0.40	2.04	0.5%	[2.04 – 2.05]	2.14	2.41	2.43
eventlet(2)	1.00	302.73	119.9	0.40	2.04	0.4%	[2.04 – 2.05]	2.18	2.41	2.43
gevent(4)	1.00	302.78	238.1	0.79	2.56	0.5%	[2.56 – 2.57]	2.82	3.18	3.74
eventlet(4)	1.00	302.78	238.6	0.79	2.57	0.5%	[2.56 – 2.57]	2.79	3.19	3.74
gevent(8)	1.00	302.88	476.2	1.57	4.07	1.6%	[4.04 – 4.10]	3.75	6.45	7.08
eventlet(8)	1.00	302.88	476.5	1.57	4.09	2.1%	[4.05 – 4.13]	3.75	6.45	7.09

Как видно, Gevent и Eventlet при такой нагрузке друг от друга мало чем отличаются. С натяжкой можно сказать, что gevent начинает формировать базу для превосходства над eventlet при тысячах потоков, но подобная экстраполяция будет преждевременной.

Для задач по расписанию есть интересная деталь, их количество не кратно 120, что было нормой для prefork. Скорее всего это связано с тем, что в последней итерации воркер иногда не успевал доделать задачу и она «испарялась»: при остановке воркера невыполненная задача возвращалась в очередь и там уже удалялась перед новым запуском. И поэтому снова подтверждается тезис о том, что если у вас много вычислений внутри задачи, используйте prefork.

Гринлеты vs. Prefork

Пересчитаем на одно ядро. Возьмём нагруженную очередь (cumulative), режим 8 потоков/процессов:

	Prefork (concurrency=8)	Gevent/Eventlet (8)
Ядер использовано	2	1
Throughput (з/с)	4.23	1.80
Throughput на одно ядро	2.115	1.80
Средняя latency (с)	22.55	98.68

Как видно, даже на одно ядро prefork производительнее (~17%) для конкретной синтетической задачи. Latency у gevent в 4.4 раза выше (98.7 с против 22.6 с), что также ожидаемо: очередь накапливается, потому что одно ядро не справляется. Но всё-таки не ставьте крест на зелёных потоках! Они не предназначены для длительной и серьёзной нагрузки на процессор.

	Зелёные потоки (`gevent`/`eventlet`)	Системные процессы (`prefork`)
Параллелизм	Кооперативный (задачи сами уступают I/O)	Вытесняющий (ОС переключает процессы)
Плотность	Очень высокая (тысячи зелёных потоков в одном процессе)	Низкая (число процессов ограничено памятью)
I/O-bound задачи	Огромный выигрыш	Плохо (процессы дороги)
CPU-bound задачи	Плохо (только одно ядро)	Хорошо (много ядер)
`time_limit` / `soft_time_limit`	Нужно использовать `gevent.Timeout` (`eventlet.Timeout`)	Работают
`max_tasks_per_child`	Нет. Настраивать через supervisor/systemd	Работает
Изоляция	Нет (падение одного гринлета может убить весь воркер)	Падение одного процесса не влияет на остальные
Monkey patching	Обязателен (`monkey.patch_all()`)	Не нужен

Малые выводы

Выбирайте gevent для celery в новых проектах. Eventlet официально не рекомендуется.
Если в задаче больше 10-15% чистого CPU, стоит рассматривать prefork. Уже при 35% CPU-времени prefork ощутимо выигрывает.
Зелёные потоки хороши для I/O-bound задач. Тысячи параллельных запросов к АПИ или БД, а потребление ресурсов на уровне одного системного процесса.
Блокировка event loop: если гринлет забывает уступить управление (цикл без sleep или I/O или высокая ЦПУ-нагрузка), он может заблокировать весь воркер.
Celery-time_limit и max_tasks_per_child не работают. Штатными средствами задачу прервать не удастся. Нужно настраивать тайм-ауты внутри задачи gevent.Timeout / eventlet.Timeout.

Я признаю ограничения эксперимента: заставил зеленые потоки трудиться над непривычными задачами. Поэтому постараюсь по окончании разбора Celery сделать большое сравнение пулов с реальными подключениями к БД, АПИ и какой-нибудь логикой.

Исходный код эксперимента: https://github.com/okolobackend/Celery-Architecture-and-Scaling

ссылка на оригинал статьи https://habr.com/ru/articles/1036606/