Мы настроили динамические окружения на ArgoCD под каждую фичу

Привет, я Даниил, DevOps-инженер в KTS.

Я работаю над инфраструктурой одной крупной сети. В ее штате несколько команд разработки, которые делят между собой больше 40 микросервисов, составляющих одну систему. Ожидаемо, со временем их dev-стенд сильно отстал от продакшена, и разные команды с трудом протаскивали новые фичи до релиза.

Мы в KTS уже давно продвигаем настройку динамических окружений для подобных систем. Пару лет назад мой коллега описывал, как они работают, и давал несколько рекомендаций по применению. Но это был, скорее, обзор.

Сегодня я расскажу, как мы внедрили динамические окружения на практике через ArgoCD и обтесали их под конкретные запросы разработчиков. Еще я попробую объяснить, почему такой подход здорово экономит время и нервы, и поделюсь соображениями о том, когда он будет только мешать.

Оглавление

Контекст
Что мы наделали
Что еще пошло не так
Когда это не нужно
Что в итоге

Контекст

Чтобы понять, откуда растут ноги нашей проблемы, представьте следующую конструкцию.

Команда А пилит фичу, которая меняет API в условном сервисе заказов. Чтобы ее протестировать, нужно еще обновить условный сервис уведомлений, который этот API дергает. Разработчики раскатывают обе доработки на dev и уходят заниматься другими задачами, потому что тестирование займет минимум неделю. Тестировщиков мало, очередь длинная.

Параллельно команда Б пилит свою фичу в том же сервисе уведомлений. Их фича не связана с API, она про что-то другое, но катится в тот же dev. Спустя неделю до нее доходят руки у тестировщика, и выясняется, что уведомления уже работают не так, как ожидала команда Б, потому что API заказов поменялся. Команде Б нужно вернуться в контекст недельной давности, доработать фичу и вернуть ее в очередь, чтобы тестировщики снова до нее дошли. Колесо Сансары делает полный оборот.

Фича, которую разработчики делали пару дней, доезжает до продакшена через месяц.

Один dev-стенд на всех работает, пока сервисов мало и команды могут договориться на словах. Но как только сервисов становится много, командам приходится либо стоять в очереди, либо мириться с тем, что чужая фича в смежном сервисе ломает их тест-кейсы.

Поднимать еще один dev-стенд — плохая идея по двум причинам. Во-первых, у большинства команд CI/CD заточен под одно окружение: имена неймспейсов, хосты, строки подключения к БД и домены захардкожены в helm values или в скриптах деплоя. Поднять параллельную копию означает переписать половину инфраструктурного кода. Во-вторых, даже если ее поднять, все равно непонятно, какая команда на каком стенде сидит и кто там что катит.

Зато есть хорошая идея: окружение, которое появляется автоматически под конкретный merge request, живет ровно столько, сколько нужно для проверки, и так же автоматически исчезает.

Что мы наделали

Изначальная идея выглядела амбициозно и изящно. Реализовать ее в чистом виде не получилось по ряду причин, но обо всем по порядку. Для понимания все равно важно разобраться, какой подход был предложен в начале.

Когда разработчик открывает MR в любом из сорока сервисов, CI запускает джобу, которая собирает для него отдельный стенд. На стенде поднимаются все сорок сервисов вместе с инфраструктурой (PostgreSQL, Kafka, Redis, MongoDB, ingress, сертификаты и так далее). Сервисы берутся в актуальных dev-версиях, кроме одного — того, в котором открыт MR. Для него подставляется образ из ветки MR.

Стенд изолирован. У него свой неймспейс, свои поддомены и своя база. Две параллельные фичи в смежных сервисах больше не конфликтуют, потому что у каждой свой стенд.

Когда MR закрывается, стенд удаляется. Если разработчик забыл закрыть MR, стенд все равно умрет через пять дней по TTL или вечером в пятницу, в зависимости от настройки. Есть отдельный режим «бессмертного» стенда для долгого тестирования, но тогда раз в неделю прилетает напоминание, что ресурсы тратятся.

Все построено на ArgoCD, app-of-apps и sync-wave.

App-of-apps

CI ничего не разворачивает в кластер напрямую. Он создает в ArgoCD одно родительское приложение, которое указывает на наш Helm-чарт со всем описанием стенда. Этот чарт при рендере генерирует дочерние ArgoCD Application, по одному на каждый сервис из каталога и на каждую вспомогательную систему. ArgoCD дальше сам раскладывает все это по кластеру.

Родительский Application выглядит примерно так:

apiVersion: argoproj.io/v1alpha1kind: Applicationmetadata:  name: feature-325  namespace: argocd  finalizers:    - resources-finalizer.argocd.argoproj.iospec:  project: dynamic-env  source:    repoURL: https://gitlab.example.com/devops/parent-helm-chart.git    targetRevision: main    path: "."    helm:      values: |        domain: "feature-325.dev.example.com"        stand:          ttlDays: 5          cleanupFridayEvening: false          immortalNotifyAfterDays: 7        postgresql:          enabled: true        kafka:          enabled: true        valkey:          enabled: true        services:          orders-service:            image: { tag: latest }          notifications-service:            image: { tag: feature-325 }          payments-service:            image: { tag: latest }          # ... ещё ~37 сервисов  destination:    name: dynamic-env    namespace: argocd  syncPolicy:    automated:      enabled: false

Все, что нужно знать о стенде, лежит в этих значениях: какой образ для какого сервиса, какие вспомогательные системы поднимать, какие заданы TTL и политики удаления. CI собирает values, ArgoCD приводит кластер в нужное состояние.

Что пошло не так

Сначала мы хотели брать сервисы по веткам с тем же именем, что у MR. Если открыт, к примеру, feature-325, то для всех сервисов CI ищет ветку feature-325. Если она есть, то образ берется оттуда, а если нет, то из ветки по умолчанию.

Так сделать не получилось. Имена веток были привязаны к задачам в трекере, и для каждого сервиса задача своя. То есть даже если фича сквозная, ветки в разных репозиториях называются по-разному. Сопоставить их по имени невозможно.

В качестве компромисса мы решили использовать одноименные теги. Когда разработчику нужен сборный стенд из доработок нескольких сервисов, он вешает один и тот же тег (например, test-stand-42) на нужные коммиты во всех нужных репозиториях. CI обходит список сервисов через GitLab API и берет образы, на которых есть этот тег, а для сервисов без тега берется образ по умолчанию (обычно latest из dev).

Теги, в отличие от веток, не привязаны к процессу разработки и трекеру, их можно вешать как угодно. И да, такой подход выглядит менее элегантно, чем автоматическое поднятие стенда по кнопке «открыть MR», зато работает в реальности, а не в вакууме.

Sync-wave

Отдельный блок стоит посвятить очередности деплоя в динамическом окружении. Если запустить все сервисы параллельно, половина уйдет в CrashLoopBackOff, потому что не дождется базы.

ArgoCD умеет упорядочивать деплой через аннотации argocd.argoproj.io/sync-wave: каждому дочернему Application присваивается номер волны, и ArgoCD катит волну за волной, дожидаясь готовности предыдущей. Распределение примерно такое:

Первой волной разворачиваются служебные ресурсы стенда: AppProject, RBAC для сервисного аккаунта и CronJob, который снесет стенд по TTL или в пятницу вечером.
Во второй волне идут базы данных и брокеры: PostgreSQL через оператор, Kafka, Redis/Valkey, MongoDB. Managed-решения сознательно не используем: для динамических стендов managed-БД получаются неоправданно дорогими.
Третьей волной поднимаются сервисы, которые зависят только от баз: API, базовые бэкенды (все, что не дергает другие сервисы).
В четвертую (и возможные следующие волны) уже входят сервисы, зависящие от других сервисов. Все дальнейшие волны формируются по графу зависимостей конкретной системы.

ArgoCD проверяет, что предыдущая волна в статусе Healthy, и только тогда переходит к следующей. Когда сходится последняя волна, ссылка приходит в MR.

Жизненный цикл стенда

Картинка с диаграммой ЖЦ очень сильно сжимается, поэтому просто прикреплю ее код. Чтобы посмотреть, скопируйте его в рендерер https://mermaid.live/edit:

flowchart TD    A[Разработчик вешает одинаковый тег<br/>на нужные коммиты в репозиториях<br/>задействованных сервисов] --> B[Запускакется джоба деплоя стенда<br/>в пайплайне одного из сервисов]    B --> C[CI обходит каталог сервисов<br/>через GitLab API]    C --> D{Есть тег<br/>в репозитории<br/>сервиса?}    D -->|да| E[Берётся образ,<br/>собранный по тегу]    D -->|нет| F{Какой профиль у стенда?}    F -->|dev| G[Берётся дефолтный<br/>dev-образ]    F -->|prod| H[Берётся дефолтный<br/>prod-образ]    E --> I[Формируется values<br/>для родительского Helm-чарта]    G --> I    H --> I    I --> J{Стенд должен быть бессмертным?}    J -->|нет| K[Будет включен CronJob удаления по TTL<br/>и пятничной очистки]    J -->|да| L[Будет включен CronJob еженедельного напоминания<br/>о расходе ресурсов]    K --> M[Применяется один родительский<br/>ArgoCD Application]    L --> M    M --> N[Волна 1: служебные ресурсы<br/>AppProject, RBAC, CronJob]    N --> O[Волна 2: базы данных и брокеры<br/>PostgreSQL, Kafka, Redis, MongoDB]    O --> P[Волна 3: сервисы,<br/>зависящие только от баз]    P --> Q[Волны 4+: сервисы по графу<br/>зависимостей друг от друга]    Q --> R[Стенд готов,<br/>ссылка приходит в MR / в чат]    R --> S[Разработка и тестирование]    S --> T{Триггер<br/>удаления}    T -->|MR закрыт| U[CI удаляет родительский Application]    T -->|TTL истёк| U    T -->|пятничная очистка| U    U --> V[ArgoCD по финализатору<br/>сносит дочерние Application<br/>и все ресурсы стенда]

Истина о том, что должно работать в кластере, всегда лежит в Git и в ArgoCD. CI только подкручивает values и нажимает кнопку. Это удобно для аудита: можно посмотреть состояние любого стенда в любой момент, ничего не нужно реконструировать по логам пайплайнов.

Что еще пошло не так

Вот и обещанный блок о том, что еще мы доделывали под неидеальную действительность.

Спустя пару недель после первых демо одна из команд разработки сообщила, что иногда им нужно поднимать стенд не на dev-образах, а на прод-образах, чтобы быстро проверять срочные фичи в обход спринта. Prod у них сильно отстает от dev, за несколько месяцев накапливается приличный разрыв. Один набор дефолтных values этот сценарий не покрывает.

Пришлось завести два профиля дефолтов: dev и prod. Разработчик при запуске стенда выбирает базу, поверх которой накатываются его доработки. Это потянуло за собой обязательство поддерживать prod-профиль в актуальном состоянии: после каждого релиза в прод нужно обновлять дефолтные теги в prod-профиле. А это тоже регулярная ручная работа.

Мораль здесь простая и скучная: динамическое окружение — это система, которую нужно поддерживать. Сервисы развиваются, появляются новые зависимости (вчера сервис не ходил в Redis, сегодня ходит), и кто-то должен обновлять каталог дефолтных values. Полностью бесплатной и самоподдерживающейся такая инфраструктура не бывает.

Когда это не нужно

Если в вашей системе два-три сервиса, то поднимать отдельное окружение под каждую фичу смысла нет. ArgoCD ApplicationSet с вебхуком на GitLab и простой Helm-чарт закрывают потребность раз в десять дешевле.

Порог окупаемости — где-то в районе десяти-пятнадцати сервисов при наличии нескольких параллельных команд. Выше этого значения экономия начинает быть ощутимой. Девопс не разворачивает стенд вручную по полдня, тестировщики не стоят в очереди к общему dev-стенду, а разработчики намного реже возвращаются в контекст двухнедельной давности.

Плюс есть еще одно важное условие: вы должны быть готовы держать GitOps как основной интерфейс. Если в вашей команде принято катить руками через kubectl, и вам хочется так и продолжать, то ArgoCD будет мешать, а не помогать. Здесь смысл именно в том, что состояние стендов описано декларативно и хранится в Git, и это дает возможность откатить весь стенд одним коммитом.

Что в итоге

Главная метрика, на которую я предлагаю ориентироваться — сколько времени проходит с открытия MR до момента, когда тестировщик уже может потыкать новую фичу. При общем dev-стенде это был срок от пары дней до недели. На динамических стендах весь процесс занимает пятнадцать-двадцать минут, по истечении которых в комментарии к MR появляется ссылка на готовое окружение.

Еще мы прикинули, сколько фич возвращается на доработку из-за конфликта с чужой фичей в смежном сервисе. Точные цифры заказчика приводить не буду, но переход на динамические стенды убрал эту категорию проблем почти полностью. Теперь подобные конфликты обнаруживаются на этапе слияния веток в dev, а не во время тестирования, и исправляются за несколько часов, а не дней или недель.

Само собой, такая инфраструктура стоит больше, чем один общий dev, потому что несколько стендов одновременно жрут больше ресурсов, чем один. Но TTL и пятничная очистка держат это в рамках. И важно помнить, что дороже всего стоят не CPU и память, а разработчики. Мы экономим их время, и все остальное окупается с большим запасом.

Если хотите дополнить материал или уточнить какие-то подробности, жду вас в комментариях. А если интересно узнать больше о том, как мы работаем с инфраструктурой, предлагаю к прочтению статьи моих коллег:

ссылка на оригинал статьи https://habr.com/ru/articles/1041242/