OpenClaw и LabelStudio: расширяем каталог AI-маркетплейса Selectel

от автора

Сборка окружения для обучения моделей забирает слишком много времени. Развертывание локальных утилит, оркестрация потоков, администрирование прав доступа для асессоров — все это приходится настраивать вручную. Мы автоматизировали этот процесс. Теперь в AI-маркетплейсе Selectel доступны два новых инструмента: self-hosted AI-агент OpenClaw и платформа LabelStudio. Каждый из них разворачивается внутри изолированного виртуального пространства в один клик.

Если говорить коротко, то OpenClaw — это open-source решение для автоматизации рутинных задач. Он представляет собой AI-ассистента, который умеет взаимодействовать с окружением и файлами в той среде, где его запустили. Инструмент полностью берет на себя черновую работу со сбором неструктурированной информации из внешних источников и формирует чистые потоки данных для последующего обучения моделей.

Для этапа аннотирования мы добавили LabelStudio — специализированную веб-платформу для разметки мультимодальных датасетов, которая объединяет Data Science специалистов и разметчиков в едином интерфейсе. Она избавляет команду от множества локальных скриптов. Процесс разметки здесь конфигурируется через гибкие XML-подобные шаблоны под конкретные задачи машинного обучения:

  • Computer Vision. Попиксельная сегментация объектов с помощью полигонов, масок, отрисовка ограничивающих рамок (bounding boxes) и классификация изображений для обучения нейросетей;

  • Natural Language Processing (NLP). Извлечение именованных сущностей (NER), посимвольная разметка связей между токенами, классификация текстов и анализ тональности;

  • Audio & Speech. Визуальное аннотирование звуковых волн, транскрибация речи и классификация аудиофайлов для обучения STT-моделей.

Мы убрали рутину с базовым деплоем. Больше не нужно писать Docker Compose файлы, настраивать веб-серверы и пробрасывать порты — маркетплейс автоматически поднимает изолированный инстанс с нужным софтом.

Инструмент поддерживает подключение внешних ML-бэкендов для реализации Active Learning (предварительной автоматической разметки моделями), а сам интерфейс кастомизируется без изменения исходного кода платформы.

При создании сервера вы сами выбираете конфигурацию дисков для хранения метаданных, а для работы с тяжелыми массивами (архивами с фото или аудио) в интерфейс инструментов легко подключается S3-совместимое объектное хранилище Selectel. Это позволяет не забивать локальный диск инстанса и порционно подгружать для обработки даже терабайтные датасеты.

Развернуть новые инструменты в AI-маркетплейсе Selectel →

ссылка на оригинал статьи https://habr.com/ru/articles/1046610/