
Patronus AI представила мультимодальную языковую модель-судью (MLLM-as-a-Judge) — инструмент, предназначенный для оценки ИИ-систем, интерпретирующих изображения и генерирующих текст.
Эта технология оценки призвана помочь разработчикам выявлять и устранять галлюцинации и проблемы с надёжностью в мультимодальных ИИ-приложениях. Крупнейшая e-commerce платформа Etsy уже внедрила эту разработку для проверки точности подписей к изображениям товаров на своей площадке, где представлены изделия ручной работы и винтажные предметы.
«Мы невероятно рады объявить, что Etsy стала одним из наших первых клиентов», — сказал Ананд Каннаппан, сооснователь Patronus AI, в эксклюзивном интервью изданию VentureBeat. «На их платформе представлены сотни миллионов товаров, созданных людьми со всего мира. Их команда ИИ стремилась использовать генеративный ИИ для автоматической генерации подписей к изображениям и хотела убедиться, что при масштабировании на глобальную аудиторию эти подписи остаются точными».
Почему в основе нового ИИ-судьи лежит Gemini от Google, а не GPT от OpenAI
Первая модель MLLM-as-a-Judge от Patronus — Judge-Image — была создана на базе модели Gemini от Google после всестороннего сравнения с альтернативами, включая GPT-4V от OpenAI.
«Мы заметили, что GPT-4V чаще демонстрировала склонность к эгоцентричному восприятию, тогда как Gemini оказалась менее предвзятой и показала более сбалансированный подход к оценке различных пар «ввод-вывод»», — пояснил Каннаппан. «Это проявилось в равномерном распределении оценок по разным источникам».
Исследование компании также дало неожиданные результаты: в отличие от текстовых задач, где многошаговое рассуждение улучшает результаты, в мультимодальной оценке изображений это, как правило, не повышает эффективность модели-судьи.
Judge-Image предоставляет готовые оценочные модули, которые анализируют подписи по множеству параметров: от выявления галлюцинаций до точности в определении расположения объектов и распознавании текста.
Не только ритейл: маркетинг и юриспруденция тоже выигрывают
Хотя Etsy — яркий пример применения в электронной коммерции, Patronus видит потенциал гораздо шире.
По словам Каннаппана, технология может быть полезна «командам маркетинга, которым нужно масштабируемо создавать описания и подписи к новым элементам дизайна — как маркетингового, так и продуктового».
Он также отметил перспективность применения в работе с документами: «Крупные предприятия, например венчурные фонды или юридические фирмы, часто используют устаревшие технологии для извлечения информации из PDF-файлов и составления резюме по объёмным документам».
Почему компаниям стоит покупать инструменты оценки ИИ, а не разрабатывать их самостоятельно
По мере того как ИИ всё глубже интегрируется в бизнес-процессы, компании сталкиваются с дилеммой: создавать собственные инструменты оценки или покупать готовые. Каннаппан считает, что стратегически и экономически целесообразнее отдавать предпочтение покупке.
«Мы заметили, что многие начинают с попытки создать что-то своё, но со временем понимают: во-первых, это не ключевая часть их продукта, а во-вторых — это очень сложная задача как с точки зрения ИИ, так и с инфраструктурной стороны», — отметил он.
Это особенно актуально для мультимодальных систем, в которых сбои могут происходить на разных этапах. «В системах с RAG, агентах или мультимодальных ИИ-решениях мы видим, что ошибки могут возникать повсеместно», — добавил Каннаппан.
Как Patronus зарабатывает, конкурируя с технологическими гигантами
Patronus предлагает несколько тарифных планов, включая бесплатный, позволяющий опробовать платформу в пределах определённого объёма. При превышении лимитов пользователи платят по мере использования или могут заключить корпоративные соглашения с индивидуальными условиями.
Несмотря на то что основой служит Gemini от Google, Patronus не позиционирует себя как конкурент фундаментальным моделям от Google, OpenAI или Anthropic.
«Мы не рассматриваем наши технологии как конкурирующие с фундаментальными игроками — скорее, это дополнение: мощные инструменты, которые помогают создавать лучшие LLM-системы, а не сами LLM», — подчеркнул Каннаппан.
Дальше — аудио: Patronus расширяет горизонты мультимодального контроля
Сегодняшний анонс — часть стратегии Patronus по обеспечению оценки ИИ в различных модальностях. В ближайшее время компания планирует расширить свою деятельность на сферу аудио.
«Мы с энтузиазмом смотрим на следующий этап нашей миссии — переход от изображений к аудиоконтенту», — подтвердил Каннаппан.
Этот план соответствует заявленной научной концепции Patronus — «масштабируемый контроль», направленной на создание механизмов оценки, способных идти в ногу с всё более сложными ИИ-системами.
«Мы продолжаем разрабатывать системы, продукты и методы, которые будут не уступать интеллектуальным системам, над которыми нам, как людям, предстоит осуществлять надзор в будущем», — добавил он.
По мере того как бизнес всё активнее внедряет ИИ для распознавания изображений, извлечения текста из документов и генерации визуального контента, возрастает риск ошибок, галлюцинаций и предвзятости. Patronus делает ставку на то, что, несмотря на совершенствование фундаментальных моделей, задачи оценки мультимодальных ИИ останутся актуальными — и для их решения потребуется специализированный, беспристрастный «цифровой судья», столь же ценный, как и сами модели.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
ссылка на оригинал статьи https://habr.com/ru/articles/895354/
Добавить комментарий