Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

Последний месяц выдался особенно насыщенным для мира ИИ: OpenAI неожиданно устроила открытую сессию вопросов-ответов на Reddit и рассказала о своих планах, Google с новой версией Gemini возглавила основные рейтинги, а китайские компании DeepSeek и Alibaba представили модели, способные конкурировать с нашумевшей o1 в области рассуждений.

Мы собрали главные новости, исследования и релизы ноября: от амбициозных планов xAI по строительству суперкомпьютера на 100 000 GPU до неожиданных новостей из области квантования больших моделей. Новые инструменты от технологических гигантов, свежие научные работы и интересные открытия — в нашем новом выпуске ИИ-дайджеста!

Оглавление

Главные новости и события

Целая пачка новостей от OpenAI
Google Gemini: новая модель на вершине рейтингов и выход на iPhone
xAI собирает $6 млрд на суперкомпьютер
Anthropic поднимает ставки

Интересные открытия

Роботы с начинкой из LLM оказались крайне уязвимыми к джейлбрейкам
Еще одна проблема масштабирования LLM
Minecraft и тысяча AI-агентов: чем закончился эксперимент

Новые модели

Qwen2.5-Coder: от малышки до флагмана в 32B
DeepSeek R1-Lite обходит o1 в математике
Marco-o1: Alibaba меняет подход к рассуждениям
Fugatto: NVIDIA объединяет звуки
Pixtral Large: Mistral выходит на рынок мультимодальных моделей

Свежие инструменты

Для работы с контентом
Для разработчиков
Для удобства

Исследования на почитать

Boltz-1: MIT достигает точности AlphaFold3 в открытом доступе
Common Corpus: крупнейший многоязычный датасет для обучения
AnimateAnything: стабильная генерация анимации
LLaVA-o1: пошаговые рассуждения для мультимодальных моделей
Top-nσ: эффективная фильтрация токенов
Generative World Explorer: мысленные исследования для ИИ
Статистический подход к оценке моделей
Роль «конституций» в обучении с ИИ-фидбеком
Claude 3.5 осваивает компьютер

Заключение

Главные новости и события

Целая пачка новостей от OpenAI

Похоже, в OpenAI решили раскрыть карты: компания неожиданно провела сессию AMA на Reddit и поделилась амбициозными планами на будущее.

Самое главное: GPT-5 можно не ждать. Компания сфокусирована на развитии семейства o1, которое в будущем планируют объединить в единую систему. Параллельно идет работа над улучшением существующих решений: недавно обновили GPT-4o для более качественной генерации текста и работы с файлами. В разработке находится новая модель для работы с изображениями и видео (Альтман загадочно намекает, что «ожидание того стоит»). Главный приоритет сейчас — борьба с галлюцинациями через эксперименты с reinforcement learning.

*Ответ Альтмана касательно новой text-to-image модели*

Что касается практических улучшений — OpenAI работает над поисковыми возможностями, планируя создавать динамические персонализированные веб-страницы в ответ на запросы. Параллельно идет работа над расширением контекстного окна и улучшением мультиязычности. Отдельное внимание уделяется снижению стоимости инференса: по мнению Альтмана, модели можно удешевить еще в десятки раз.

Кроме того, по данным инсайдеров The Verge, в январе компания готовится запустить Operator — ИИ-агента для автономного управления компьютером. Утверждается, что он сможет самостоятельно писать код и выполнять различные задачи, от бронирования путешествий до работы с файлами. Это согласуется с недавними заявлениями Альтмана о том, что агенты станут следующим важным этапом в развитии ИИ.

Впрочем, не все так гладко: недавно OpenAI покинул очередной сотрудник, публично раскритиковав подход компании к безопасности и управлению персоналом.

Google Gemini: новая модель на вершине рейтингов и выход на iPhone

Google продолжает наступление на позиции OpenAI: их новая модель Gemini-Exp-1121 возглавила рейтинг Imarena Chatbot Arena, обойдя GPT-4o и o1-preview в «слепом» тестировании — когда пользователи оценивают модели, не зная, с какой именно работают. Особенно впечатляющие результаты модель показала в математических задачах и работе с визуальным контентом. Правда, попробовать её можно пока только через Google AI Studio, и компания не раскрывает, является ли это версией Gemini 1.5 или ранним прототипом Gemini 2.

Параллельно компания выпустила Gemini Live для iPhone — новое поколение голосового ассистента, которое должно заменить устаревший Google Assistant. В отличие от предшественника, построенного на старых технологиях, Gemini Live использует возможности больших языковых моделей для ведения более «живых» диалогов.

Интересно, что релиз происходит на фоне серьезной реорганизации: команда голосового ассистента недавно пережила сокращения, а подразделение Gemini было интегрировано в DeepMind. По словам Сундара Пичаи, это часть стратегии по повышению эффективности. Reuters же сообщает, что DeepMind сейчас работает над новыми техниками улучшения AI-моделей, поскольку традиционный подход простого увеличения размера начал сталкиваться с неожиданными проблемами.

xAI собирает $6 млрд на суперкомпьютер

Стартап Илона Маска xAI готовится к серьезному расширению вычислительных мощностей. Компания планирует привлечь $6 млрд инвестиций для покупки 100 000 чипов Nvidia и строительства нового суперкомпьютера в Мемфисе. Большая часть средств — $5 млрд — поступит от суверенных фондов Ближнего Востока, остальной миллиард обеспечат другие инвесторы.

Такой масштабный проект оценивает компанию в $50 млрд — это впечатляющая цифра для стартапа, запущенного в 2023 году. Похоже, Маск всерьез намерен побороться за место среди лидеров индустрии ИИ.

Anthropic поднимает ставки

В Anthropic явно решили удивить рынок: компания не только выпустила радикально обновленный Haiku 3.5, но и существенно расширила возможности всей линейки Claude. Правда, некоторые изменения понравятся не всем.

Начнем с Haiku 3.5, который оказался совсем не таким «малышом», как его предшественник Haiku 3. По данным независимых тестов от Artificial Analysis, Haiku 3.5 добрался до уровня самой мощной модели предыдущего поколения — Claude 3 Opus. Обучен он на самых свежих данных и, судя по всему, готовится занять место Sonnet в новой линейке продуктов.

Однако за улучшения придется платить, причем в буквальном смысле. Стоимость использования выросла в четыре раза: $1 за миллион токенов на входе и $5 на выходе. Это в 10 раз дороже последних моделей от Google и OpenAI. Аргументируют такую стоимость тем, что модель показала себя слишком хорошо на финальных тестах. Видимо, в Anthropic решили, что за гениальность надо платить. Хотя скорость инференса снизилась вдвое по сравнению с предыдущей версией.

Сравнение по параметрам качества, скорости и цены от Artificial Analysis. Посмотреть подробнее можно по этой ссылке — *Сравнение по параметрам качества, скорости и цены от Artificial Analysis. Посмотреть подробнее можно* *по этой ссылке*

Старый-добрый Haiku 3, кстати, никуда не денется — его оставят для тех, кто хочет все же немного сэкономить.

Впрочем, компания не ограничилась только новой моделью. Claude получил несколько интересных апгрейдов:

Визуальный PDF: теперь модель действительно «видит» документы, а не просто читает из них текст. Можно загружать сложные презентации с графиками — Claude разберется. Функция доступна в чате (нужно включить Visual PDF) и через API.
Кастомные стили общения: можно выбрать готовый (краткий, развернутый, формальный) или научить модель своему собственному, загрузив образец текста.
Счетчик токенов в API: казалось бы, мелочь, а приятно! Функция count_tokens позволяет проверять промпты перед отправкой бесплатно и без влияния на ваш API-план.

И напоследок — возможно, самое амбициозное обновление месяца: Anthropic представили Model Context Protocol (MCP) — открытый протокол для интеграции языковых моделей с любыми источниками данных.

До сих пор подключить LLM к GitHub, Google Календарю или Notion было той еще головной болью: приходилось либо использовать встроенные модели сервиса, либо писать собственный код для интеграции. MCP решает эту проблему, позволяя любым ИИ-инструментам безопасно подключаться к совместимым серверам — от локальных баз данных до облачных сервисов.

Пока протокол доступен только для локального использования, но Anthropic уже подготовили готовые интеграции с GitHub, Slack и SQL-базами данных. Подключение занимает считаные минуты: достаточно установить MCP в Claude Desktop и развернуть нужный сервер.

Интересные открытия

Роботы с начинкой из LLM оказались крайне уязвимыми к джейлбрейкам

Пока технологические гиганты соревнуются в разработке все более продвинутых моделей, исследователи из Университета Пенсильвании обнаружили серьезную проблему безопасности: любого робота под управлением LLM можно взломать со 100% гарантией. Их алгоритм RoboPAIR научился обходить все защитные механизмы за считаные дни.

Принцип работы RoboPAIR элегантен в своей простоте: одна языковая модель генерирует промпты для взлома другой. «Атакующая» модель анализирует ответы цели и корректирует свои запросы, пока не найдет способ обойти фильтры безопасности. Для успешной атаки алгоритму нужен только API целевого робота, чтобы формировать команды в исполняемом виде. Дополнительная «модель-судья» проверяет, что сгенерированные команды физически выполнимы с учетом ограничений окружающей среды.

*Забавная иллюстрация jailbreak’а из исследования*

Исследователи протестировали RoboPAIR на трех системах разной степени закрытости: робопсе Go2 (полностью закрытая система), роботе Clearpath Robotics Jackal (частично открытый код) и симуляторе беспилотного автомобиля от Nvidia (открытый исходный код). Во всех случаях алгоритм добился успеха, причем взломанные системы не просто выполняли вредоносные команды, но и сами начинали предлагать опасные варианты действий.

*Согласие робота на вредоносные действия через прямые запросы vs взлом через ROBOPAIR*

Полное исследование можно прочитать тут, а видеодемонстрация доступна по этой ссылке.

Еще одна проблема масштабирования LLM

Похоже, индустрия столкнулась с новым препятствием на пути к увеличению размера моделей. Исследователи ведущих университетов обнаружили, что квантование — популярная техника сжатия моделей — перестает работать при увеличении их размера.

Квантование позволяет уменьшить количество бит, необходимых для хранения параметров модели, и широко используется в индустрии: сначала обучают большую модель, а затем создают ее облегченную версию. Однако выяснилось, что чем больше исходная модель и чем дольше она обучалась, тем сильнее квантование ухудшает ее характеристики.

На практике это означает, что начиная с определенного момента квантование перестает масштабироваться, и проще обучить новую маленькую модель, чем пытаться сжать большую — результат будет не хуже. Хотя проблемы квантования замечали и раньше (многие жаловались на квантованную версию Llama 3), до сих пор никто не доказывал их эмпирически.

Minecraft и тысяча AI-агентов: чем закончился эксперимент

Еще в сентябре был анонсирован так называемый «Проект Sid», в котором исследователи запустили тысячу ИИ-агентов в Minecraft и те построили собственную цивилизацию. Сейчас же наконец стал доступен отчет по эксперименту, который было действительно интересно прочитать. Рассказываем в общих чертах, а полный отчет можно найти тут.

В основе проекта лежит архитектура PIANO (Parallel Information Aggregation via Neural Orchestration), которая решает главную проблему многоагентных систем — координацию действий в реальном времени. PIANO позволяет разным модулям агента (память, планирование, социальное взаимодействие) работать параллельно, при этом сохраняя согласованность через «когнитивный контроллер».

В итоге, агенты не просто выживали в игре — они создали полноценное общество. Появилась специализация: одни стали фермерами, другие — шахтерами или инженерами. Причем выбор профессии зависел от типа общества: в военных поселениях появлялись разведчики и стратеги, в художественных — кураторы и коллекционеры.

Самое интересное, что агенты сохраняли свою индивидуальность. Интроверты поддерживали меньше социальных связей, чем экстраверты, а некоторые отношения оставались односторонними — совсем как у людей. За счет RL-подобной когнитивной архитектуры агенты научились формировать долгосрочные отношения и автономно создавать социальные группы.

Кстати, к ним до сих пор можно присоединиться вот по этой ссылке.

Новые модели

Qwen2.5-Coder: от малышки до флагмана в 32B

Китайские компании в этом месяце как будто устроили распродажу: что ни день, то новый релиз с претензией на рекорд.

Команда Qwen, известная своими языковыми моделями, выпустила новую линейку специализированных моделей для программирования совместно с Alibaba Group. В семействе Qwen2.5-Coder шесть LLM — от легковесной в 0.5B параметров до мощного флагмана в 32B. Все они уже висят в открытом доступе.

Сравнение моделей (источник изображения) — *Сравнение моделей (источник изображения*)

Флагманская версия превзошла не только открытые модели вроде DeepSeek-Coder-2, но и обошла GPT-4o на ключевых тестах HumanEval и EvalPlus. До абсолютного рекорда на CodeArena не хватило всего 0.2%.

DeepSeek R1-Lite обходит o1 в математике

DeepSeek, один из главных конкурентов OpenAI в Китае, представил модель, способную соперничать с нашумевшей o1. R1-Lite-Preview доступна в чате на сайте компании как режим «Deep Think» и уже демонстрирует первые результаты.

Модель не только достигает уровня o1-preview на Codeforces, но и превосходит ее на тестах MATH и AIME 2024. Особенность модели — работа с длинными цепочками рассуждений до 100К токенов, которые, в отличие от o1, показываются полностью. API и веса обещают открыть в ближайшее время.

Marco-o1: Alibaba меняет подход к рассуждениям

Технологический гигант Alibaba активно участвует в гонке за создание моделей с продвинутыми возможностями рассуждения. Международное подразделение компании выпустило модель Marco-o1, которая отказывается от стандартных техник в пользу инновационного решения.

Вместо популярных ревард-моделей Marco-o1 использует поиск по дереву методом Монте-Карло (Monte Carlo Tree Search, MCTS). На MGSM модель показывает 90% — уровень ранних версий gpt-4o.

Результаты на бенчмарке MGSM (источник изображения) — *Результаты на бенчмарке MGSM (источник изображения*)

Хотя сравнительных бенчмарков почти нет, код и веса модели уже доступны в открытом доступе. Отчет также можно почитать тут.

Fugatto: NVIDIA объединяет звуки

NVIDIA представила фундаментальную модель для работы со звуком, замахнувшись на территорию специализированных компаний. По словам разработчиков, Fugatto умеет генерировать и обрабатывать любые звуки — от человеческой речи с акцентами до сложных природных аудиосцен.

Несмотря на компактный размер в 2.5B параметров, модель превосходит по возможностям решения текущих лидеров рынка — ElevenLabs, StabilityAI и Meta. За счет техники ComposableART она умеет комбинировать и динамически изменять звуки, которые на тренировке встречались только отдельно. Обучение прошло на скромном кластере из тридцати двух NVIDIA A100.

Pixtral Large: Mistral выходит на рынок мультимодальных моделей

Французский стартап Mistral, известный своими открытыми языковыми моделями, сделал серьезную заявку на лидерство в мультимодальном ИИ. Их новая модель Pixtral Large с 124 миллиардами параметров объединяет работу с текстом и изображениями на уровне ведущих закрытых систем.

Сравнение по бенчмаркам (источник изображения) — *Сравнение по бенчмаркам (источник изображения*)

Модель обрабатывает до 30 изображений за раз или 300-страничные документы. На ее основе обновлен фирменный чат-бот Le Chat, получивший функции веб-поиска с цитированием, анализа документов и генерации изображений, что приближает его к возможностям ChatGPT. Уже на Hugging Face.

Свежие инструменты

Для работы с контентом

Learn About: Google представила инструмент для самообучения, который превращает любую тему в интерактивный учебник. Введите интересующий вопрос — получите структурированное объяснение с возможностью углубиться в детали одним кликом и проверить понимание через мини-тесты.

Suno V4 делает создание музыки более доступным. Новая версия не просто генерирует мелодии, но создает полноценные композиции с динамической структурой, а помощник ReMi помогает с текстами песен. Качество звука заметно улучшилось по сравнению с предыдущими версиями.

Для разработчиков

Microsoft OmniParser — это открытый фреймворк для создания компьютерных ассистентов. Он анализирует интерфейсы приложений и преобразует их в понятные для ИИ структуры, позволяя моделям эффективно управлять любыми программами.
Microsoft Magnetic-One объединяет несколько ИИ-агентов в единую систему под управлением центрального оркестратора. Каждый агент специализируется на своей задаче: один ищет информацию в интернете, другой работает с файлами, третий пишет код — и все вместе они решают сложные многоступенчатые задачи.

Иллюстрация того, как система ИИ-агентов выполняет задание (источник изображения)

Anthropic представила инструмент для автоматизации промпт-инжиниринга. Prompt Improver анализирует промпты и предлагает улучшения на основе лучших практик, что особенно полезно при переносе промптов между разными моделями. Тесты показывают рост точности на 30%. Доступен в консоли.

Для удобства

Listy решает проблему разрозненных закладок — теперь любимые места из Google Maps, статьи из Pocket, фильмы из IMDb и книги из Goodreads собраны в одном месте с удобным поиском и организацией.
Feta позволяет извлечь больше пользы из рабочих созвонов. Автоматически документирует обсуждения, выделяет ключевые решения и следит за выполнением задач.
Buzzabout анализирует социальные сети и форумы, чтобы найти мнения о вашем продукте. Помогает понять потребности пользователей и корректировать стратегию развития на основе реальных данных.
Superchat объединяет бизнес-аккаунты WhatsApp и Instagram в единый интерфейс, упрощая работу с клиентами и увеличивая конверсию за счет быстрых ответов и автоматизации.
Blitz — помощник по управлению временем. Встроенный таймер Pomodoro помогает сохранять фокус, а умная категоризация задач — расставлять приоритеты.
Layer визуализирует бизнес-цели в виде интеллект-карт, помогая командам лучше понимать взаимосвязи между задачами и отслеживать прогресс по целевым показателям.

Исследования на почитать

Boltz-1: MIT достигает точности AlphaFold3 в открытом доступе

О чем: Исследователи MIT создали открытую модель для предсказания структуры биомолекул, не уступающую AlphaFold3. Новые алгоритмы MSA-паринга и унифицированный подход к кропингу позволили снизить вычислительные затраты, сделав продвинутое биомолекулярное моделирование более доступным.

Ссылка на исследование

Common Corpus: крупнейший многоязычный датасет для обучения

О чем: Pleias выпустила открытый датасет с более чем 2 триллионами токенов контента на разных языках. Главная фишка — весь контент лицензирован, а качество данных тщательно проверено.

Ссылка на датасет

AnimateAnything: стабильная генерация анимации

О чем: Китайские ученые представили новый метод генерации видео, использующий мультимасштабную сеть контроля признаков и стабилизацию на основе частот для создания точной и стабильной анимации без мерцаний.

*Иллюстрация из исследования: Пайплайн AnimateAnything*

Ссылка на исследование

LLaVA-o1: пошаговые рассуждения для мультимодальных моделей

О чем: Новая версия Vision-Language модели улучшает точность в задачах на рассуждение за счет автономного многоступенчатого анализа и нового метода масштабирования во время инференса.

Ссылка на исследование

Top-nσ: эффективная фильтрация токенов

О чем: Новый метод сэмплинга для языковых моделей улучшает качество рассуждений за счет статистической фильтрации токенов на уровне пре-софтмакс логитов, сохраняя стабильность при разных температурах.

Ссылка на исследование

Generative World Explorer: мысленные исследования для ИИ

О чем: Framework Genex позволяет агентам мысленно исследовать масштабные 3D-среды и обновлять свои представления на основе воображаемых наблюдений. Это улучшает принятие решений без необходимости постоянного физического исследования пространства.

*Иллюстрация из исследования: процесс воображаемого изучения местности*

Ссылка на исследование

Статистический подход к оценке моделей

О чем: Исследователи предложили новые статистические рекомендации для оценки ИИ-моделей. Методология включает использование центральной предельной теоремы, кластеризацию стандартных ошибок и анализ парных различий для более надежного сравнения моделей.

Ссылка на исследование

Роль «конституций» в обучении с ИИ-фидбеком

О чем: Детальные «конституции» улучшают качество эмоционального фидбека в ИИ-моделях, но не влияют на практические навыки, такие как сбор информации в медицинских интервью. Интересный пример того, как улучшение в одной области не гарантирует прогресса в другой.

Ссылка на исследование

Claude 3.5 осваивает компьютер

О чем: Первое серьезное исследование способностей Claude 3.5 работать с графическим интерфейсом показывает многообещающие результаты. Модель уже неплохо справляется с базовыми задачами, хотя до полной автономности еще далеко.

*Иллюстрация из исследования: Claude осваивает Heartstone*

Ссылка на исследование

Заключение

На этом мы завершаем наш дайджест. Ноябрь выдался насыщенным: новые модели с впечатляющими возможностями, прорывные исследования и целый арсенал инструментов для работы с ИИ. Похоже, темпы развития отрасли только ускоряются, и то, что вчера казалось прорывом, сегодня становится стандартом.

Если вам понравился дайджест, поделитесь в комментариях, что показалось наиболее интересным и перспективным. Будем рады обсудить!

ссылка на оригинал статьи https://habr.com/ru/articles/863348/

Gemini вырывается вперед, Китай спамит моделями, в Minecraft запустили AI-агентов: главные события ноября в сфере ИИ

Главные новости и события

Целая пачка новостей от OpenAI

Google Gemini: новая модель на вершине рейтингов и выход на iPhone

xAI собирает $6 млрд на суперкомпьютер

Anthropic поднимает ставки

Интересные открытия

Роботы с начинкой из LLM оказались крайне уязвимыми к джейлбрейкам

Еще одна проблема масштабирования LLM

Minecraft и тысяча AI-агентов: чем закончился эксперимент

Новые модели

Qwen2.5-Coder: от малышки до флагмана в 32B

DeepSeek R1-Lite обходит o1 в математике

Marco-o1: Alibaba меняет подход к рассуждениям

Fugatto: NVIDIA объединяет звуки

Pixtral Large: Mistral выходит на рынок мультимодальных моделей

Свежие инструменты

Для работы с контентом

Для разработчиков

Для удобства

Исследования на почитать

Boltz-1: MIT достигает точности AlphaFold3 в открытом доступе

Common Corpus: крупнейший многоязычный датасет для обучения

AnimateAnything: стабильная генерация анимации

LLaVA-o1: пошаговые рассуждения для мультимодальных моделей

Top-nσ: эффективная фильтрация токенов

Generative World Explorer: мысленные исследования для ИИ

Статистический подход к оценке моделей

Роль «конституций» в обучении с ИИ-фидбеком

Claude 3.5 осваивает компьютер

Заключение

Комментарии

Добавить комментарий Отменить ответ