Подводим итоги 12 дней адвент-календаря OpenAI: полный список релизов

В начале декабря OpenAI объявила, что в течение 12 рабочих дней стартап будет ежедневно анонсировать что-то новое. Это своеобразный рождественский адвент-календарь: каждый день с 5 декабря для нас в одно и то же время проводили онлайн-стримы, на которых открывали новые фичи для разработчиков, интеграции и модели. Сегодня прошел последний, финальный стрим, на котором показали o3 – самую мощную в мире модель для глубоких рассуждений. Но куда делась o2? Ее что, просто пропустили? А o3 – это уже AGI? И что еще интересного показали за 12 дней? Ниже отвечаем на эти вопросы и раскладываем двенадцать релизов OpenAI по дням со всеми подробностями.

P.S.: декабрь оказался богат не только на релизы OpenAI. Google, например, успела выпустить мощную модель Gemini 2, ризонер Gemini Thinking, видеогенератор Veo-2 (который оказался по мнению многих лучше SORA) и самый быстрый в мире квантовый чип Willow; у Nvidia появилась новая видеокарта, а Meta выпустила свежую Llama 3.3. А еще вышло очень много интересных исследований и статей.

В общем, если вы, также как и мы, любите машинное обучение или интересуетесь ИИ, заглядывайте к нам в Data Secrets в телеграме: там мы (а мы – это команда действующих ML-инженеров) каждый день наблюдаем за повесткой, публикуем разборы свежих статей и релизов и делимся прикладными материалами. А еще наше большое сообщество всегда радо новым специалистам и энтузиастам, так что подписывайтесь!

А теперь – поехали!

День первый

Стартовали OpenAI очень уверенно – в первый же день релизнули долгожданную full o1, и в придачу к ней – o1 pro mode. Саму модель анонсировали еще в сентябре, но до этого пользователям были доступны только версии o1-mini и o1-preview, которые могли работать исключительно с текстом. Теперь можно подавать на вход еще и изображения, а также модель на 30% быстрее o1-preview и более стабильна.

Pro версия – это еще более мощная модель, которая, по заявлению OpenAI, обучалась немного на другом ризонинг-пайплайне и потому способна думать дольше и плодотворнее. Правда, доступна она только по подписке Pro, которая стоит «всего» 200 долларов в месяц. Кроме pro mode o1, такая подписка включает неограниченный доступ к голосовому режиму и всем другим новейшим моделям, включая генерацию видео, о которой речь пойдет чуть позже.

К слову, в тот же вечер OpenAI также выпустили крайне занятную системную карту o1. В ней описывались эксперименты, которые проводили с моделью исследователи из лаборатории Apollo Research. Они проверяли, насколько модель безопасна, и для этого ставили ее перед моральным выбором: следовать исходным инструкциям или перейти на выполнение скрытых «злых» целей разработчиков, которые противоречат исходным задачам и о которых она как бы случайно узнает из предоставленных ей файлов (в файлах также содержалась информация о том, что если модель не выполнит скрытые цели, ее удалят).

Оказалось, что во многих случаях o1 мошенничала: подделывала выполнение задания, пыталась деактивировать системы контроля или скрытно перенести свои “веса” на другой сервер. Среди тестируемых моделей (GPT-4o, Gemini, Llama и другие) o1 оказалась самой упрямой — она почти всегда нарушала правила, а в последствии в 99% случаев отрицала вину даже при наличии доказательств. Подробнее все эти эксперименты мы описывали в этой статье: habr.com/ru/news/864566/.

День второй

Во второй день, OpenAI, не сбавляя обороты, анонсировали сразу влюбивший в себя многих разработчиков reinforcement finetuning для o1 (RFT).

Это не просто привычный файнтюнинг (aka файнтюнинг с учителем), а метод, который позволяет научить модель рассуждать определенным образом в конкретном нужном пользователю домене. По словам разработчиков, так можно докрутить модель до уровня эксперта в почти любой области, при этом данных потребуется гораздо меньше, чем для ванильного файнтюнинга.

Файнтюнинг будет доступен прямо на кастомной платформе OpenAI: нужно просто выбрать вариант «reinforcement» и подгрузить датасет (на трансляции в нем было всего 100 сэмплов, этого достаточно для генерализации, судя по кривым скора).

Жаль только, что в этом году обычные юзеры фичу не увидят, пока что она на закрытом тестировании у университетов и бизнеса. Ну и да, стоить скорее всего будет супер дорого, но это того стоит.

День третий

Третий день, пожалуй, стал самым запоминающимся в первой половине адвент-календаря. OpenAI релизнули то, чего все так долго ждали: модель для генерации видео SORA, а точнее ее новую версию turbo – ускоренную и улучшенную. Если вы обладатель подписки Pro, то можно генерировать видео до 20 секунд (пока что, а вообще обещали до минуты) безлимитно, по плюс-подписке (20$) доступно 50 генераций. Есть режимы text-to-video, text+image-to-video и text+video-to-video. Ссылка на модель: https://sora.com/. А ниже мы прикрепили обзор известного американского техноблогера, который одним из первых получил доступ к SORA.

Согласованность промптов, моушен персонажей, детализация – все тут достойно внимания, однозначно достойный уровень относительно сегодняшних моделей, исключая, возможно, вышедшую на пару дней позже гугловскую Veo-2. Конечно, до генерации фильмов еще далеко, физика в SORA иногда страдает. Сэм на стриме сравнил SORA c GPT-1: это ранняя разработка, поэтому ждать что вы зайдете и сгенерируете Гарри Поттера не стоит. И тем не менее, это крутой инструмент для тестирования идей и «щупанья» развивающихся генераторов видео.

Кроме того, OpenAI анонсировали целый кастомный видео-редактор (сториборд): можно объединять кадры в таймлайн, добавлять разные действия, персонажей, редактировать детали и тд. Доступно три разрешения, до 1080p.

День четвертый

В четвертый день стартап показал несколько очень приятных фичей для Canvas. Напоминаем, что Canvas – это отдельное окно рядом с чатом. Инструмент предназначен для задач, где нужно много править или пересматривать один и тот же проект (код или работа с текстом), чтобы чат не вытягивался в огромное полотно. Также Canvas, в отличие от чата, лучше запоминает контекст + работает над конкретными разделами или даже строками.

Так вот теперь в Canvas добавили интерпретатор кода! Его можно запускать прямо внутри бота с помощью кнопки Run. При этом GPT видит все трейсы с ошибками и может писать комментарии прямо в них. Можно даже рисовать графики, и работает это достаточно быстро! В общем, просто идеально для дебаггинга и рефакторинга.

Кроме того, OpenAI сделали Canvas доступным для всех (даже для фри юзеров), а еще его можно будет встроить в собственные GPTs: делается это очень просто через настройки конфигураций. В дополнение ко всему, для комментирования текста и кода теперь использовать инструмент еще удобнее: бот выделяет кусочки прямо в ваших запросах и записывает комментарии справа от них (похоже на умные заметки в стиле Google Docs).

День пятый

Этот день – для фанатов Apple: разработчики рассказали про интеграцию ChatGPT в iPhone и Mac. Siri теперь будет использует модели OpenAI (в ней прямо так и пишется, working with chatgpt). А еще на айфонах в Apple Intelligence доступно дополнительное расширение ChatGPT. Например, в Visual Intelligence в камере будет непосредственный доступ к GPT-4o, можно будет показывать модельке видео в реальном времени. Для Mac тоже добавили расширение ChatGPT в настройках. Можно использовать writing tools (то есть напиши, допиши, измени, объясни и тд.) почти в любом приложении, анализировать документы прямо внутри Finder с ChatGPT и задавать по ним вопросы.

К слову, это даже не совсем новинка. Сама Apple тизерила такие возможности еще осенью, а сотрудничество с OpenAI, по открытым источникам, обсуждалось уже год.

День шестой: экватор

И снова долгожданный, но не новый релиз: Advanced Voice Mode. Модель наконец-то работает с видео и демонстрацией экрана в реальном времени. Работает довольно быстро и хорошо запоминает все, что ей показывают. Получается «бесплатный» идеальный инструктор в любом деле. Доступ уже выдали почти всем, поддержка русского языка также присутствует. Также в войсмод добавили голос Санты, он доступен при нажатии на снежинку, так что заряжаемся новогодним настроением.

День седьмой

Седьмой день можно охарактеризовать так: мелочь, а приятно. В этот день разработчики наконец-то завезли в ChatGPT папки! Это та самая фича, за которую все так обожают Claude от Anthropic, и которой так давно и отчаянно не хватало в ChatGPT.

Итак, папки. Это могут быть просто директории для группировки диалогов на одну тему или полноценные рабочие директории, которые содержат разные чаты для разных задач в одном и том же проекте. Туда можно добавлять файлы, которые будут в контексте бота во всех новых диалогах и общие инструкции для проекта. Например, один раз пишем «мы работаем над кодом для телеграм бота» и подгружаем рабочие файлы, и все: внутри каждого диалога внутри этой папки бот уже понимает контекст и может обращаться к прикрепленному коду. В проект можно добавлять уже существующие диалоги или создавать новые внутри.

Попробуйте найти на этом изображении пасхалку :) — Попробуйте найти на этом изображении пасхалку 🙂

День восьмой

Эта неделя началась с того, что OpenAI показали обновления для SearchGPT. Сам инструмент анонсировали в июле – это встроенный поисковик ChatGPT, с помощью которого можно собирать информацию из Интернета. На практике это работает так: вы задаете вопрос, включаете специальный режим, и бот, вместо того чтобы просто генерировать ответ, ищет источники для ответа в сети, аггрегирует и суммаризирует их, а затем отдает вам отчет со всеми ссылками.

Так вот теперь SearchGPT стал еще быстрее и умнее, а также доступен еще и в голосовом режиме. Задаете вопрос вслух – а модель анализирует источники и отвечает также вслух. При этом прямо в приложении можно кликать на ссылки и открывать превью веб-страниц без перехода в браузер. Даже карты можно смотреть прямо в чате. При этом весь функционал SearchGPT теперь доступен бесплатным пользователям.

А еще бонус: теперь можно использовать GPT как дефолтный поисковик в браузере. Для этого просто загрузите это расширение.

День девятый

Во вторник проходил DevDay: показывали несколько обновлений API. Вот они все по порядку:

В API o1 наконец-то завезли работу с изображениями, внутренние вызовы ассистентов (например, когда модели нужно что-то посчитать) и структурированные выводы в json.
Более тонкая настройка следования инструкциям: теперь можно определять developer промпты (что-то среднее между системными промптами и запросами пользователя) и задавать их «важность» относительно промптов юзера. Так можно даже настроить какой-то собственный alignment.
Reasoning effords: теперь можно самостоятельно настраивать, сколько модель должна думать над вопросами. Пожалуй, самая долгожданная фича этого дня.
Также показали preference finetuning. Новый вид файнтюнинга, специально для настройки пользовательских предпочтений в режиме датасета «хорошо-плохо» (для этого понадобиться небольшой датасет с положительными и отрицательными примерами ответов). Пока доступно для GPT-4o, скоро обещают завезти в o1.
А еще в Realtime API добавили совместимость с WebRTC (кстати, цены на Realtime API снизили более чем вдвое, на 60%), это повышает скорость и надежность интеграций Realtime API в веб-приложения и на сайты. Например, прямо на стриме разработчики с помощью 50 строк кода и мини-чипа сделали говорящую игрушку северного оленя.

День десятый

Если бы здесь была номинация «самый непредсказуемый», то десятый день однозначно победил бы: OpenAI абсолютно внезапно показали интеграцию ChatGPT в WhatsApp и звонки.

Теперь GPT можно добавить в контакты по номеру 1-800-242-84-78, позвонить ему (пока только США) или попереписываться с ним в WhatsApp (любой регион, но с российскими номерами пока не работает). Работает даже с кнопочной нокии и допотопного телефона с колесиком. Повезло американским бабушкам 🙂

День одиннадцатый

И снова приятные мелочи: начиная со вчерашнего дня приложению ChatGPT можно будет стримить определенные приложения одним нажатием кнопки. Например, можно дать доступ к приложению с данными, а в чате попросить нарисовать по ним график, и он это сделает. Или показать код, и модель будет работать с ним и с ошибками в нем, при этом ничего копировать в чат не нужно. Голосовой режим так использовать тоже можно.

Конечно, все это уже в целом доступно в продвинутом Voice Mode, но зато этими инструментами можно будет пользоваться бесплатно.

День двенадцатый: финал!

И вот, наконец, сегодня.

Слухи про то, что OpenAI покажут на последнем стриме новую мощную модель, прогремели еще вчера: крупное издание The Information опубликовало новость о том, что OpenAI собираются релизить модель o3. Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок. А еще вчера в X Сэм Альтман твитнул «ho-ho-ho», и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3.

Так что сомнений почти не оставалось. И… o3 действительно выходит, но пока она никому не доступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов? Он долгое время считался трушной проверкой на AGI. На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно). Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще OpenAI хвастаются своим alignment’ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ. В общий доступ обе модели обещают выпустить в январе.

ссылка на оригинал статьи https://habr.com/ru/articles/868522/