Новая модель OpenAI достигла предела

от автора

Shutterstock

Shutterstock

Последняя модель OpenAI показала ограничения традиционного подхода к масштабированию, что заставило компанию разделить разработку ИИ на специализированные направления. По информации источников, знакомых с вопросом, новая модель OpenAI демонстрирует меньшие приросты производительности по сравнению с предшественниками, пишет The Information.

Тестирование среди сотрудников показало, что Orion достиг уровня GPT-4, пройдя всего лишь 20% своего обучения, сообщает The Information. Однако прирост качества от GPT-4 до текущей версии GPT-5 оказался скромнее, чем переход от GPT-3 к GPT-4. «Некоторые исследователи компании считают, что Orion не всегда лучше справляется с задачами по сравнению с предшественником, особенно в программировании, хотя он показывает более высокие результаты в текстовых задачах», — говорится в отчете.

Хотя достижение уровня GPT-4 на ранних этапах обучения впечатляет, важно понимать, что начальные стадии ИИ-обучения, как правило, дают самые значительные улучшения, после чего темпы прироста замедляются. Таким образом, оставшиеся 80% времени обучения вряд ли дадут такой же прогресс, как в предыдущих версиях, утверждают источники.

 V7 Labs

 V7 Labs

Эти ограничения проявились в критический момент для OpenAI после недавнего финансирования на $6,6 миллиарда. Теперь у компании растут ожидания со стороны инвесторов, а также технические ограничения, которые ставят под сомнение традиционные подходы к масштабированию ИИ. Если первые версии новых моделей не оправдают ожиданий, то компания может столкнуться с трудностями в привлечении средств в будущем, что может стать проблемой для потенциально коммерческой компании, которой OpenAI хочет стать по замыслу Сэма Альтмана.

Скромные результаты указывают на фундаментальную проблему, стоящую перед всей ИИ-индустрией: уменьшение количества качественных данных для обучения и необходимость оставаться конкурентоспособными в стремительно развивающейся сфере генеративного ИИ.

Исследование, опубликованное в июне, предсказывает, что ИИ-компании исчерпают доступные данные, созданные людьми, к 2026-2032 годам, что станет поворотным моментом для традиционных методов развития.

«Наши выводы показывают, что текущие тенденции в разработке больших языковых моделей не могут быть поддержаны за счет простого увеличения данных», — говорится в исследовании, указывая на необходимость альтернативных подходов, таких как создание синтетических данных, перенос знаний из других областей с богатым набором данных и использование непубличных данных.

Традиционный подход, предполагающий обучение моделей на общедоступных текстах с сайтов, книг и других источников, достиг точки, где дальнейшее улучшение становится все менее эффективным, согласно The Information.

Как OpenAI справляется с этой проблемой: модели для рассуждений против языковых моделей

Чтобы преодолеть эти трудности, OpenAI радикально меняет подход к разработке ИИ. Компания разделила разработку на два направления: Серия O (предположительно с кодовым названием Strawberry) сфокусирована на способности к рассуждениям. Эти модели используют значительно больше ресурсов и предназначены для решения сложных задач. По предварительным оценкам, затраты на вычисления для этой модели примерно в шесть раз выше, чем у текущих моделей. Тем не менее, улучшенные аналитические способности могут оправдать такие расходы для приложений, требующих продвинутой обработки данных.

Эта модель (если это Strawberry) также предназначена для создания синтетических данных, которые могут улучшать качество языковых моделей OpenAI. Параллельно продолжается развитие серии Orion или GPT, которая сосредоточена на общих языковых задачах. Эти модели остаются более экономичными в плане вычислений и используют свои широкие знания для выполнения задач по написанию и аргументации. Кевин Вейл, директор по продуктам OpenAI, подтвердил на одной из сессий AMA, что в будущем планируется объединить оба направления. «Не вопрос “либо-либо”, мы делаем и то, и другое», — сказал он, говоря о масштабировании языковых моделей с помощью данных и фокусе на меньших, но быстрых моделях.

Временное решение или конечный выход из ситуации?

Подход OpenAI к проблеме нехватки данных через генерацию синтетических данных порождает множество сложностей. Исследователи разрабатывают модели, способные генерировать данные для обучения, но этот метод также создает новые сложности в поддержании качества и надежности моделей. Как отмечает Decrypt, обучение на синтетических данных — это палка о двух концах. С одной стороны, оно решает проблему нехватки данных, но с другой — увеличивает риск снижения качества и надежности модели. По мере того как модели обучаются на контенте, созданном ИИ, они могут усиливать незаметные ошибки в результатах, что приводит к сложным для выявления и исправления последствиям.

Команда OpenAI работает над новыми механизмами фильтрации, чтобы поддерживать высокое качество данных, и внедряет методы проверки, которые помогут отличать качественные данные от потенциально проблемных синтетических данных. Они также изучают гибридные подходы, которые сочетают в себе данные, созданные человеком и ИИ, чтобы минимизировать недостатки и усилить преимущества обеих сторон.

Улучшение после начального этапа обучения также стало актуальным. Исследователи разрабатывают новые методы для повышения производительности моделей после основного обучения, предлагая способ улучшения возможностей без необходимости увеличения объема данных для обучения.

Тем не менее, GPT-5 остается моделью на ранней стадии разработки с большим объемом работы впереди. Сэм Альтман, CEO OpenAI, уже отметил, что модель не будет готова к запуску ни в этом, ни в следующем году.


ссылка на оригинал статьи https://habr.com/ru/articles/857784/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *