Уход к дообучению моделей? Google купила исследователей и технологии Character.ai

от автора

Даниэль Де Фрейтас (слева) и Ноам Шазир, основатели стартапа Character.ai

Даниэль Де Фрейтас (слева) и Ноам Шазир, основатели стартапа Character.ai

Компания Google и стартап Character.ai объявили о сотрудничестве. В рамках достигнутых соглашений Google получит неэксклюзивные права на технологии больших языковых моделей Character.ai, а исполнительный директор стартапа Ноам Шазир и второй сооснователь Даниэль Де Фрейтас начнут работать в подразделении DeepMind. Сама Character.ai собирается поробовать перейти на дообучение открытых моделей.

С самых ранних дней Google было очевидно, что компания лишь маскируется под поисковик, а на деле её основная сфера деятельности — искусственный интеллект. Такое мнение высказывает один из абзацев статьи журнала New Yorker от 2018 года. Для иллюстрации приводится пример: в 2001 году один из сотрудников Google Ноам Шазир устал от поведения системы проверки правописания и написал собственную с элементами ИИ.

В те годы Google лицензировала спеллчекер у сторонней компании. Статья не приводит, для чего был нужен этот продукт, но вероятно, что для исправления поисковых запросов с опечатками.

Эта система проверки правописания делала глупые ошибки уровня «мультик анальный». В статье New Yorker в пример приводится исправление TurboTax (популярный в США программный пакет для подготовки налоговых деклараций) на turbot ax — грамматические правильные, но не имеющие смысла в этом порядке существительные: рыба тюрбо и топор. Подобные спеллчекеры хороши настолько, насколько богат их словарь.

На тот момент Шазир — молодой инженер, который делит кабинет с Джеффом Дином и Санджаем Гемаватом. Известными все они станут куда позже. Шазиру пришла мысль, что проиндексированный Веб — самый огромный словарь в истории. Чтобы воспользоваться этим массивом информации, инженер написал программу, которая оценивала статистические свойства текста во Всемирной паутине и определяла, какие слова могли оказаться опечатками. К примеру, pritany spears и brinsley spears — это явно неправильное написание имени популярной в начале 2000-х певицы Britney Spears.

В те годы в корпоративной культуре Google ещё были пятничные встречи TGIF [Thank God It’s Friday, «слава богу, сегодня пятница»]; их заметно переработают лишь в 2019 году. Собственную систему Шазир представил на одной из таких TGIF. Его творение подвергли тесту попытками обмануть, но спеллчекер Шазира не ошибался.

На уровне слухов эта история пересказывается чуть иначе: якобы подобную идею Ноам предложил на собеседовании в Google, а затем инженера взяли, чтобы он реализовал спеллчекер на практике. Точно известно, что Шазир и Дин в дальнейшем применили похожие принципы ИИ, чтобы связать рекламные объявления с контекстом страницы.

Таргетирование рекламы до сих пор приносит основной объём доходов Google. Шазир же покинул Google в октябре 2021 года, а в ноябре вместе с другим бывшим сотрудником Google Даниэлем Де Фрейтасом он основал стартап Character.ai.

Character.ai — это приложение на основе больших языковых моделей (БЯМ) с набором чат-ботов, которые общаются с пользователями. Боты берут на себя роль людей или персонажей, а затем отыгрывают собственное поведение в чате. Создают ботов сами пользователи: пишут текстовое описание и выгружают аватар.

Как Фрейтас, так и Шазир были одними из ключевых исследователей искусственного интеллекта в Google. Достаточно сказать, что имя Ноама стоит под легендарной исследовательской работой «Attention Is All You Need», которая связана с изобретением трансформеров. Даниэль работал над экспериментальным проектом ИИ Meena, который затем перерос в LaMDA. Именно с этой БЯМ связана история, в которой один из инженеров Google заявил о наличии у нейросети сознания.

Активность Ноама Шазира (ник nshazeer) в репозитории проекта Mesh TensorFlow. GitHub

Активность Ноама Шазира (ник nshazeer) в репозитории проекта Mesh TensorFlow. GitHub

В ноябре 2022 года для всех желающих открылся сервис ChatGPT организации OpenAI и практически сразу обрёл огромную популярность. 100 миллионов пользователей ChatGPT набрал в январе 2023 года, всего за два месяца.

В Google почти сразу была объявлена тревога, начались разбирательства, к работе подключились основатели компании Ларри Пейдж и Сергей Брин. Выяснилось, что у Google была схожая с GPT-3.5 БЯМ LaMDA, но её не запустили в виде сервиса по типу ChatGPT из-за неких репутационных рисков.

К февралю 2023 года у Google была готовая тестовая версия чаб-бота Bard. В марте в очередном раунде инвестиций стартап Character.ai достиг миллиард долларов капитализации. В заявлении для прессы сооснователь стартапа-единорога Фрейтас тогда отвечал на вопросы о конкуренции: хотя два продукта делят пользовательскую базу, Google ничего интересного не произведёт. Даниэль объяснил свою уверенность тем, что уже работал в Google.

Вообще, не известно доподлинно, почему два сотрудника Google уволились и начали свой стартап. Инсайды из СМИ утверждают (archive.is/bNxEQ), будто руководство Google осознанно пресекало попытки создать систему по типу ChatGPT.

Глава материнского холдинга Alphabet и самой Google Сундар Пичаи якобы лично запретил Шазиру и Фрейтасу давать обещания выпустить чат-бота на основе LaMDA. При этом сооснователи Character.ai якобы ещё в 2020 году пытались встроить LaMDA в Google Assistant и экспериментировали с ответами от БЯМ на пользовательские вопросы.

Именно Шазиру принадлежат знаменитые слова «Мы не можем дать ответ, почему эти архитектуры [трансформеры], кажется, эффективны; мы приписываем их успех, как и всё остальное, божественной благосклонности». Подобное он пишет в выводе статьи «GLU Variants Improve Transformer» [arXiv:2002.05202]

Именно Шазиру принадлежат знаменитые слова «Мы не можем дать ответ, почему эти архитектуры [трансформеры], кажется, эффективны; мы приписываем их успех, как и всё остальное, божественной благосклонности». Подобное он пишет в выводе статьи «GLU Variants Improve Transformer» [arXiv:2002.05202]

Сам Ноам конфликты упоминает крайне расплывчато. К примеру, в одном из интервью на 46-й минуте он буквально в одном предложении говорит об экспериментах с LaMDA, за которыми последовали разногласия, выход из Google и основание Character.ai.

Дальнейшее развитие чат-ботов Google всё же привело к появлению Gemini. Этот продукт конкурирует с лучшими решениями на рынке: обходит их в синтетических бенчмарках и превосходит по некоторым параметрам. Ни одна другая БЯМ не может похвастать двумя миллионами токенов контекстного окна.

Тем не менее завоевать предпочтение пользователей не удалось. К примеру, обзор платного варианта Gemini Advanced от CNET критикует бота за низкое качество ответов на даже базовые вопросы и плохие способности к анализу информации. Обзор выносит вердикт: $20 в месяц лучше потратить на другой продукт.

Вчера, 2 августа 2024 года, стартап Character.ai объявил о начале партнёрства с Google. В рамках достигнутых соглашений Google получит неэксклюзивные права на технологии БЯМ Character.ai. Стартап получает от поисковой компании финансирование, чтобы, как утверждается, продолжать расти и развивать персонализированные продукты на искусственном интеллекте.

Также Character.ai сообщает, что Ноам Шазир, Даниэль Де Фрейтас и несколько других неназванных членов исследовательской группы стартапа перейдут на работу в Google. В комментарии для издания TechCrunch Шазир ограничился официозным заявлением о том, что рад вернуться в Google и присоединиться к команде подразделения DeepMind. Google не поясняет, в какой роли будут работать Ноам и Даниэль.

Блог Character.ai заверяет, что большинство сотрудников стартапа останутся и продолжат развивать продукт. С момента объявления роль руководителя Character.ai временно занял Доминик Перелла, у которого уже есть опыт руководства Snap Inc.

Как объясняет пост в блоге Character.ai, для первых версий продукта приходилось предобучать и дообучать собственные БЯМ. За последние два года состояние индустрии заметно изменилось, теперь есть много предобученных моделей. Character.ai заявляет, что собирается больше использовать сторонние БЯМ.

В будущем предобучение действительно не будет иметь смысла, а более мелкие игроки сфокусируются на дообучении, дистилляции и прочих техниках доработки моделей под собственные нужды. Такие мнения в ответ на эту новость высказали (1, 2) связанные с индустрией наблюдатели в микроблогах.

Действительно, предобучение больших языковых моделей — крайне дорогая операция. К примеру, для создания Llama компания Meta* собрала два кластера, в каждом из которых 24 576 ускорителей Nvidia H100. Точная стоимость H100 неизвестна, чаще всего говорят, что один ускоритель сто́ит $25 тыс. В таком случае только на закупку ускорителей было потрачено более $1,2 млрд. А вообще для работы подобных дата-центров нужно много дорогого оборудования, включая проприетарные платформы Quantum2 InfiniBand.

До этого Meta* полагалась на более скромный кластер из 16 тыс. A100. Именно на A100 проходило предобучение Llaama 2. Семейство моделей третьей версии Llama обучалось уже на H100. Чтобы получилась Lllama 3.1 в варианте на 405 млрд параметров, 16 тысяч ускорителей H100 в течение 54 дней обрабатывали датасет из 15 трлн токенов.

Схема, согласно которой щедрые вливания в инфраструктуру помогут достичь универсальный искусственный интеллект. Meta*

Схема, согласно которой щедрые вливания в инфраструктуру помогут достичь универсальный искусственный интеллект. Meta*

Сторонние блогеры прикидывают, что предобучение только Llama 3.1 стоило никак не меньше $100 млн. При этом БЯМ выпущены для всех желающих под относительно свободной лицензией, которая с 3.1 стала ещё более пермиссивной и теперь разрешает обучать другие модели на основе выдачи от продукта Meta*.

Подобные открытые БЯМ возможно дообучить и, если лицензия допускает, использовать в коммерческих целях. Дообучение куда дешевле, чем создание модели с нуля.

В дальнейшем парк ускорителей H100 компания Meta* планирует увеличить на порядок. Утверждается, что к концу года у компании будет 350 тыс. H100. Стоимость этого оборудования составит миллиарды долларов даже по самым скромным оценкам. Зачем нужно столько вычислительной мощи, недавно косвенно объяснил сам глава Meta Марк Цукерберг: для предобучения следующей Llama 4 потребуется в десять раз больше ресурсов, чем для Llama 3.

Конечно, часть компаний может себе позволить такие расходы. Если верить оценкам, OpenAI потратит в этом году на обучение и запуск моделей $7 млрд — и это со скидками от Microsoft на облако Azure. Утверждается, что к концу года убытки компании составят $5 млрд, есть даже угроза банкротства.

Размер Character.ai куда скромнее. В сентябре 2023 года обсуждался новый раунд инвестиций с оценкой в $5 млрд, но он не состоялся. Оценка стоимости так и не вышла за миллиард. Общая сумма вложений в стартап — около $200 млн.

Вполне возможно, что для ИИ-стартапов калибра Character.ai решение уйти в сторону дообучения открытых БЯМ вскоре станет единственно возможным вариантом развития. У сервиса общения с ненастоящим Илоном Маском и нарисованной Йор Форджер просто нет миллиардов на обучение моделей с нуля.


* — экстремистская организация, деятельность которой запрещена


ссылка на оригинал статьи https://habr.com/ru/articles/833558/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *