Новую LLM talkie обучили на текстах до 1931 года

Трое ИИ-исследователей, включая Алека Редфорда (соавтора GPT 1.0), опубликовали новую языковую модель talkie с 13 миллиардами параметров. Она обучена исключительно на текстах, опубликованных до 1931 года, так что и знания о мире у неё заканчиваются этим годом, и в стилистике текста она отталкивается от старых источников. Пообщаться с ней можно на официальном сайте.

Создатели модели отмечают, что она полезна в различных исследовательских целях:

Можно с её помощью исследовать, насколько LLM способны прогнозировать. Поскольку нам уже известны события после 1931-го, можем оценивать, получится ли у модели правильно предположить что-либо о них.
Можно смотреть, насколько способна модель в областях, отсутствовавших в её обучающем датасете. Эта LLM изначально не знает ничего про код. Что будет, если объяснять ей в промптах и просить что-то сделать? Оказывается, что в некоторых случаях у неё получилось давать правильные ответы на Python, когда речь о простых однострочниках.

Также в её случае полезно отсутствие проблемы контаминации. Модели, обученные на всём содержании интернета, могут знать многое о тех бенчмарках, с помощью которых их оценивают, и «подстраиваться» под правильные результаты. В результате у людей возникает искажённое и завышенное представление об их возможностях моделей. А у talkie нет информации о бенчмарках, что позволяет проводить замеры точнее.

Авторы отмечают, что можно будет ещё больше понять, если сравнить ретро-модели разных размеров. Поэтому они намерены в будущем обучать новые с большим количеством параметров.

ссылка на оригинал статьи https://habr.com/ru/articles/1028908/