Новости из мира больших языковых моделей продолжают радовать день за днём. «Стенфордский подход» к fine tuning’у (это когда одну LLM дообучают по данным, полученным из другой LLM) продолжает давать жизнь новым интересным проектам.
В прошлый раз это была Dolly, в этот раз это gpt4all. В отличие от Alpaca, которую дотренировали всего на ~54k примерах из ChatGPT, эту модель тренировали на 437k примерах За основу взяли всё ту же LLaMA.
Поиграться с моделькой просто — клонируем проект с гитхаба, качаем файл модели (с российских IP адресов что-то недоступно, но там же есть magnet линки и торренты), подкладываем и запускаем. На гитхабе всё подробно расписано.
Качаем, запускаем, делимся впечатлениями.
Ссылки:
-
Сайт проекта — https://github.com/nomic-ai/gpt4all
-
Whitepaper модели — https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf
И еще, на закуску. Буквально на днях вышла еще одна очень интересная серия моделей — Cerebras-GPT. Доступны веса от 111M до 13B. Их ключевое преимущество — лицензия Apache 2.0 и оптимальнее обучение — https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/
Апдейт 31.03.2023 по наводке @Aniro нашлась еще одна модель из альпакоподобных — Vicuna 13B — https://vicuna.lmsys.org/ Весов пока не опубликовали, но на бумаге и демке выглядит очень круто!
ссылка на оригинал статьи https://habr.com/ru/articles/725826/
Добавить комментарий