Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.
Размер контекста 128K (реализовано через Yarn, без Yarn 32k), модель обучалась на 15T+ (триллионов) токенов, актуальные знания только на декабрь 2023.
В общем никаких отличий от Llama 3.1, кроме качества. Можно сказать, что это файнтюн 3.1 версии, так как разница только в пост-обучении, где использовались новые подходы и предпочтения ответов.
По многим бенчмаркам модель соответствует уровню 405B версии или даже обходит её, но для запуска модели требует в разы меньше ресурсов, что делает её доступной для запуска на домашнем ПК при использовании квантованной версии.
Карточка модели: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
gguf: https://huggingface.co/lmstudio-community/Llama-3.3-70B-Instruct-GGUF
gguf imatrix: https://huggingface.co/bartowski/Llama-3.3-70B-Instruct-GGUF
Версия от bartowski с imatrix подразумевает использование матрицы важности для всех квантов, не только для для I-квантов, но и для статичных K-квантов, кроме Q8_0. Его матрица важности сделана из английской wiki, что повышает качество квантизации для английского использования, но может хуже подходить для русского текста.
Как запускать локально (CPU или CPU + GPU): https://habr.com/ru/articles/831272/
ссылка на оригинал статьи https://habr.com/ru/articles/864668/
Добавить комментарий