Вышла Llama 3.3 70B с качеством на уровне Llama 3.1 405B. Модель LLM для генерации текста

от автора

Представлена Llama 3.3 размером 70B, которая, по заявлениям создателей, показывает себя на том же уровне ответов как и 405B, но в 5 раз легче.

Размер контекста 128K (реализовано через Yarn, без Yarn 32k), модель обучалась на 15T+ (триллионов) токенов, актуальные знания только на декабрь 2023.

В общем никаких отличий от Llama 3.1, кроме качества. Можно сказать, что это файнтюн 3.1 версии, так как разница только в пост-обучении, где использовались новые подходы и предпочтения ответов.

По многим бенчмаркам модель соответствует уровню 405B версии или даже обходит её, но для запуска модели требует в разы меньше ресурсов, что делает её доступной для запуска на домашнем ПК при использовании квантованной версии.

Карточка модели: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

gguf: https://huggingface.co/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

gguf imatrix: https://huggingface.co/bartowski/Llama-3.3-70B-Instruct-GGUF

Версия от bartowski с imatrix подразумевает использование матрицы важности для всех квантов, не только для для I-квантов, но и для статичных K-квантов, кроме Q8_0. Его матрица важности сделана из английской wiki, что повышает качество квантизации для английского использования, но может хуже подходить для русского текста.

Как запускать локально (CPU или CPU + GPU): https://habr.com/ru/articles/831272/


ссылка на оригинал статьи https://habr.com/ru/articles/864668/