Языковые модели без лишних слов

Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова «Языковые модели без лишних слов: Практика на PyTorch» — это продолжение знаменитой серии его «стостраничных» учебников, на этот раз посвящённое самым актуальным темам современного искусственного интеллекта — большим языковым моделям (LLM).

Об авторе и его подходе

Андрей Бурков — канадский специалист по машинному обучению, руководитель ML-команд в Gartner и TalentNeuron, доктор философии в области искусственного интеллекта. Он автор всемирно известного бестселлера «Машинное обучение без лишних слов» (The Hundred-Page Machine Learning Book), который переведён на 12 языков и разошёлся по всему миру тиражом десятки тысяч экземпляров.

В своих «стостраничных» книгах он не продает магию, а объясняет инженерию. На Хабре уже появлялись переводы его интервью, где он жестко критикует хайп вокруг AI-агентов и LLM. В его текстах присутствует здоровый скептицизм и прагматизм: модель — это математическая функция, и, чтобы она хорошо работала, нужно понимать ее устройство, а не просто вызывать API.

Помимо книг, Андрей ведёт популярную еженедельную рассылку True Positive Weekly (платформа Substack), в которой собирает самые важные новости и статьи из мира искусственного интеллекта и машинного обучения. На сегодняшний день у рассылки более 20 000 подписчиков — это один из авторитетных источников дайджестов в индустрии.

В своих подкастах и интервью он часто говорит о реалиях индустрии, предостерегает от хайповых продавцов «змеиного масла» (snake oil salesmen) и дает конкретные советы по карьере в ML. Подписчики могут быть в курсе не только технических новинок, но и понимать, куда движется рынок.

Что говорят эксперты?

Книга уже получила положительные отзывы от лидеров индустрии и ведущих исследователей:

«Долгожданное продолжение “стостраничной” серии учебников Андрея по машинному обучению — это шедевр лаконичности».
— Боб ван Луйт (Bob van Luijt), генеральный директор и соучредитель Weaviate

«Андрей обладает почти сверхъестественным талантом сводить эпические концепции искусственного интеллекта к нескольким байтам размера “А, теперь я понял!”»
— Хорхе Торрес (Jorge Torres), генеральный директор MindsDB

«Андрей 100 чудесными мазками описывает для нас путь от основ линейной алгебры до внедрения трансформеров».
— Флориан Дуэто (Florian Douetteau), соучредитель и генеральный директор Dataiku

«Книга Андрея — это невероятно краткое, понятное и доступное введение в машинное обучение».
— Андре Заярни (Andre Zayarni), соучредитель и генеральный директор Qdrant

«Это одно из самых полных и в то же время кратких руководств, позволяющих по-настоящему понять, как работают модели LLM».
— Джерри Лю (Jerry Liu), соучредитель и генеральный директор LlamaIndex

Особого внимания заслуживает предисловие, написанное Томашем Миколовым (Tomáš Mikolov) — старшим научным сотрудником Чешского института информатики, робототехники и кибернетики, автором знаменитых алгоритмов word2vec и FastText. Миколов, который два десятилетия назад начинал с нейронных языковых моделей, когда это направление считалось «мёртвым», высоко оценивает книгу как идеальную точку входа для новичков.

О чём книга и почему ее стоит почитать?

Издание выходит в самый разгар бума интереса к ИИ, когда российские читатели всё чаще ищут структурированную и глубокую информацию о современных технологиях. Как показывают данные книжных сервисов, в 2025 году спрос на литературу об ИИ и LLM в России вырос в разы, и новая книга Буркова своевременно закрывает эту потребность

«Языковые модели без лишних слов» — это удачный выбор для разработчиков, дата-сайентистов, ML-инженеров и всех, кто хочет не просто пользоваться нейросетями, а понимать их внутреннее устройство и создавать собственные решения. Книга проведёт читателя от самых азов до создания собственных моделей на PyTorch. Она даёт ровно столько математики, сколько нужно для понимания, и сопровождает каждую концепцию работающим кодом. Автор сжато излагает теорию и предоставляет полные, готовые к запуску примеры кода в формате Jupyter-блокнотов, которые можно сразу опробовать на практике (в том числе бесплатно в Google Colab). Это мост между поверхностными статьями и сложными академическими трудами, который поможет быстро войти в профессию.

В книге последовательно разбираются все ключевые элементы:

Основы машинного обучения — от простых моделей до градиентного спуска и нейронных сетей.
Представление текста — мешок слов, эмбеддинги (word2vec, GloVe, FastText) и токенизация методом кодирования парами байтов (BPE).
Архитектуры — подробный разбор рекуррентных нейронных сетей (RNN) и трансформеров, механизм самовнимания, многопотоковое внимание (multi-head), поворотные позиционные эмбеддинги (RoPE), остаточные связи и нормализация.
Большие языковые модели (LLM) — почему масштаб имеет значение, методы тонкой настройки (включая LoRA), промпт-инжиниринг, выборка из решений модели (температура, top‑k, top‑p), а также ключевые проблемы LLM: галлюцинации, вопросы авторского права и этики.
Обзор передовых тем — Mixture of Experts (MoE), слияние моделей, сжатие, согласование на основе предпочтений (RLHF, constitutional AI), визуально-языковые модели и безопасность LLM.

Примеры из глав

Пишем GPT-4 за завтраком: урок лаконичности

Чтобы развеять миф о «сложности небес», заглянем в 4-ю главу. Механизм самовнимания (Self-Attention), который в обычных учебниках расписан на 20 страницах формул, у Буркова превращается в стройный класс Python на 15 строк. При этом автор простыми словами объясняет, зачем здесь нужна маска (masked_fill) и почему Rotary Position Embedding (rope) делает позиционные эмбеддинги лучше. После чего любой разработчик сможет не только запустить, но и модифицировать под свои задачи модель уровня GPT. Вот как выглядит рабочий код:

pythonclass AttentionHead(nn.Module):    def __init__(self, emb_dim, d_h):        super().__init__()        self.W_Q = nn.Parameter(torch.empty(emb_dim, d_h))        self.W_K = nn.Parameter(torch.empty(emb_dim, d_h))        self.W_V = nn.Parameter(torch.empty(emb_dim, d_h))        self.d_h = d_h    def forward(self, x, mask):        Q = x @ self.W_Q        K = x @ self.W_K        V = x @ self.W_V        Q, K = rope(Q), rope(K)  # <- применение Rotary Position Embedding        scores = Q @ K.transpose(-2, -1) / math.sqrt(self.d_h)        masked_scores = scores.masked_fill(mask == 0, float("-inf"))        attention_weights = torch.softmax(masked_scores, dim=-1)        return attention_weights @ V

Флориан Дуэто (Florian Douetteau) говорил про «100 чудесных мазков» — этот фрагмент показывает, как теория превращается в практику.

Наглядный пример с векторами слов из Главы 2 (Эмбеддинги)

Но не кодом единым… Математическую простоту и понятность для новичков хорошо демонстрирует пример с векторами слов из Главы 2. Бурков показывает, как слово превращается в координаты на графике, и как можно складывать понятия (Король — Мужчина + Женщина ≈ Королева). Книга подходит даже тем, кто пока не уверенно чувствует себя в векторах.

Заключение

«Языковые модели без лишних слов» — это однозначно must-read для любого, кто хочет перейти от статуса «пользователя ChatGPT» к статусу «разработчика, который сам обучает и дообучает LLM». Книга закрывает огромный пробел между поверхностными статьями в блогах и сложными академическими текстами. Она дает необходимый и достаточный объем знаний, чтобы начать создавать собственные языковые модели и уверенно чувствовать себя в современном NLP.

Берите книгу, запускайте блокноты и погружайтесь в мир LLM без лишних слов!

При покупке книги на сайте издательства “БХВ” используйте промокод HABRBHV, который дает скидку 36%.

ссылка на оригинал статьи https://habr.com/ru/articles/1041960/