
Представляем новинку, которая уже получила высокие оценки от экспертов мирового уровня. Книга Андрея Буркова «Языковые модели без лишних слов: Практика на PyTorch» — это продолжение знаменитой серии его «стостраничных» учебников, на этот раз посвящённое самым актуальным темам современного искусственного интеллекта — большим языковым моделям (LLM).
Об авторе и его подходе
Андрей Бурков — канадский специалист по машинному обучению, руководитель ML-команд в Gartner и TalentNeuron, доктор философии в области искусственного интеллекта. Он автор всемирно известного бестселлера «Машинное обучение без лишних слов» (The Hundred-Page Machine Learning Book), который переведён на 12 языков и разошёлся по всему миру тиражом десятки тысяч экземпляров.
В своих «стостраничных» книгах он не продает магию, а объясняет инженерию. На Хабре уже появлялись переводы его интервью, где он жестко критикует хайп вокруг AI-агентов и LLM. В его текстах присутствует здоровый скептицизм и прагматизм: модель — это математическая функция, и, чтобы она хорошо работала, нужно понимать ее устройство, а не просто вызывать API.
Помимо книг, Андрей ведёт популярную еженедельную рассылку True Positive Weekly (платформа Substack), в которой собирает самые важные новости и статьи из мира искусственного интеллекта и машинного обучения. На сегодняшний день у рассылки более 20 000 подписчиков — это один из авторитетных источников дайджестов в индустрии.
В своих подкастах и интервью он часто говорит о реалиях индустрии, предостерегает от хайповых продавцов «змеиного масла» (snake oil salesmen) и дает конкретные советы по карьере в ML. Подписчики могут быть в курсе не только технических новинок, но и понимать, куда движется рынок.
Что говорят эксперты?
Книга уже получила положительные отзывы от лидеров индустрии и ведущих исследователей:
«Долгожданное продолжение “стостраничной” серии учебников Андрея по машинному обучению — это шедевр лаконичности».
— Боб ван Луйт (Bob van Luijt), генеральный директор и соучредитель Weaviate
«Андрей обладает почти сверхъестественным талантом сводить эпические концепции искусственного интеллекта к нескольким байтам размера “А, теперь я понял!”»
— Хорхе Торрес (Jorge Torres), генеральный директор MindsDB
«Андрей 100 чудесными мазками описывает для нас путь от основ линейной алгебры до внедрения трансформеров».
— Флориан Дуэто (Florian Douetteau), соучредитель и генеральный директор Dataiku
«Книга Андрея — это невероятно краткое, понятное и доступное введение в машинное обучение».
— Андре Заярни (Andre Zayarni), соучредитель и генеральный директор Qdrant
«Это одно из самых полных и в то же время кратких руководств, позволяющих по-настоящему понять, как работают модели LLM».
— Джерри Лю (Jerry Liu), соучредитель и генеральный директор LlamaIndex
Особого внимания заслуживает предисловие, написанное Томашем Миколовым (Tomáš Mikolov) — старшим научным сотрудником Чешского института информатики, робототехники и кибернетики, автором знаменитых алгоритмов word2vec и FastText. Миколов, который два десятилетия назад начинал с нейронных языковых моделей, когда это направление считалось «мёртвым», высоко оценивает книгу как идеальную точку входа для новичков.
О чём книга и почему ее стоит почитать?
Издание выходит в самый разгар бума интереса к ИИ, когда российские читатели всё чаще ищут структурированную и глубокую информацию о современных технологиях. Как показывают данные книжных сервисов, в 2025 году спрос на литературу об ИИ и LLM в России вырос в разы, и новая книга Буркова своевременно закрывает эту потребность
«Языковые модели без лишних слов» — это удачный выбор для разработчиков, дата-сайентистов, ML-инженеров и всех, кто хочет не просто пользоваться нейросетями, а понимать их внутреннее устройство и создавать собственные решения. Книга проведёт читателя от самых азов до создания собственных моделей на PyTorch. Она даёт ровно столько математики, сколько нужно для понимания, и сопровождает каждую концепцию работающим кодом. Автор сжато излагает теорию и предоставляет полные, готовые к запуску примеры кода в формате Jupyter-блокнотов, которые можно сразу опробовать на практике (в том числе бесплатно в Google Colab). Это мост между поверхностными статьями и сложными академическими трудами, который поможет быстро войти в профессию.
В книге последовательно разбираются все ключевые элементы:
-
Основы машинного обучения — от простых моделей до градиентного спуска и нейронных сетей.
-
Представление текста — мешок слов, эмбеддинги (word2vec, GloVe, FastText) и токенизация методом кодирования парами байтов (BPE).
-
Архитектуры — подробный разбор рекуррентных нейронных сетей (RNN) и трансформеров, механизм самовнимания, многопотоковое внимание (multi-head), поворотные позиционные эмбеддинги (RoPE), остаточные связи и нормализация.
-
Большие языковые модели (LLM) — почему масштаб имеет значение, методы тонкой настройки (включая LoRA), промпт-инжиниринг, выборка из решений модели (температура, top‑k, top‑p), а также ключевые проблемы LLM: галлюцинации, вопросы авторского права и этики.
-
Обзор передовых тем — Mixture of Experts (MoE), слияние моделей, сжатие, согласование на основе предпочтений (RLHF, constitutional AI), визуально-языковые модели и безопасность LLM.
Примеры из глав
Пишем GPT-4 за завтраком: урок лаконичности
Чтобы развеять миф о «сложности небес», заглянем в 4-ю главу. Механизм самовнимания (Self-Attention), который в обычных учебниках расписан на 20 страницах формул, у Буркова превращается в стройный класс Python на 15 строк. При этом автор простыми словами объясняет, зачем здесь нужна маска (masked_fill) и почему Rotary Position Embedding (rope) делает позиционные эмбеддинги лучше. После чего любой разработчик сможет не только запустить, но и модифицировать под свои задачи модель уровня GPT. Вот как выглядит рабочий код:
pythonclass AttentionHead(nn.Module): def __init__(self, emb_dim, d_h): super().__init__() self.W_Q = nn.Parameter(torch.empty(emb_dim, d_h)) self.W_K = nn.Parameter(torch.empty(emb_dim, d_h)) self.W_V = nn.Parameter(torch.empty(emb_dim, d_h)) self.d_h = d_h def forward(self, x, mask): Q = x @ self.W_Q K = x @ self.W_K V = x @ self.W_V Q, K = rope(Q), rope(K) # <- применение Rotary Position Embedding scores = Q @ K.transpose(-2, -1) / math.sqrt(self.d_h) masked_scores = scores.masked_fill(mask == 0, float("-inf")) attention_weights = torch.softmax(masked_scores, dim=-1) return attention_weights @ V
Флориан Дуэто (Florian Douetteau) говорил про «100 чудесных мазков» — этот фрагмент показывает, как теория превращается в практику.
Наглядный пример с векторами слов из Главы 2 (Эмбеддинги)
Но не кодом единым… Математическую простоту и понятность для новичков хорошо демонстрирует пример с векторами слов из Главы 2. Бурков показывает, как слово превращается в координаты на графике, и как можно складывать понятия (Король — Мужчина + Женщина ≈ Королева). Книга подходит даже тем, кто пока не уверенно чувствует себя в векторах.
Заключение
«Языковые модели без лишних слов» — это однозначно must-read для любого, кто хочет перейти от статуса «пользователя ChatGPT» к статусу «разработчика, который сам обучает и дообучает LLM». Книга закрывает огромный пробел между поверхностными статьями в блогах и сложными академическими текстами. Она дает необходимый и достаточный объем знаний, чтобы начать создавать собственные языковые модели и уверенно чувствовать себя в современном NLP.
Берите книгу, запускайте блокноты и погружайтесь в мир LLM без лишних слов!
При покупке книги на сайте издательства “БХВ” используйте промокод HABRBHV, который дает скидку 36%.
ссылка на оригинал статьи https://habr.com/ru/articles/1041960/