Рождение LLM: история, которую мало кто знает

Когда люди слышат «языковая модель», у большинства сразу всплывает ChatGPT, Gemini, ну или на худой конец что-то связанное с Яндексом. Но мало кто задумывается — а с чего вообще всё началось? Кто первым решил, что машина может понимать текст не по шаблону, а по-настоящему?

Я попробую рассказать эту историю без лишнего академизма — просто, но честно.

До нейросетей была статистика

Конец 1980-х. Никаких тебе трансформеров, никакого обучения с подкреплением. Тогда языковые модели строились на банальной статистике — модель просто смотрела, какое слово чаще всего следует за предыдущим. Это называлось n-граммными моделями.

Работало это примерно так: если ты написал «Я хочу есть», модель по статистике предсказывала следующее слово — «пиццу», «суши», «борщ» — в зависимости от того, на каких текстах её обучили. Грубо, примитивно, но это был первый реальный шаг.

Проблема была очевидной — такие модели не понимали контекст дальше двух-трёх слов. Предложение из десяти слов для них уже было тёмным лесом. Плюс они жрали огромное количество памяти: чтобы хранить статистику для всех возможных троек слов в большом корпусе текстов, нужны были гигабайты — по тем временам это было реально больно.

IBM и первые попытки сделать что-то умнее

В начале 90-х в IBM Research работала группа людей, которые всерьёз занялись машинным переводом. Они создали модели под названием IBM Model 1-5 — и это был уже другой уровень. Модели учились находить соответствия между словами в разных языках, опираясь на большие корпуса параллельных текстов.

Параллельно в AT&T Bell Labs Ян Лекун со своей командой возился с нейронными сетями. Тогда это выглядело как академическая экзотика, на которую никто особо не ставил. Финансирование резали, скептики говорили что это тупик. Период с конца 80-х по середину 90-х в ML-сообществе вообще называют «зимой ИИ» — интерес и деньги ушли, большинство исследователей переключились на другие задачи.

Но именно эти два направления — статистика и нейросети — в итоге и слились в то, что мы сегодня называем LLM.

2003 год — момент, который все пропустили

В 2003 году Йошуа Бенджио с коллегами опубликовал работу «A Neural Probabilistic Language Model». Это была та самая точка, после которой всё начало меняться.

Они предложили не просто считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Причём каждое слово превращалось в вектор — числовое представление в многомерном пространстве. Слова с похожим смыслом оказывались «рядом» в этом пространстве.

Тогда это называлось word embeddings — и именно отсюда растут ноги у всего современного NLP.

Статью прочитали немногие. Никакого хайпа не было. Просто тихая, важная работа. На конференции NeurIPS того года её встретили вежливым интересом — не более. Бенджио потом говорил, что они сами не до конца понимали, что сделали.

Word2Vec — когда мир начал замечать

2013 год. Команда Google во главе с Томасом Миколовым выпускает Word2Vec — и вот тут уже народ начинает реально удивляться.

Модель умела делать вещи, от которых у людей ехала крыша:

«король» — «мужчина» + «женщина» = «королева»

Не потому что кто-то это запрограммировал. Модель сама вывела эту логику из текстов. Причём это работало для десятков таких аналогий — страны и столицы, профессии и инструменты, глаголы и их формы. Модель захватила структуру языка просто через предсказание соседних слов.

Это был момент, когда стало понятно — что-то в этом направлении реально работает. Именно тогда в сторону NLP начали смотреть большие компании с большими бюджетами.

ELMo и контекст, которого так не хватало

2018 год, чуть раньше GPT. Команда AllenNLP выпускает ELMo — и решает проблему, которую Word2Vec так и не смог закрыть.

В Word2Vec слово «ключ» всегда имело один вектор — неважно, речь про ключ от квартиры или ключ в музыке. ELMo впервые сделал так, чтобы представление слова зависело от контекста, в котором оно стоит. Это звучит как мелочь, но на практике это был огромный скачок в качестве.

Модель читала предложение в обоих направлениях — слева направо и справа налево — и собирала контекст с обеих сторон. Отсюда и название: ELMo — Embeddings from Language Models.

Трансформер — тот самый перелом

2017 год. Google Brain публикует статью «Attention Is All You Need». Именно здесь рождается архитектура трансформера — основа всех современных LLM.

До этого нейросети читали текст последовательно — слово за словом. Трансформер отказался от этой идеи. Он смотрит на весь текст сразу и учится понимать, какие слова связаны друг с другом по смыслу — независимо от того, насколько далеко они стоят в предложении.

Механизм назвали «attention» — внимание. Модель буквально учится «обращать внимание» на нужные части текста. Грубо говоря: читая слово «он» в конце длинного абзаца, модель понимает, что «он» — это конкретный человек, упомянутый десять предложений назад.

Плюс трансформер считается параллельно — в отличие от рекуррентных сетей, которые были до него. Это значит, что его можно эффективно обучать на GPU. Именно это открыло дорогу к масштабированию.

И вот тут всё понеслось.

GPT-1 — первая настоящая LLM

2018 год. OpenAI выпускает GPT-1 — Generative Pre-trained Transformer. 117 миллионов параметров. Обучена на книгах из открытого интернета.

По современным меркам — смешной размер. Но по тем временам это был прорыв. Модель умела генерировать связный текст, отвечать на вопросы и переключаться между задачами без отдельного обучения под каждую. Это называлось «few-shot learning» — ты просто давал модели пару примеров прямо в запросе, и она понимала, что от неё хотят.

GPT-2 в 2019-м OpenAI поначалу отказались публиковать полностью — сказали, что модель «слишком опасна». Сейчас это выглядит смешно, но тогда 1.5 миллиарда параметров казались чем-то запредельным. GPT-3 в 2020-м — уже 175 миллиардов. А дальше — всем известный ChatGPT в конце 2022 года и то, что последовало за ним.

Но корни — вот здесь, в этой цепочке от статистики 80-х до трансформера 2017 года.

Сейчас LLM уже не просто генерируют текст. Они встроены в рабочие инструменты, приложения, голосовые помощники. Модели читают картинки, слушают голос, пишут код. Порог входа для обычного пользователя упал до нуля.

Если хочешь попробовать несколько топовых моделей в одном месте — есть бесплатный Telegram-бот, который я использую сам. Там собраны лучшие модели, без ограничений на количество сообщений и без подписок. Можно переключаться между режимами Fast и Thinking — смотря какая задача. Настроить скиллы, выбрать роль для бота. Он распознаёт текст с фото, описывает изображения, решает задания по картинке, транскрибирует голосовые в текст — и сам принимает голосовые промпты. Всё в одном месте.

Вместо вывода

История LLM — это не история одного гения и одного открытия. Это лет сорок тихой работы десятков команд, которые делали своё дело, пока никто не смотрел. Статистики, лингвисты, математики, инженеры — все они по чуть-чуть складывали этот пазл.

Бенджио, Хинтон и Лекун в 2018-м получили премию Тьюринга — что-то вроде нобелевки в компьютерных науках. Журналисты тогда написали про это пару строчек и забыли. А через четыре года весь мир узнал, что такое ChatGPT.

В какой-то момент пазл сложился. Теперь мы все пользуемся результатом — зачастую даже не задумываясь, откуда это всё взялось.

ссылка на оригинал статьи https://habr.com/ru/articles/1046686/