1. Введение
Современные LLM (Large Language Models) — это черные ящики. Мы знаем, что они что-то умеют, но как они это делают внутри — остается загадкой. Существует целое направление — механистическая интерпретируемость (mechanistic interpretability), которое пытается заглянуть внутрь нейросетей и найти алгоритмы, зашитые в весах. Ключевая идея этого направления: если модель обучилась решать задачу (например, арифметику), то внутри её residual stream формируется геометрическая структура — числа начинают лежать на окружности, а операции сводятся к вращению. Это не просто паттерн, это настоящий скомпилированный алгоритм. Вопрос, который мы задали: можно ли взять этот алгоритм из маленькой обученной модели и «пересадить» его в большую LLM во время inference? Без дообучения, без градиентов, без данных. Просто взять внутреннее состояние и подставить его в другую модель. Если бы это работало, мы бы получили способ усиления больших моделей узкоспециализированными маленькими, минуя дорогостоящий fine-tuning. Проведены серии экспериментов. И спойлером отвечу на вопрос: ответ — да, но с большими ограничениями. И эти ограничения говорят о фундаментальной природе работы LLM.
2. Grokking: когда модель компилирует алгоритм
Для эксперимента мы взяли игрушечную задачу — модульную арифметику: . Маленький трансформер (2 слоя, d_model=128) обучался на 30% всех возможных пар (9409 примеров). Grokking — это явление, когда модель сначала запоминает обучающую выборку (train_acc=1.0), но долгое время показывает случайный результат на валидации (val_acc≈0.01). А потом внезапно, через тысячи эпох, происходит резкий скачок — модель обобщает алгоритм.
Наши результаты обучения:
-
Эпоха 0-8000: Train loss падает, Val acc ≈ 0.01.
-
Эпоха ~13500: Val acc резко прыгает до 0.9994 и держится стабильно.
Почему это не меморизация? Мы провели две проверки:
-
PCA проекция активаций чисел от 0 до 96. В 2D-пространстве числа легли ровно на окружность. Это классическое Фурье-представление (Neel Nanda, 2023).
PCA-график Фурье представления -
Линейный пробник (Probe) на residual stream слоя 1 показал accuracy = 1.0. Это значит, что по активациям модели можно линейно определить результат сложения. Модель действительно скомпилировала алгоритм в веса, а не выучила таблицу.
3. Гипотеза
Мы исходили из простого предположения: если алгоритм — это геометрическая структура в residual stream (векторы в ), то между двумя моделями разного размера, решающими одну и ту же задачу, должен существовать линейный оператор
, который переводит одну структуру в другую.
Математически:
Если
— residual вектор маленькой модели, а
— residual вектор большой модели, то должен существовать
такой, что:
И если мы впрыснем
в большую модель на нужном слое, она выдаст правильный ответ, даже если сама не умеет решать эту задачу.
Это была амбициозная гипотеза. И мы методично проверили, где она ломается.
4. Серия экспериментов: что пробовали и почему не работало
Мы провели 6 экспериментов, постепенно сужая круг поиска.
Эксперимент 1: Случайная проекция 128 → 2560
Самый простой способ — взять случайную матрицу и надеяться, что структура сохранится.
-
Результат: cos_sim = 0.33, улучшение точности +0.005 (статистический шум).
-
Вывод: Случайная матрица разрушает геометрию. Проекция должна быть обучена.
Эксперимент 2: Обученная W через MSE
Обучили линейный слой минимизировать среднеквадратичную ошибку между активациями моделей: .
-
Результат: cos_sim = 0.30, улучшение точности 0.00 (delta=0).
-
Почему провал: MSE оптимизирует глобальное расстояние между точками. Она старается, чтобы векторы стояли рядом, но это не значит, что классы (числа 0..96) становятся линейно разделимыми. Оптимизировали близость, а не структуру.
Эксперимент 3: Чистый эксперимент (единый токенизатор)
В предыдущих экспериментах большая модель (Phi-2) имела BPE-токенизатор, а маленькая — прямой индекс (число 42 → токен 42). Мы решили убрать этот фактор, обучив большую модель с тем же словарем на 97 токенов.
-
Результат: cos_sim = 0.30 остался таким же низким.
-
Вывод: Проблема глубже, чем токенизатор. Даже при одинаковых «буквах» модели используют разные внутренние языки.
Эксперимент 4: inputs_embeds патч
Мы попробовали подать в Phi-2 не текстовый промпт, а готовые эмбеддинги через inputs_embeds, минуя токенизатор.
-
Результат: accuracy упала с базовых 0.24 до 0.01 (случайный уровень).
-
Вывод: Phi-2 — это языковая модель. Без текстового контекста (
"What is X + Y?") она не понимает, что от неё хотят. Просто два вектора на входе — это для нее белый шум.
Эксперимент 5: Residual stream патч с контекстом (ключевой)
Мы добавили текстовый промпт, сохранили контекст задачи, но заменили residual вектор на последней позиции на (смешивание через alpha). Перебирали alpha от 0.0 до 1.0. Результат: Пик точности при alpha=0.5 — +7% улучшения (с 0.235 до 0.305). При alpha=1.0 (полная замена) точность падает до 0.015.
-
Диагностика (ключевое открытие):
-
Мы поставили Linear Probe на слое L+1. Он показал 1.0 — информация о правильном ответе есть в residual stream на 100%.
-
Мы поставили Logit Lens (подали этот же вектор напрямую в LM head, пропустив оставшиеся слои). Точность упала до 0.005.
-
Противоречие: Информация есть (probe=1.0), но финальный слой модели (LM head) не может её прочитать (logit=0.005)!
-
-
Вывод: Маленькая модель кодирует числа в базисе Фурье (вращения на окружности). Phi-2 кодирует числа в языковом базисе (контекст, синтаксис, семантика).
перенес геометрию, но LM head Phi-2 обучен читать только свой родной языковой базис. Он видит Фурье-вектор как «иероглиф» и не может его расшифровать.
5. Ключевая находка: почему мост невозможен
Эксперимент 5 дал нам главный ответ на изначальный вопрос. Grokking компилирует алгоритм в веса. Phi-2 симулирует алгоритм через язык. Это два принципиально разных механизма. Линейный мост между ними невозможен не из-за разной размерности (128 vs 2560) и не из-за токенизатора. Он невозможен, потому что природа представлений фундаментально разная. Мы пытались вставить готовый математический ответ прямо в лингвистический процессор. Процессор сломался, потому что не смог перевести математику в слова.
-
В скомпилированной модели (grokking): ответ лежит в плоскости низкой размерности (2D окружность). Это чистая математика.
-
В языковой модели (Phi-2): ответ вычисляется через цепочку текстовых зависимостей, attention и контекст. Это лингвистика.
6. Что из этого следует? Адаптер как решение
Если LM head не читает Фурье-базис, мы можем заменить LM head на свой маленький адаптер. Мы обучили простой линейный слой Linear(2560 → 97) поверх патченного residual stream (слой L+1).
Результаты адаптера:
|
Условие |
Alpha |
Точность адаптера |
|---|---|---|
|
Без патча (baseline) |
0.0 |
0.023 (шум) |
|
Полный патч (без контекста) |
1.0 |
0.999 (99.9%) |
|
Частичный патч (с контекстом) |
0.5 |
0.192 (19.2%) |
-
При alpha=1.0 (мы полностью заменили вектор ответа) адаптер решает задачу идеально (99.9%). Это доказывает, что перенос геометрии через
работает безупречно.
-
При alpha=0.5 (мы сохранили контекст) адаптер показывает только 19.2%. Это цена сохранения универсальности. Чтобы Phi-2 не сломалась и продолжала генерировать связный язык, мы не можем полностью перезаписывать её состояние — мы можем лишь слегка подталкивать его (alpha=0.5), но при этом теряем большую часть алгоритмической силы.
Матрица ошибок при alpha=1.0 — чистая диагональ. Ни одного неверного предсказания.
7. Выводы и открытые вопросы
Мы построили что-то типа рабочего прототипа Residual Tool:
-
Маленькая модель (SLM) вычисляет алгоритм и создает residual вектор.
-
Линейная проекция W переводит этот вектор в пространство большой модели (LLM).
-
Адаптер (Linear(2560, 97)) раскодирует результат.
Это работает, но с серьезным ограничением: чтобы LLM не потеряла способность генерировать текст, мы можем подмешивать только малую долю патча (alpha < 0.5), иначе языковый контекст разрушается. В режиме полного замещения (alpha=1.0) мы получаем идеальную точность, но модель перестает быть универсальным генератором — она становится просто классификатором.
Итог: Мы экспериментально доказали, что residual stream — это не просто черный ящик. Это хорошо структурированное геометрическое пространство. Но разные модели говорят на разных языках. Мы научились переводить с одного на другой, но пока не научили большой языковой мозг понимать этот перевод без потери контекста.
Техническое приложение
|
Параметр |
Маленькая модель (A) |
Большая модель (B — Phi-2) |
|---|---|---|
|
Слои |
2 |
32 |
|
d_model |
128 |
2560 |
|
Задача |
(a+b) mod 97 |
(a+b) mod 97 (prompt) |
|
Точность |
0.9994 |
0.235 (baseline) |
|
W проекция |
R^128 → R^2560 |
Обучена через MSE + Ortho Loss |
|
Cos_sim |
0.82 (на эмбеддингах) |
0.30 (на residual) |
|
Лучший alpha |
— |
0.5 |
|
Адаптер |
— |
Linear(2560, 97) = 99.9% |
ссылка на оригинал статьи https://habr.com/ru/articles/1052114/