Можно ли пересадить алгоритм из маленькой модели в LLM? Эксперимент с grokking, residual stream и линейной проекцией

1. Введение

Современные LLM (Large Language Models) — это черные ящики. Мы знаем, что они что-то умеют, но как они это делают внутри — остается загадкой. Существует целое направление — механистическая интерпретируемость (mechanistic interpretability), которое пытается заглянуть внутрь нейросетей и найти алгоритмы, зашитые в весах. Ключевая идея этого направления: если модель обучилась решать задачу (например, арифметику), то внутри её residual stream формируется геометрическая структура — числа начинают лежать на окружности, а операции сводятся к вращению. Это не просто паттерн, это настоящий скомпилированный алгоритм. Вопрос, который мы задали: можно ли взять этот алгоритм из маленькой обученной модели и «пересадить» его в большую LLM во время inference? Без дообучения, без градиентов, без данных. Просто взять внутреннее состояние и подставить его в другую модель. Если бы это работало, мы бы получили способ усиления больших моделей узкоспециализированными маленькими, минуя дорогостоящий fine-tuning. Проведены серии экспериментов. И спойлером отвечу на вопрос: ответ — да, но с большими ограничениями. И эти ограничения говорят о фундаментальной природе работы LLM.

2. Grokking: когда модель компилирует алгоритм

Для эксперимента мы взяли игрушечную задачу — модульную арифметику: $(a + b) \bmod 97$ . Маленький трансформер (2 слоя, d_model=128) обучался на 30% всех возможных пар (9409 примеров). Grokking — это явление, когда модель сначала запоминает обучающую выборку (train_acc=1.0), но долгое время показывает случайный результат на валидации (val_acc≈0.01). А потом внезапно, через тысячи эпох, происходит резкий скачок — модель обобщает алгоритм.

Наши результаты обучения:

Эпоха 0-8000: Train loss падает, Val acc ≈ 0.01.
Эпоха ~13500: Val acc резко прыгает до 0.9994 и держится стабильно.

Почему это не меморизация? Мы провели две проверки:

PCA проекция активаций чисел от 0 до 96. В 2D-пространстве числа легли ровно на окружность. Это классическое Фурье-представление (Neel Nanda, 2023).

PCA-график Фурье представления
Линейный пробник (Probe) на residual stream слоя 1 показал accuracy = 1.0. Это значит, что по активациям модели можно линейно определить результат сложения. Модель действительно скомпилировала алгоритм в веса, а не выучила таблицу.

3. Гипотеза

Мы исходили из простого предположения: если алгоритм — это геометрическая структура в residual stream (векторы в ), то между двумя моделями разного размера, решающими одну и ту же задачу, должен существовать линейный оператор , который переводит одну структуру в другую.

Математически:

Если — residual вектор маленькой модели, а — residual вектор большой модели, то должен существовать $W: R^{128} → R^{2560}$ такой, что:

И если мы впрыснем в большую модель на нужном слое, она выдаст правильный ответ, даже если сама не умеет решать эту задачу.

Это была амбициозная гипотеза. И мы методично проверили, где она ломается.

4. Серия экспериментов: что пробовали и почему не работало

Мы провели 6 экспериментов, постепенно сужая круг поиска.

Эксперимент 1: Случайная проекция 128 → 2560

Самый простой способ — взять случайную матрицу и надеяться, что структура сохранится.

Результат: cos_sim = 0.33, улучшение точности +0.005 (статистический шум).
Вывод: Случайная матрица разрушает геометрию. Проекция должна быть обучена.

Эксперимент 2: Обученная W через MSE

Обучили линейный слой минимизировать среднеквадратичную ошибку между активациями моделей: $\left \lVert W·h_A - h_B\right \rVert^2$ .

Результат: cos_sim = 0.30, улучшение точности 0.00 (delta=0).
Почему провал: MSE оптимизирует глобальное расстояние между точками. Она старается, чтобы векторы стояли рядом, но это не значит, что классы (числа 0..96) становятся линейно разделимыми. Оптимизировали близость, а не структуру.

Эксперимент 3: Чистый эксперимент (единый токенизатор)

В предыдущих экспериментах большая модель (Phi-2) имела BPE-токенизатор, а маленькая — прямой индекс (число 42 → токен 42). Мы решили убрать этот фактор, обучив большую модель с тем же словарем на 97 токенов.

Результат: cos_sim = 0.30 остался таким же низким.
Вывод: Проблема глубже, чем токенизатор. Даже при одинаковых «буквах» модели используют разные внутренние языки.

Эксперимент 4: inputs_embeds патч

Мы попробовали подать в Phi-2 не текстовый промпт, а готовые эмбеддинги через inputs_embeds, минуя токенизатор.

Результат: accuracy упала с базовых 0.24 до 0.01 (случайный уровень).
Вывод: Phi-2 — это языковая модель. Без текстового контекста ("What is X + Y?") она не понимает, что от неё хотят. Просто два вектора на входе — это для нее белый шум.

Эксперимент 5: Residual stream патч с контекстом (ключевой)

Мы добавили текстовый промпт, сохранили контекст задачи, но заменили residual вектор на последней позиции на (смешивание через alpha). Перебирали alpha от 0.0 до 1.0. Результат: Пик точности при alpha=0.5 — +7% улучшения (с 0.235 до 0.305). При alpha=1.0 (полная замена) точность падает до 0.015.

Диагностика (ключевое открытие):
- Мы поставили Linear Probe на слое L+1. Он показал 1.0 — информация о правильном ответе есть в residual stream на 100%.
- Мы поставили Logit Lens (подали этот же вектор напрямую в LM head, пропустив оставшиеся слои). Точность упала до 0.005.
- Противоречие: Информация есть (probe=1.0), но финальный слой модели (LM head) не может её прочитать (logit=0.005)!
Вывод: Маленькая модель кодирует числа в базисе Фурье (вращения на окружности). Phi-2 кодирует числа в языковом базисе (контекст, синтаксис, семантика). перенес геометрию, но LM head Phi-2 обучен читать только свой родной языковой базис. Он видит Фурье-вектор как «иероглиф» и не может его расшифровать.

5. Ключевая находка: почему мост невозможен

Эксперимент 5 дал нам главный ответ на изначальный вопрос. Grokking компилирует алгоритм в веса. Phi-2 симулирует алгоритм через язык. Это два принципиально разных механизма. Линейный мост между ними невозможен не из-за разной размерности (128 vs 2560) и не из-за токенизатора. Он невозможен, потому что природа представлений фундаментально разная. Мы пытались вставить готовый математический ответ прямо в лингвистический процессор. Процессор сломался, потому что не смог перевести математику в слова.

В скомпилированной модели (grokking): ответ лежит в плоскости низкой размерности (2D окружность). Это чистая математика.
В языковой модели (Phi-2): ответ вычисляется через цепочку текстовых зависимостей, attention и контекст. Это лингвистика.

6. Что из этого следует? Адаптер как решение

Если LM head не читает Фурье-базис, мы можем заменить LM head на свой маленький адаптер. Мы обучили простой линейный слой Linear(2560 → 97) поверх патченного residual stream (слой L+1).

Результаты адаптера:

Условие	Alpha	Точность адаптера
Без патча (baseline)	0.0	0.023 (шум)
Полный патч (без контекста)	1.0	0.999 (99.9%)
Частичный патч (с контекстом)	0.5	0.192 (19.2%)

При alpha=1.0 (мы полностью заменили вектор ответа) адаптер решает задачу идеально (99.9%). Это доказывает, что перенос геометрии через работает безупречно.
При alpha=0.5 (мы сохранили контекст) адаптер показывает только 19.2%. Это цена сохранения универсальности. Чтобы Phi-2 не сломалась и продолжала генерировать связный язык, мы не можем полностью перезаписывать её состояние — мы можем лишь слегка подталкивать его (alpha=0.5), но при этом теряем большую часть алгоритмической силы.

Матрица ошибок при alpha=1.0 — чистая диагональ. Ни одного неверного предсказания.

7. Выводы и открытые вопросы

Мы построили что-то типа рабочего прототипа Residual Tool:

Маленькая модель (SLM) вычисляет алгоритм и создает residual вектор.
Линейная проекция W переводит этот вектор в пространство большой модели (LLM).
Адаптер (Linear(2560, 97)) раскодирует результат.

Это работает, но с серьезным ограничением: чтобы LLM не потеряла способность генерировать текст, мы можем подмешивать только малую долю патча (alpha < 0.5), иначе языковый контекст разрушается. В режиме полного замещения (alpha=1.0) мы получаем идеальную точность, но модель перестает быть универсальным генератором — она становится просто классификатором.

Итог: Мы экспериментально доказали, что residual stream — это не просто черный ящик. Это хорошо структурированное геометрическое пространство. Но разные модели говорят на разных языках. Мы научились переводить с одного на другой, но пока не научили большой языковой мозг понимать этот перевод без потери контекста.

Техническое приложение

Параметр	Маленькая модель (A)	Большая модель (B — Phi-2)
Слои	2	32
d_model	128	2560
Задача	(a+b) mod 97	(a+b) mod 97 (prompt)
Точность	0.9994	0.235 (baseline)
W проекция	R^128 → R^2560	Обучена через MSE + Ortho Loss
Cos_sim	0.82 (на эмбеддингах)	0.30 (на residual)
Лучший alpha	—	0.5
Адаптер	—	Linear(2560, 97) = 99.9%

ссылка на оригинал статьи https://habr.com/ru/articles/1052114/