Можно ли пересадить алгоритм из маленькой модели в LLM? Эксперимент с grokking, residual stream и линейной проекцией

от автора

1. Введение

Современные LLM (Large Language Models) — это черные ящики. Мы знаем, что они что-то умеют, но как они это делают внутри — остается загадкой. Существует целое направление — механистическая интерпретируемость (mechanistic interpretability), которое пытается заглянуть внутрь нейросетей и найти алгоритмы, зашитые в весах. Ключевая идея этого направления: если модель обучилась решать задачу (например, арифметику), то внутри её residual stream формируется геометрическая структура — числа начинают лежать на окружности, а операции сводятся к вращению. Это не просто паттерн, это настоящий скомпилированный алгоритм. Вопрос, который мы задали: можно ли взять этот алгоритм из маленькой обученной модели и «пересадить» его в большую LLM во время inference? Без дообучения, без градиентов, без данных. Просто взять внутреннее состояние и подставить его в другую модель. Если бы это работало, мы бы получили способ усиления больших моделей узкоспециализированными маленькими, минуя дорогостоящий fine-tuning. Проведены серии экспериментов. И спойлером отвечу на вопрос: ответ — да, но с большими ограничениями. И эти ограничения говорят о фундаментальной природе работы LLM.

2. Grokking: когда модель компилирует алгоритм

Для эксперимента мы взяли игрушечную задачу — модульную арифметику: (a + b) \bmod 97. Маленький трансформер (2 слоя, d_model=128) обучался на 30% всех возможных пар (9409 примеров). Grokking — это явление, когда модель сначала запоминает обучающую выборку (train_acc=1.0), но долгое время показывает случайный результат на валидации (val_acc≈0.01). А потом внезапно, через тысячи эпох, происходит резкий скачок — модель обобщает алгоритм.

Наши результаты обучения:

  • Эпоха 0-8000: Train loss падает, Val acc ≈ 0.01.

  • Эпоха ~13500: Val acc резко прыгает до 0.9994 и держится стабильно.

Почему это не меморизация? Мы провели две проверки:

  1. PCA проекция активаций чисел от 0 до 96. В 2D-пространстве числа легли ровно на окружность. Это классическое Фурье-представление (Neel Nanda, 2023).

    PCA-график Фурье представления

    PCA-график Фурье представления
  2. Линейный пробник (Probe) на residual stream слоя 1 показал accuracy = 1.0. Это значит, что по активациям модели можно линейно определить результат сложения. Модель действительно скомпилировала алгоритм в веса, а не выучила таблицу.

3. Гипотеза

Мы исходили из простого предположения: если алгоритм — это геометрическая структура в residual stream (векторы в R^d), то между двумя моделями разного размера, решающими одну и ту же задачу, должен существовать линейный оператор W, который переводит одну структуру в другую.

Математически:

Если h_A(a, b) — residual вектор маленькой модели, а h_B(a, b) — residual вектор большой модели, то должен существовать W: R^{128} → R^{2560} такой, что:

W · h_A(a, b) ≈ h_B(a, b)

И если мы впрыснем W · h_A в большую модель на нужном слое, она выдаст правильный ответ, даже если сама не умеет решать эту задачу.

Это была амбициозная гипотеза. И мы методично проверили, где она ломается.

4. Серия экспериментов: что пробовали и почему не работало

Мы провели 6 экспериментов, постепенно сужая круг поиска.

Эксперимент 1: Случайная проекция 128 → 2560

Самый простой способ — взять случайную матрицу и надеяться, что структура сохранится.

  • Результат: cos_sim = 0.33, улучшение точности +0.005 (статистический шум).

  • Вывод: Случайная матрица разрушает геометрию. Проекция должна быть обучена.

Эксперимент 2: Обученная W через MSE

Обучили линейный слой минимизировать среднеквадратичную ошибку между активациями моделей: \left \lVert W·h_A - h_B\right \rVert^2.

  • Результат: cos_sim = 0.30, улучшение точности 0.00 (delta=0).

  • Почему провал: MSE оптимизирует глобальное расстояние между точками. Она старается, чтобы векторы стояли рядом, но это не значит, что классы (числа 0..96) становятся линейно разделимыми. Оптимизировали близость, а не структуру.

Эксперимент 3: Чистый эксперимент (единый токенизатор)

В предыдущих экспериментах большая модель (Phi-2) имела BPE-токенизатор, а маленькая — прямой индекс (число 42 → токен 42). Мы решили убрать этот фактор, обучив большую модель с тем же словарем на 97 токенов.

  • Результат: cos_sim = 0.30 остался таким же низким.

  • Вывод: Проблема глубже, чем токенизатор. Даже при одинаковых «буквах» модели используют разные внутренние языки.

Эксперимент 4: inputs_embeds патч

Мы попробовали подать в Phi-2 не текстовый промпт, а готовые эмбеддинги через inputs_embeds, минуя токенизатор.

  • Результат: accuracy упала с базовых 0.24 до 0.01 (случайный уровень).

  • Вывод: Phi-2 — это языковая модель. Без текстового контекста ("What is X + Y?") она не понимает, что от неё хотят. Просто два вектора на входе — это для нее белый шум.

Эксперимент 5: Residual stream патч с контекстом (ключевой)

Мы добавили текстовый промпт, сохранили контекст задачи, но заменили residual вектор на последней позиции на W·h_A (смешивание через alpha). Перебирали alpha от 0.0 до 1.0. Результат: Пик точности при alpha=0.5 — +7% улучшения (с 0.235 до 0.305). При alpha=1.0 (полная замена) точность падает до 0.015.

  • Диагностика (ключевое открытие):

    • Мы поставили Linear Probe на слое L+1. Он показал 1.0 — информация о правильном ответе есть в residual stream на 100%.

    • Мы поставили Logit Lens (подали этот же вектор напрямую в LM head, пропустив оставшиеся слои). Точность упала до 0.005.

    • Противоречие: Информация есть (probe=1.0), но финальный слой модели (LM head) не может её прочитать (logit=0.005)!

  • Вывод: Маленькая модель кодирует числа в базисе Фурье (вращения на окружности). Phi-2 кодирует числа в языковом базисе (контекст, синтаксис, семантика). W перенес геометрию, но LM head Phi-2 обучен читать только свой родной языковой базис. Он видит Фурье-вектор как «иероглиф» и не может его расшифровать.

5. Ключевая находка: почему мост невозможен

Эксперимент 5 дал нам главный ответ на изначальный вопрос. Grokking компилирует алгоритм в веса. Phi-2 симулирует алгоритм через язык. Это два принципиально разных механизма. Линейный мост между ними невозможен не из-за разной размерности (128 vs 2560) и не из-за токенизатора. Он невозможен, потому что природа представлений фундаментально разная. Мы пытались вставить готовый математический ответ прямо в лингвистический процессор. Процессор сломался, потому что не смог перевести математику в слова.

  • В скомпилированной модели (grokking): ответ лежит в плоскости низкой размерности (2D окружность). Это чистая математика.

  • В языковой модели (Phi-2): ответ вычисляется через цепочку текстовых зависимостей, attention и контекст. Это лингвистика.

6. Что из этого следует? Адаптер как решение

Если LM head не читает Фурье-базис, мы можем заменить LM head на свой маленький адаптер. Мы обучили простой линейный слой Linear(2560 → 97) поверх патченного residual stream (слой L+1).

Результаты адаптера:

Условие

Alpha

Точность адаптера

Без патча (baseline)

0.0

0.023 (шум)

Полный патч (без контекста)

1.0

0.999 (99.9%)

Частичный патч (с контекстом)

0.5

0.192 (19.2%)

  • При alpha=1.0 (мы полностью заменили вектор ответа) адаптер решает задачу идеально (99.9%). Это доказывает, что перенос геометрии через W работает безупречно.

  • При alpha=0.5 (мы сохранили контекст) адаптер показывает только 19.2%. Это цена сохранения универсальности. Чтобы Phi-2 не сломалась и продолжала генерировать связный язык, мы не можем полностью перезаписывать её состояние — мы можем лишь слегка подталкивать его (alpha=0.5), но при этом теряем большую часть алгоритмической силы.

Матрица ошибок при alpha=1.0 — чистая диагональ. Ни одного неверного предсказания.

7. Выводы и открытые вопросы

Мы построили что-то типа рабочего прототипа Residual Tool:

  1. Маленькая модель (SLM) вычисляет алгоритм и создает residual вектор.

  2. Линейная проекция W переводит этот вектор в пространство большой модели (LLM).

  3. Адаптер (Linear(2560, 97)) раскодирует результат.

Это работает, но с серьезным ограничением: чтобы LLM не потеряла способность генерировать текст, мы можем подмешивать только малую долю патча (alpha < 0.5), иначе языковый контекст разрушается. В режиме полного замещения (alpha=1.0) мы получаем идеальную точность, но модель перестает быть универсальным генератором — она становится просто классификатором.

Итог: Мы экспериментально доказали, что residual stream — это не просто черный ящик. Это хорошо структурированное геометрическое пространство. Но разные модели говорят на разных языках. Мы научились переводить с одного на другой, но пока не научили большой языковой мозг понимать этот перевод без потери контекста.

Техническое приложение

Параметр

Маленькая модель (A)

Большая модель (B — Phi-2)

Слои

2

32

d_model

128

2560

Задача

(a+b) mod 97

(a+b) mod 97 (prompt)

Точность

0.9994

0.235 (baseline)

W проекция

R^128 → R^2560

Обучена через MSE + Ortho Loss

Cos_sim

0.82 (на эмбеддингах)

0.30 (на residual)

Лучший alpha

0.5

Адаптер

Linear(2560, 97) = 99.9%

ссылка на оригинал статьи https://habr.com/ru/articles/1052114/