Метрика EICS — ищем у трансформера причинное место

от автора

Неопределённость как потеря причинной согласованности внутри цепи

Неопределённость как потеря причинной согласованности внутри цепи

У больших языковых моделей есть неприятное свойство: снаружи ответ может выглядеть одинаково уверенно и тогда, когда модель действительно «собрала» правильную причинную цепочку, и тогда, когда она просто выдала правдоподобный текст. Классические способы оценки неопределённости — энтропия распределения токенов, калибровка, ансамбли, conformal prediction — полезны, но смотрят на модель как на чёрный ящик.

В этой статье я разберу другой подход: попробовать оценивать неопределённость не только по выходу модели, а по внутренней согласованности активной цепи трансформера. Речь пойдёт о метрике EICSEffective Information Consistency Score. Идея в том, чтобы за один прямой проход получить численную оценку того, насколько найденная трансформерная цепь ведёт себя согласованно и насколько её макроуровневое описание действительно несёт интегрированную информацию.

Статья основана на исследовательской работе об оценке неопределённости в трансформерных цепях на основе согласованности эффективной информации. Здесь я намеренно убрал академическую подачу, оставив интуицию, формулы, алгоритм и практические ограничения.

TL;DR

Если совсем кратко:

  • трансформерную цепь можно рассматривать как подграф внутри модели: узлы — головы внимания и MLP-блоки, рёбра — поток информации;

  • для каждого ребра можно проверить, насколько активация на выходе согласуется с тем, что предсказывает локальная линеаризация этого ребра;

  • эта несогласованность даёт первый компонент метрики: C_{\mathrm{sh}};

  • второй компонент — гауссовский прокси эффективной информации: он показывает, даёт ли цепь как целое больше причинно-информационного сигнала, чем сумма её частей;

  • итоговая метрика EICS растёт, когда цепь одновременно внутренне согласована и имеет положительную макроуровневую интеграцию информации.

Главная формула выглядит так:

\mathrm{EICS}=\frac{\widetilde{\Delta \mathrm{EI}}_{G}}{1+C_{\mathrm{sh}}}

Высокий EICS — сигнал, что выбранная цепь, вероятно, работает согласованно. Низкий EICS — повод проверять, не сломалась ли причинная структура ответа именно внутри этой цепи.

Почему обычной вероятности токенов мало

В практических системах мы часто смотрим на logprob, энтропию или похожие внешние сигналы. Это удобно: их легко получить, они не требуют доступа к внутренностям модели и хорошо ложатся в продуктовую аналитику.

Но у такого подхода есть проблема. Он говорит нам, что модель не уверена на выходе, но почти ничего не говорит о том, где именно внутри модели возникла неопределённость. Это особенно заметно в задачах factual QA: модель может уверенно выдать неверный факт, потому что внутренняя цепь извлечения знания сработала неустойчиво, но распределение следующего токена не всегда покажет это достаточно рано.

В mechanistic interpretability другой фокус. Мы пытаемся найти внутри модели подграфы, которые реализуют конкретные операции: копирование, induction heads, извлечение фактов, перенос информации между позициями. Такие подграфы обычно называют Transformer Circuits.

После того как цепь найдена, возникает отдельный вопрос: а ведёт ли она себя согласованно на конкретном входе?

Это и есть цель EICS: не заменить внешние методы uncertainty quantification, а добавить к ним white-box сигнал, связанный с конкретным механизмом внутри модели.

Что считаем трансформерной цепью

Будем грубо рассматривать трансформер как ориентированный ациклический граф:

  • узлы — attention heads, MLP-блоки или агрегированные компоненты слоя;

  • рёбра — пути, по которым информация передаётся между компонентами;

  • подграф \mathcal{C} — цепь, которая, как предполагается, реализует интересующую нас функцию.

Для входа x каждый узел v имеет активацию a_v. Если есть ребро u\to v, то локально можно аппроксимировать влияние u на v якобианом:

J_{u\to v}=\left.\frac{\partial a_v}{\partial a_u}\right|_{x}

То есть мы не пытаемся заново обучать модель и не делаем серию вмешательств по датасету. Мы берём один forward pass, фиксируем активации и работаем с локальной линеаризацией активной цепи.

Схема: модель как DAG, внутри выделен подграф

Схема: модель как DAG, внутри выделен подграф \mathcal{C}

Первый компонент: несогласованность цепи как «остаток на рёбрах»

Идея такая: если ребро u\to v действительно описывает локальную передачу информации, то активация a_v должна быть близка к тому, что предсказывает линейное отображение J_{u\to v}a_u.

Введём остаток на ребре:

r_{u\to v}=J_{u\to v}a_u-a_v

Если остаток мал, локальное объяснение согласовано с наблюдаемыми активациями. Если остаток велик, в этой части цепи что-то не сходится: либо цепь выбрана неудачно, либо влияние идёт через неучтённый путь, либо сама локальная линейная аппроксимация плоха.

Чтобы агрегировать это по всей цепи, используем нормализованную энергию несогласованности:

C_{\mathrm{sh}}(a)=\frac{\left(\sum_{(u,v)\in E_{\mathcal{C}}}w_{uv}\|J_{u\to v}a_u-a_v\|_2^2\right)^{1/2}}{\varepsilon+\left(\sum_{(u,v)\in E_{\mathcal{C}}}w_{uv}(\|a_u\|_2^2+\|a_v\|_2^2)\right)^{1/2}}

Здесь:

  • E_{\mathcal{C}} — множество рёбер выбранной цепи;

  • w_{uv} — вес ребра, например связанный с нормой оператора или атрибуционной значимостью;

  • \varepsilon — малое число для численной устойчивости.

Эта величина безразмерна. Если C_{\mathrm{sh}} близка к нулю, локальные отображения хорошо согласуются с наблюдаемыми активациями. Если C_{\mathrm{sh}} растёт, цепь начинает вести себя менее связно.

Почему индекс sh? Он отсылает к sheaf theory, теории пучков. В этой интерпретации узлы графа имеют локальные данные, рёбра задают ограничения между ними, а глобальная согласованность означает, что локальные данные можно собрать в одно непротиворечивое состояние. Для целей этой статьи достаточно практического понимания: C_{\mathrm{sh}} — это нормированный сигнал «насколько цепь не склеивается».

Второй компонент: эффективная информация на уровне цепи

Одна низкая несогласованность ещё не означает, что цепь полезна. Можно получить аккуратно согласованный, но почти неинформативный подграф. Поэтому нужен второй компонент: показывает ли цепь как целое более сильную причинно-информационную структуру, чем её части по отдельности.

Для этого используется прокси эффективной информации. Истинная effective information обычно определяется через интервенции, но здесь нужна однопроходная оценка. Поэтому берётся локальная гауссовская модель.

Пусть J — якобиан некоторого отображения. Для малых изотропных возмущений и гауссовского шума можно использовать лог-детерминантный прокси:

\mathrm{EI}_{G}(J;\alpha)=\frac{1}{2}\log\det(I+\alpha JJ^{\top})

Здесь \alpha задаёт масштаб отношения сигнал/шум. Если смотреть на сингулярные значения \sigma_i матрицы J, формула эквивалентна:

\mathrm{EI}_{G}(J;\alpha)=\frac{1}{2}\sum_i\log(1+\alpha\sigma_i^2)

Теперь сравним цепь как целое и её части. Пусть J_{\mathcal{C}} — макро-якобиан от входов цепи к её выходам, а J_k — якобианы частей или ветвей цепи. Тогда положительная нормированная прибавка эффективной информации:

\widetilde{\Delta \mathrm{EI}}_{G}=\frac{\left[\mathrm{EI}_{G}(J_{\mathcal{C}})-\sum_k \mathrm{EI}_{G}(J_k)\right]_+}{\varepsilon+\mathrm{EI}_{G}(J_{\mathcal{C}})}

Грубо: если вся цепь вместе даёт больше, чем сумма отдельных ветвей, то в ней есть полезная макроуровневая интеграция. Если нет — этот компонент обнуляется или становится малым.

Собираем EICS

Теперь можно объединить два сигнала:

\mathrm{EICS}=\frac{\widetilde{\Delta \mathrm{EI}}_{G}}{1+C_{\mathrm{sh}}}

Интерпретация такая:

Ситуация

Что происходит

Что ожидаем от EICS

Низкая несогласованность, положительная effective information

Цепь работает связно и как целое несёт интегрированный сигнал

Высокий

Высокая несогласованность, положительная effective information

Есть сигнал, но рёбра плохо согласованы

Средний или низкий

Низкая несогласованность, но нет макро-интеграции

Цепь аккуратная, но не добавляет причинной структуры

Низкий

Высокая несогласованность и нет макро-интеграции

Цепь неубедительна как объяснение текущего ответа

Низкий

Важная оговорка: EICS — не «детектор истины». Это показатель состояния заданной цепи. Если цепь выбрана плохо, метрика честно измерит согласованность плохого объекта.

Как это считать на практике

Рабочий пайплайн выглядит так.

  1. Сначала нужно выделить цепь \mathcal{C}. Это можно сделать через circuit tracing, attribution graphs или другой метод локализации механизма.

  2. Дальше выполняется один прямой проход модели на входе x.

  3. Для узлов цепи сохраняются активации a_v.

  4. Для рёбер вычисляются локальные Jacobian-vector products/vector-Jacobian products.

  5. По остаткам на рёбрах считается C_{\mathrm{sh}}.

  6. По макро-якобиану цепи и якобианам её частей считается \widetilde{\Delta \mathrm{EI}}_G.

  7. Возвращается итоговый EICS.

В псевдокоде:

input: model M, prompt x, circuit C, noise scale alphaoutput: EICS, C_sh, DeltaEI_G1. run forward pass M(x)2. record activations a_v for all nodes v in C3. for each edge u -> v in C:       compute local JVP/VJP for J_{u->v}       compute residual r_{u->v} = J_{u->v} a_u - a_v4. aggregate residuals into C_sh5. build macro-Jacobian J_C for the circuit6. compute EI_G(J_C) and EI_G(J_k) for circuit parts7. compute normalized positive DeltaEI_G8. return DeltaEI_G/(1 + C_sh)

Быстрый и точный режимы

У метрики есть две вычислительные части: остатки на рёбрах и лог-детерминант для EI-прокси.

Для C_{\mathrm{sh}} полезен трюк с JVP, инициированными узлами. Вместо того чтобы делать отдельный JVP на каждое ребро, можно для каждого исходного узла посчитать JVP один раз и получить остатки для всех исходящих рёбер. Для средних цепей это обычно переводит стоимость из «по числу рёбер» в «по числу активных узлов».

Для EI-прокси есть два режима:

Режим

Когда использовать

Как считать

Быстрый

Нужно ранжировать много промптов или цепей

Малое \alpha, top singular directions, Hutchinson/Hutch++ или Lanczos

Точный

Малые блоки, исследовательский прогон, проверка гипотезы

SVD, Cholesky или eigendecomposition

В быстром режиме не обязательно явно строить все матрицы. Достаточно операций вида JVP/VJP на ограниченном подграфе. Это важно: полная матрица якобиана для реальной LLM быстро становится слишком дорогой.

Как выбрать порог

EICS сам по себе не говорит: «ответ истинный» или «ответ ложный». Его лучше калибровать на задаче.

Например, для factual QA можно собрать два набора:

  • вопросы с проверяемыми корректными ответами;

  • провоцирующие или адверсариальные промпты, на которых модель склонна галлюцинировать.

Дальше для каждого примера выделяется цепь извлечения факта, считается EICS и подбирается порог по AUROC, F1 или другой метрике. При этом важно логировать не только итоговый score, но и компоненты:

  • C_{\mathrm{sh}}: где именно цепь теряет согласованность;

  • \widetilde{\Delta \mathrm{EI}}_G: есть ли макроуровневая интеграция информации.

Так можно отличить два разных сценария:

  1. «Цепь шумная»: высокий C_{\mathrm{sh}}.

  2. «Цепь согласованная, но не несёт нужного макро-сигнала»: низкий \widetilde{\Delta \mathrm{EI}}_G.

Для интерпретации это гораздо полезнее, чем один внешний confidence score.

Простая sanity-check модель

Чтобы проверить, что метрика ведёт себя адекватно, можно взять игрушечную цепь из 6 узлов с двумя параллельными ветвями.

Идея эксперимента:

  • есть две ветви, которые в начале хорошо согласованы;

  • затем мы увеличиваем шум \tau;

  • одновременно уменьшаем согласованность между ветвями;

  • считаем C_{\mathrm{sh}}, \widetilde{\Delta \mathrm{EI}}_G и EICS.

Ожидаемое поведение:

  • шум увеличивает остатки на рёбрах, значит C_{\mathrm{sh}} растёт;

  • декогеренция ветвей уменьшает макроуровневую effective information;

  • итоговый EICS падает.

Простейшая проверка на адекватность: влияние шума на EICS

Простейшая проверка на адекватность: влияние шума на EICS
Код игрушечной проверки
import numpy as npimport matplotlib.pyplot as pltEPS = 1e-8D = 32N_SEEDS = 100TAUS = np.linspace(0.0, 2.0, 11)alpha = 1.0align = 0.9def rand_matrix(d, scale=0.8, rng=None):    rng = np.random.default_rng() if rng is None else rng    return scale * rng.normal(size=(d, d)) / np.sqrt(d)def ei_proxy(J, alpha):    # 0.5 * sum log(1 + alpha * sigma^2)    s = np.linalg.svd(J, compute_uv=False)    return 0.5 * np.sum(np.log1p(alpha * (s ** 2)))def build_branch_mats(d=32, align=0.9, rng=None):    rng = np.random.default_rng(123) if rng is None else rng    U = rand_matrix(d, 0.8, rng)    A = rand_matrix(d, 0.9, rng)    W = rand_matrix(d, 0.9, rng)    W13 = U    W23 = (1 - align) * rand_matrix(d, 0.8, rng) + align * U    W34 = A    W35 = (1 - align) * rand_matrix(d, 0.9, rng) + align * A    W46 = W    W56 = (1 - align) * rand_matrix(d, 0.9, rng) + align * W    return W13, W23, W34, W35, W46, W56def metrics_at_tau(tau, rng):    W13, W23, W34, W35, W46, W56 = build_branch_mats(D, align, rng)    # Декогерентность: с ростом tau ветви становятся менее согласованными.    h = min(1.0, tau / 2.0)    nrg = np.random.default_rng(rng.integers(10**9))    W56 = (1 - h) * W56 + h * rand_matrix(D, 0.9, nrg)    W35 = (1 - h) * W35 + h * rand_matrix(D, 0.9, nrg)    # Две параллельные подцепи, макро-оператор — их сумма.    Jb1 = W46 @ W34 @ W13    Jb2 = W56 @ W35 @ W23    JM = Jb1 + Jb2    ei_macro = ei_proxy(JM, alpha)    ei_parts = ei_proxy(Jb1, alpha) + ei_proxy(Jb2, alpha)    delta_ei_g = max(0.0, ei_macro - ei_parts) / (EPS + ei_macro)    a1 = rng.normal(size=D)    a2 = rng.normal(size=D)    a3 = W13 @ a1 + W23 @ a2    a4 = W34 @ a3    a5 = W35 @ a3    a6 = W46 @ a4 + W56 @ a5    # Наблюдаемые шумные активации.    a1o = a1 + tau * rng.normal(size=D)    a2o = a2 + tau * rng.normal(size=D)    a3o = a3 + tau * rng.normal(size=D)    a4o = a4 + tau * rng.normal(size=D)    a5o = a5 + tau * rng.normal(size=D)    a6o = a6 + tau * rng.normal(size=D)    edges = [        (a1o, a3o, W13),        (a2o, a3o, W23),        (a3o, a4o, W34),        (a3o, a5o, W35),        (a4o, a6o, W46),        (a5o, a6o, W56),    ]    num = 0.0    den = 0.0    for au, av, W in edges:        r = W @ au - av        num += r @ r        den += au @ au + av @ av    c_sh = np.sqrt(num) / (EPS + np.sqrt(den))    eics = delta_ei_g / (1.0 + c_sh)    return c_sh, delta_ei_g, eicsc_mean, delta_mean, score_mean = [], [], []for tau in TAUS:    cs, ds, ss = [], [], []    for seed in range(N_SEEDS):        rng = np.random.default_rng(1000 + seed)        c_sh, delta_ei_g, eics = metrics_at_tau(tau, rng)        cs.append(c_sh)        ds.append(delta_ei_g)        ss.append(eics)    c_mean.append(np.mean(cs))    delta_mean.append(np.mean(ds))    score_mean.append(np.mean(ss))inv_c = 1.0 / (1.0 + np.array(c_mean))plt.figure(figsize=(6.2, 4.2))plt.plot(TAUS, score_mean, "-o", label="EICS")plt.plot(TAUS, inv_c, "--", label=r"$1/(1+C_{\mathrm{sh}})$")plt.plot(TAUS, delta_mean, ":", label=r"$\widetilde{\Delta \mathrm{EI}}_G$")plt.xlabel(r"Noise scale $\tau$")plt.ylabel("Dimensionless score")plt.title("Toy sanity check: noise degrades EICS")plt.grid(True, linewidth=0.5, alpha=0.5)plt.legend(frameon=False)plt.tight_layout()plt.show()

Чем это отличается от black-box UQ

Black-box методы отвечают на вопрос: «насколько можно доверять выходу модели?»

EICS отвечает на более узкий вопрос: «насколько согласованно ведёт себя конкретная внутренняя цепь, которую мы считаем ответственной за этот выход?»

Это не конкурирующие уровни. Их лучше использовать вместе.

Например:

Метод

Что видит

Что даёт

Entropy/logprob

Распределение следующего токена

Быстрый внешний confidence

Calibration

Соответствие confidence и частоты ошибок

Постобработку вероятностей

Deep ensembles

Разброс между моделями

Оценку эпистемической неопределённости

Conformal prediction

Размер гарантирующего множества

Distribution-free оболочку неопределённости

EICS

Активации и якобианы внутри цепи

Механистический сигнал согласованности

Практический смысл EICS — дать диагностический слой. Если модель ошиблась, можно смотреть не только на «она была уверена», но и на «какая часть цепи потеряла согласованность».

Ограничения

У подхода есть несколько жёстких ограничений.

Первое: зависимость от найденной цепи. Если attribution graph или другой метод локализации выделил не тот подграф, EICS будет измерять не тот механизм.

Второе: локальная линейность. Метрика использует якобианы в окрестности текущего forward pass. Если поведение цепи существенно нелинейно на релевантном масштабе, прокси становится менее надёжным.

Третье: стоимость. Даже с JVP/VJP это не бесплатный confidence score. Для production-сценариев придётся ограничивать размер цепи, использовать быстрый режим, кешировать промежуточные отображения и считать метрику не на каждом запросе.

Четвёртое: EICS не доказывает истинность ответа. Высокая согласованность цепи может означать, что модель последовательно реализовала ошибочный механизм. Поэтому метрика должна калиброваться на задаче и сравниваться с внешними baseline-методами.

Где это может быть полезно

Потенциальные применения:

  • аудит factual QA систем;

  • сравнение цепей, найденных разными методами mechanistic interpretability;

  • отладка hallucination-prone промптов;

  • анализ того, какие компоненты модели ломаются при доменном сдвиге;

  • research tooling для circuit tracing.

Особенно интересный сценарий — не просто считать EICS для финального ответа, а смотреть его динамику по позициям или по нескольким кандидатным цепям. Тогда можно получить карту: где именно цепь начинает терять причинную связность.

Что проверять в следующей итерации

Для полноценной валидации я бы проверял минимум четыре вещи.

  1. Корреляция с ошибками factual QA. Берём проверяемые вопросы, считаем EICS для цепи извлечения факта, сравниваем распределения для правильных и неправильных ответов.

  2. Сравнение с baseline. Logprob, entropy, ensembles, conformal-set size.

  3. Абляции. Отдельно C_{\mathrm{sh}}, отдельно \widetilde{\Delta \mathrm{EI}}_G, вместе EICS.

  4. Устойчивость к выбору цепи. Сравнить близкие подграфы: минимальный, расширенный, с альтернативными рёбрами.

Если EICS действительно отражает внутреннюю причинную согласованность, он должен давать дополнительный сигнал там, где внешний confidence не различает корректный и галлюцинаторный режимы.

Вывод

EICS предлагает смотреть на неопределённость LLM не только как на свойство выходного распределения, но и как на потерю причинной согласованности внутри конкретной трансформерной цепи.

Метрика объединяет два компонента:

  • нормированную несогласованность на рёбрах цепи;

  • гауссовский прокси эффективной информации на макроуровне.

В результате получается безразмерная однопроходная оценка, которую можно использовать как white-box диагностический сигнал. Она не отменяет калибровку, ансамбли и conformal prediction, но добавляет то, чего им обычно не хватает: связь с конкретным внутренним механизмом модели.

Ссылка на статью (препринт, если не открывается).

Что почитать ещё

ссылка на оригинал статьи https://habr.com/ru/articles/1033580/