Попробовали научить AI искать то, чего никто не замечает — слабые рыночные сигналы

от автора

Как мы научили алгоритм слушать рынок

Это история об одном эксперименте, одной красивой ошибке и шести настоящих открытиях. О том, что наука — это не только правильные ответы. Это ещё и смелость задавать неудобные вопросы самому себе.


Мысль, с которой всё началось

Представьте себе такую картину.

Утро. Вы открываете телефон и читаете новость: «Нефть достигла 117 долларов за баррель». Первый порыв — что-то сделать. Купить акции нефтяников? Продать рубли?

Но вот в чём секрет, который знают опытные аналитики: к тому моменту, как вы дочитали этот заголовок, тысячи компьютеров по всему миру уже отреагировали на эту новость. Миллисекунды назад. Очевидное движение уже случилось.

Значит ли это, что всё потеряно? Нет.

Потому что есть другой класс зависимостей. Не «нефть выросла — нефтяники выросли». А вот такая длинная, неочевидная цепочка:

нефть выросла сегодня → через месяц рубль укрепился → инфляция замедлилась → Центральный банк снизил ставку → банкам стало меньше зарабатывать → через три месяца после нефтяного пика финансовый сектор пошёл вниз

Три месяца. Четыре причинно-следственных шага. К тому моменту, как эта связь становится очевидной всем — её уже объясняют задним числом: «ну конечно, так и должно было быть».

Но три месяца назад — никто не ставил.

Такие зависимости мы называем слабыми сигналами. Они существуют в данных. Их можно найти. Просто нужна система, которая ищет их методично — перебирает тысячи комбинаций, проверяет сотни временны́х сдвигов, не устаёт и не отвлекается.

Человек так не может. Алгоритм — может.

Вот с чего начинался наш проект.


Змея, которая кусает себя за хвост

Нам нужна была идея — не просто алгоритм, а принцип. Способ думать об этой задаче.

И мы её нашли.

Мы вдохновились проектом Ouroboros — исследовательским агентом, который умеет учиться в цикле: генерировать гипотезы, проверять их, оценивать результат и передавать знание следующей итерации. Уроборос — это древний символ змеи, кусающей себя за хвост. Бесконечный круг, в котором конец становится началом.

Мы взяли эту идею и адаптировали её для финансовых данных.

Наш агент работает по тому же принципу:

гипотеза → SQL → данные → оценка    ↑                        |    └────── знания ←─────────┘

Каждый круг — это итерация. Агент придумывает гипотезу, пишет запрос к базе данных, получает числа, оценивает их — и передаёт результат следующему кругу. Не скрипт, который запускают один раз. Живой цикл с памятью.

Причём агент учится сразу на трёх уровнях:

┌─────────────────────────────────────────────────────────────┐│  Уровень 3: между сессиями                                  ││  каждая итерация → датасет → обучение следующей версии      ││                                                             ││  ┌──────────────────────────────────────────────────────┐   ││  │  Уровень 2: внутри сессии                            │   ││  │  гипотеза → SQL → данные → оценка → новая гипотеза   │   ││  │                                                      │   ││  │  ┌────────────────────────────────────────────────┐  │   ││  │  │  Уровень 1: внутри одного запроса              │  │   ││  │  │  ошибка → понять тип → исправить → попробовать │  │   ││  │  └────────────────────────────────────────────────┘  │   ││  └──────────────────────────────────────────────────────┘   │└─────────────────────────────────────────────────────────────┘

Первый уровень — невидимый. База данных строгая: неправильный тип, несуществующая колонка, деление на ноль. Агент сам классифицирует ошибку, сам исправляет, сам пробует снова. Вы не видите ничего — только результат.

Второй уровень — основной цикл. Именно здесь рождаются гипотезы.

Третий уровень — инвестиция в будущее. Каждая итерация пишет строку в базу данных. Со временем это становится материалом для обучения следующей, более умной версии агента.

Архитектура слоев данных и функциями

Архитектура Signal Mind

Архитектура Signal Mind

Данные — это половина науки

Прежде чем говорить об экспериментах, нужно поговорить о том, на чём они ставятся.

Мы собрали данные за несколько месяцев. Это скучная, но очень важная работа — как геолог, который годами собирает образцы, прежде чем сделать открытие.

Вот что у нас есть:

Источник

Что внутри

Объём

Московская биржа

15 индексов, 2016–2026

38 000+ строк

Центральный банк РФ

Ключевая ставка, курс USD/RUB

5 600+ строк

Росстат

Зарплаты, демография, жильё

15 503 строки

Глобальные рынки

Brent, SP500, Gold, DXY, MSCI_INDIA…

13 инструментов

Новости

Reuters, Bloomberg, CNBC и другие

2 520 591 статья

Документы ЦБ

PDF-доклады, корпоративная отчётность

17 492 фрагмента

Почти 2.5 миллиона статей. Почти 10 гигабайт новостного текста. Загрузка заняла несколько часов. Этот файл мы не удаляем никогда — это первоисточник.

Перед каждой гипотезой агент делает кое-что важное: он читает документы ЦБ. Буквально — ищет в них нужный контекст. Что регулятор думал об этой теме? Что писали в официальных бюллетенях? Это называется RAG, и это разница между «алгоритм нашёл число» и «алгоритм понял, что за ним стоит».

Когда мы загрузили журнал наших экспериментов в Obsidian — специальную программу для визуализации связей — получилась вот такая карта знаний:

Граф знаний Signal Mind в Obsidian

Граф знаний Signal Mind в Obsidian

Каждый узел — это гипотеза или источник данных. Линии — подтверждённые связи. Так выглядят 1943 итерации, собранные в одну картину.

Красиво, правда? Но чтобы это получить — сначала нужно было провести эксперимент.


Ночь тишины

Итак — час ночи.

Мы запустили агента и закрыли ноутбук.

python -m src.agent.watchdog 32400   # 9 часов

Watchdog — это маленькая программа-сторож, которая раз в минуту проверяет: «агент ещё работает?» Если нет — перезапускает. Мы написали её на случай, если что-то пойдёт не так посреди ночи.

Она не понадобилась ни разу.

Девять часов агент работал в полной тишине. Генерировал гипотезы, писал SQL, получал числа, оценивал, передавал знание дальше. Без нас. Без подсказок.

В 10 утра мы открыли отчёт:

Что мерили

Результат

Итераций за ночь

1 943

Токенов потрачено

409 миллионов

Стоимость всей ночи

$5.76

Среднее время одной итерации

14.4 секунды

Ошибок SQL, которые агент исправил сам

22

Из них — неудачных

0

Перезапусков сторожа

0

«Подтверждённых» гипотез

67.7%

Шесть долларов. Девять часов. Почти две тысячи итераций.

И последняя строка — 67.7% — нас насторожила.


Ошибка, которая стала подарком

67.7% подтверждённых гипотез — это очень много.

Слишком много.

Настоящие рынки сложные. Шума больше, чем сигнала. Если система соглашается с семью гипотезами из десяти — значит, либо она гениальна, либо она что-то мерит неправильно.

Мы начали проверять вручную. Открывали каждый «подтверждённый» SQL и запускали его на живой базе данных. И примерно на третьем примере поняли.


Агент должен был взять данные по китайскому индексу вот так:

-- Правильно: данные из нужной таблицыFROM market_data WHERE instrument = 'FTSE_CHINA_50'

А он делал вот так:

-- Что он реально писал:SELECT imoex_close AS ftse_china_50   -- ← просто переименовал колонкуFROM v_market_context

Понимаете, что произошло?

Он брал данные российского индекса IMOEX — и называл их «китайским индексом». Потом измерял корреляцию между IMOEX и MOEXOG. Между двумя российскими индексами. Конечно, они коррелируют — r ≈ 0.88. Потому что оба российские, а не потому что есть какой-то сигнал.

Та же ошибка повторялась для американского доллара, индийского рынка, южноафриканских акций. Агент не обманывал — он честно делал то, что умел. Просто в схеме было слепое пятно.

Около 60% «подтверждённых» сигналов были тавтологией.

Реальный результат: не 67.7%, а примерно 15–25%.


Теперь самое важное — что мы сделали дальше.

Мы не удалили эти примеры.

Многие исследователи в такой ситуации стараются «почистить» данные — убрать плохие примеры, чтобы красиво выглядела статистика. Мы сделали наоборот.

Плохие примеры тоже попали в обучающий датасет — с пометкой «это ошибка, вот почему». Потому что именно из таких пар «неправильный вопрос → правильный ответ» и учится по-настоящему умная система.

Ошибка превратилась в знание. Это и есть суть третьего уровня обучения.

Хорошая наука — это не когда всё идёт правильно. Это когда ошибки замечают, понимают и делают из них выводы.


Исправление

После находки мы сделали три вещи.

Первое — задокументировали паттерн ошибки. Файл forbidden_patterns.md, паттерн №8: «подмена инструмента». С примером до и после. Чтобы в следующий раз агент видел: «я уже пробовал так делать — это ошибка».

Второе — добавили явное предупреждение в промпт:

ВАЖНО: для внешних инструментов (FTSE_CHINA_50, DXY, MSCI_INDIA и др.)данные ТОЛЬКО из: FROM market_data WHERE instrument = '<название>'Никогда не переименовывай колонки из других таблиц.

Третье — запустили чистый скан с нуля. 618 комбинаций: 10 инструментов, 7 новостных тем, 5 целевых индексов, 6 временных лагов. На этот раз — честно.


Что нашли на самом деле

После чистого скана — шесть реальных паттернов. Не шестьдесят семь процентов. Шесть.

Зато настоящих.

Сигнал

r

Лаг

Механизм

USD/RUB → MOEXFN

+0.758

14 дней

Девальвация → переоценка активов

Brent → MOEXFN

−0.702

90 дней

Нефть → рубль → ставка → маржа банков

Ключевая ставка → MOEXFN

+0.651

0 дней

Банки зарабатывают на высокой марже

MSCI_INDIA → MOEXFN

+0.631

0 дней

Глобальный аппетит к рискованным рынкам

SP500 → MOEXFN

+0.593

7 дней

Мировой риск-аппетит с недельным лагом

Банковские новости → MOEXFN

+0.549

14 дней

Работает только при ставке < 15%

Самый нетривиальный — второй в таблице. Давайте разберём его подробнее.


Нефть предсказывает банки в минус

Нефть выросла — а через три месяца банки упали. Звучит странно, правда?

Вот цепочка, которая это объясняет:

Нефть дорожает  → нефтяная выручка поступает в страну  → экспортёры продают валюту, рубль укрепляется  → инфляционное давление снижается  → Центральный банк получает возможность снизить ставку  → банки зарабатывают меньше (ставка = их маржа)  → инвесторы переоценивают банковский сектор вниз                                        (лаг ~90 дней)

Данные это подтверждают:

Brent и MOEXFN 2022–2025

Brent и MOEXFN 2022–2025

Синяя линия — Brent. Зелёная пунктирная — финансовый индекс MOEXFN. В 2022 году нефть на пике ($117) — банки на минимуме. Когда нефть начала падать — банки пошли вверх.

Особенно убедительно вот что: корреляция монотонно растёт с увеличением временно́го сдвига:

Корреляция по лагам

Корреляция по лагам

Если бы это был случайный шум — корреляция была бы максимальной при нулевом лаге и убывала бы с расстоянием. Монотонный рост — признак настоящей структурной задержки.

Но вот здесь мы обязаны быть честными.


Честная часть

Когда мы посмотрели на данные год за годом — картина стала сложнее:

Год

Корреляция (лаг 90 дней)

Что происходило

2022

−0.574

Начало СВО, санкции, нефть на пике — сильный сигнал

2023

−0.113

Ставка растёт — нефтяной сигнал почти исчез

2024

−0.097

Ставка 21% — полностью заглушила нефть

2025

+0.265

Знак инвертировался

Агрегатная корреляция −0.70 — во многом эффект одного аномального года. В 2023–2024 сигнал просто не работал.

Зато режимный анализ даёт ясный ответ:

Режимный анализ

Режимный анализ

Условие рынка

Корреляция

Что это значит

Весь период 2022–2025

−0.702

✅ Реальный, структурный сигнал

Сильный рубль (USD/RUB < 80)

−0.851

✅ Очень сильный

Ставка ЦБ ≥ 16%

−0.100

❌ Сигнал не работает

2025, ставка снижается

+0.265

⚠️ Знак сменился

Главный вывод: сигнал включается только в определённых условиях. При высокой ставке ЦБ — она перекрывает нефтяной сигнал и становится главным фактором.

Это не слабость результата. Это самое интересное открытие всего проекта.


Главный урок

Российский финансовый рынок — это рынок режимов.

Один и тот же фактор работает по-разному при ставке 7% и при ставке 21%. При сильном рубле и при слабом. Нет одного универсального сигнала — есть сигналы, которые включаются и выключаются в зависимости от состояния системы.

Мы начинали с простого вопроса: «какие корреляции можно найти в данных?» А пришли к другому: «в каком режиме сейчас рынок — и какие сигналы в этом режиме работают?»

Это совсем другой вопрос. И он правильнее.


Поиск истины

Знаете, что меня больше всего радует в этом проекте?

Не шесть найденных сигналов. Не $5.76 за девять часов работы. Не 409 миллионов токенов.

Меня радует то, что мы нашли свою ошибку сами.

Никто нас не проверял. Никто не указывал пальцем. Мы получили красивые числа — и сами сказали: «подождите, это слишком хорошо». Запустили верификацию. Нашли баг. Написали об этом честно.

Именно так устроена настоящая наука. Не победное шествие от гипотезы к открытию. А спираль: предположение → проверка → сомнение → уточнение → новое предположение.

Ошибки — это не провал. Это самая ценная часть исследования. Потому что именно ошибки показывают, где на самом деле граница нашего понимания.

1943 итерации — это не результат. Это начало разговора.


Что дальше

Шаг

Задача

Phase 7

Второй марафон — чистый агент, без старых ошибок

Phase 8

Обучение DeepSeek на нашем датасете (1953 примера)

Phase 9

Режимный классификатор — агент сначала определяет состояние рынка, потом ищет сигналы

Phase 9 — это тот самый качественный скачок. Научить алгоритм спрашивать «в каком режиме мы сейчас?» прежде чем искать сигналы — это другой уровень.


Посмотреть самому

Всё открыто: github.com/iRatG/signal-mind

Открыть

Что внутри

📊 Разбор сигнала Brent→MOEXFN

SQL, 6 интерактивных графиков, режимный анализ

📈 Отчёт ночи тишины

8 графиков — телеметрия 9-часового запуска

# Попробовать самому — 10 итерацийpython -m src.agent.agent 10# Ночной марафон (9 часов)python -m src.agent.watchdog 32400

Вдохновлено проектом Ouroboros

Python · DuckDB · ChromaDB · DeepSeek API · MOEX · ЦБ РФ · 2.52M новостей

ссылка на оригинал статьи https://habr.com/ru/articles/1030160/