Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Ускорители заряженных частиц — уникальные машины, играющие ключевую роль в фундаментальной науке и прикладных исследованиях. Они помогают заглянуть внутрь материи, создавать новые материалы и лекарства, а также раскрывать тайны Вселенной — от бозона Хиггса до реликтового излучения.

Ускорители заряженных частиц — сложные установки, которые требуют высокой точности работы. Даже небольшое отклонение пучка, сравнимое с долей толщины человеческого волоса, может иметь значение. Чтобы справляться с такими задачами, всё чаще используют методы машинного обучения.

В статье мы расскажем о том, как применяют методы машинного обучения на ускорителях по всему миру. Например, нейронные сети стабилизируют орбиту пучка и оптимизируют параметры ускорителей, обучение с подкреплением используется для управления пучками заряженных частиц в сложных условиях, а байесовская оптимизация помогает решать многокритериальные задачи настройки ускорителей.

Стабилизация орбиты пучка с помощью нейронных сетей на источниках синхротронного излучения

Источники синхротронного излучения (СИ) — разновидность ускорителей, которые генерируют интенсивное электромагнитное излучение, широко применяемое в науке, промышленности и медицине. Эти установки используются для решения задач в биологии, материаловедении, фармацевтике и даже электронике. Например:

в вирусологии синхротронное излучение позволяет визуализировать мягкие ткани с высоким разрешением и без использования контрастных веществ ЗНиСО.
В промышленности, такие компании, как Rolls-Royce, используют СИ для анализа прочности лопаток авиационных двигателей Rolls-Royce ESRF.
В материаловедении синхротронное излучение помогает изучать кристаллические структуры и дефекты в материалах.

Синхротронное излучение стало важным инструментом современной науки, благодаря которому было получено около 20 Нобелевских премий в различных областях, включая химию, физику и медицину. Например:

По физике в 2006 году за изучение реликтового излучения. Nobel Prize in Physics 2006.
По химии в 2009 году за исследование структуры рибосомы Nobel Prize in Chemistry, в 2020 году за анализ механизма работы CRISPR-Cas9 Nobel Prize in Chemistry 2020.

Однако работа таких установок сталкивается с серьёзными вызовами. Один из них — поддержание стабильной орбиты пучка частиц (траектории, по которой происходит движение), которая критически важна для точности экспериментов. Орбита пучка частиц в ускорителе должна поддерживаться с точностью до микрон (это в 1000 раз меньше толщины стандартного листа бумаги), но на неё влияют изменения температуры, магнитные поля, вибрации. Вот, кстати, наша статья про то, как сейсмические вибрации будут влиять на орбиту пучка в СКИФ: Beam Stability .

Классические подходы к стабилизации орбиты пучка в ускорителях

Для стабилизации орбиты используют датчики положения пучка (BPM) и магнитные корректоры. Основные методы:

MICADO (CERN, 1973): минимизирует число корректоров CERN Documentation.
Алгоритм SVD: коррекция орбиты с использованием матриц отклика APS Documentation.

Основные ограничения: необходимость регулярного пересчёта матриц, сложность учёта нелинейных эффектов и риск «насыщения» корректоров.

Применение нейронных сетей

На Шанхайском источнике синхротронного излучения (SSRF) для решения задачи стабильности орбиты пучка была успешно применена нейронная сеть SSRF feedback. Авторы разработали и обучили нейронную сеть, которая на основе данных с 138 датчиков положения пучка (BPM) напрямую рассчитывает оптимальные параметры для 80 магнитных корректоров.

Как обучали модель:

Собрали данные за 40 минут (800 «срезов» показаний положения пучка и соответствующих значений токов магнитных корректоров).
Подготовили данные: данные масштабировали, вычитая среднее и деля на стандартное отклонение.
Архитектура сети: Многослойный перцептрон с тремя скрытыми слоями по 100 нейронов в каждом. Функция активации — ReLU.
Обучение: Использовали стохастический градиентный спуск (SGD) и L2-регуляризацию для борьбы с переобучением. На обычном ноутбуке (!) модель натренировалась за 2 минуты и 180 эпох.

*Средние абсолютные ошибки для обучающих данных и тестовых данных.*

По словам авторов получились следующие преимущества:

Ускорение процесса коррекции орбиты и повышение точности по сравнению с классическими методами, такими как SVD.
Адаптация модели в реальном времени, что устраняет необходимость в регулярной калибровке.

Кстати, результаты можно было бы улучшить, добавив в модель зависимость от температуры для исключения суточных колебаний, собирая данные за полный цикл (24 часа, сезонность) вместо 40 минут.

“Провод” пучка по ускорителю с помощью RL

На ускорителе тяжёлых элементов применили обучение с подкреплением (RL) для автоматической коррекции орбиты CAFe II RL.

Задача агента:

Автоматическое восстановление орбиты пучка заряженных частиц за ограниченное время и минимальное количество действий.

Метод:

Использовали метод Actor-Critic с алгоритмом TD3 (Twin Delayed Deep Deterministic Policy Gradient). В этом подходе один модуль (Actor) выбирает действия, а другой (Critic) их оценивает и корректирует стратегию.

Policy-gradient определяет, какие конкретные действия следует предпринять в текущей ситуации (например, «если пучок ушёл вверх, прижми вниз»).
Value-gradient оценивает текущее состояние установки и долгосрочные выгоды от действий, измеряя их полезность относительно общей цели (например, чем ближе пучок к центру, тем лучше).

Обучение проводилось в симуляции, а затем алгоритм был протестирован на реальном ускорителе. Результаты показали:

В симуляции пучок, который отклонился на 9 мм, возвращался в исходное положение с отклонением менее 0,5 мм за 15 секунд;
На реальной установке модель корректировала орбиту менее чем за 15 секунд, даже при неисправности одного из корректоров;
Модель, обученная на ионах кальция, успешно корректировала орбиту для ионов марганца, протонов.

Агент, обученный на ионах 40Ca13+ корректирует орбиту 55Mn18+. — *Агент, обученный на ионах ⁴⁰Ca¹³⁺ корректирует орбиту ⁵⁵Mn¹⁸⁺.*

Преимущества подхода:

Экономия времени: обучение проводится в симуляции, а на реальной установке требуется всего несколько секунд для коррекции.
Адаптивность: модель автоматически подстраивается под изменения температуры, вибрации и отказ оборудования.
Универсальность: одна и та же модель успешно корректирует орбиту для разных частиц (например, кальция и марганца).

Многокритериальная байесовская оптимизация для настройки ускорителей

Онлайн-настройка ускорителей требует одновременной оптимизации нескольких параметров (например, эмиттанс, размеры пучка, разброс энергии), что требует компромиссов между несколькими целями. Традиционные методы, такие как эволюционные алгоритмы или градиентные методы, требуют значительных вычислительных ресурсов и большого числа наблюдений.

Байесовская оптимизация (БО) предоставляет эффективное решение этой проблемы. Она строит суррогатные модели целевых функций с использованием гауссовских процессов, что позволяет:

Предсказывать значения целевых функций и уровень их неопределённости.
Снижать число необходимых измерений за счёт использования функции выбора (acquisition function).
Увеличивать гиперобъём Парето, что позволяет находить лучшие компромиссные решения.

Средний гиперобъем Парето-фронта み для десяти запусков многокритериальной оптимизации примера AWA с использованием алгоритмов MOBO, NSGA-II и итеративной нейронной сети (I-NN).

Примером применения БО является работа с Argonne Wakefield Accelerator. В рамках экспериментов, описанных в статье Multiobjective Bayesian optimization for online accelerator tuning, исследователи провели настройку ускорителя с использованием многокритериальной байесовской оптимизации. Исследователи оптимизировали шесть параметров в реальном времени и результаты показали преимущества:

эффективную работу с ограниченным количеством наблюдений;
улучшение качества решений по сравнению с традиционными методами;
возможность интеграции физических ограничений.

Вывод

Нейронные сети и байесовская оптимизация могут сделать управление установками точнее, быстрее и экономичнее. Будущее за автоматизированными подходами, где человек сосредоточится на креативных задачах, а алгоритмы возьмут на себя рутинную оптимизацию.

Статья написана по мотивам нашего выступления на митапе в Институте ядерной физики СО РАН ML in Physics meetup, а после мы еще решили организовать секцию ML in Physics на DataFest 2024 — там получилось много интересного 😉

Полезные ссылки

Применение нейронных сетей: Статьи о применении нейронных сетей на ускорителях DELTA (Германия) и BEPCII (Китай).
Методы RL: Исследования по оптимизации инжекции пучков Injection Optimization и управлению лазерами на свободных электронах FERMI FEL.
Байесовская оптимизация: Примеры из CERN и Brookhaven National Laboratory.

ссылка на оригинал статьи https://habr.com/ru/articles/868748/