Здравствуйте! Меня зовут Богдан, я являюсь автором телеграм канала про нейросети в телеграме, посчитал эту статью очень интересной для перевода, приятного прочтения
Аннотация
В данной статье рассматриваются идеи и предлагается потенциальная дорожная карта для разработки и оценки специализированных для физики крупномасштабных моделей искусственного интеллекта, которые мы называем Большими Физическими Моделями (БФМ). Эти модели, основанные на фундаментальных моделях, таких как Большие Языковые Модели (БЯМ), обученные на широком спектре данных, адаптированы для удовлетворения уникальных требований физических исследований. БФМ могут функционировать независимо или как часть интегрированной системы. Эта система может включать в себя специализированные инструменты, в том числе модули символьного мышления для математических манипуляций, фреймворки для анализа конкретных экспериментальных и смоделированных данных, а также механизмы для синтеза выводов из физических теорий и научной литературы. Мы начинаем с рассмотрения вопроса о том, следует ли физическому сообществу активно разрабатывать и совершенствовать специализированные модели, а не полагаться исключительно на коммерческие БЯМ. Затем мы описываем, как БФМ могут быть реализованы посредством междисциплинарного сотрудничества между экспертами в области физики, информатики и философии науки. Для эффективной интеграции этих моделей мы выделяем три ключевых столпа: Разработка, Оценка и Философское Осмысление. Разработка фокусируется на создании моделей, способных обрабатывать физические тексты, математические формулировки и разнообразные физические данные. Оценка направлена на определение точности и надежности посредством тестирования и бенчмаркинга. Наконец, Философское Осмысление включает в себя анализ более широких последствий применения БЯМ в физике, включая их потенциал для формирования нового научного понимания и возникновения новых динамик сотрудничества в исследованиях. Вдохновленные организационной структурой экспериментальных коллабораций в физике элементарных частиц, мы предлагаем аналогичный междисциплинарный и совместный подход к созданию и совершенствованию Больших Физических Моделей. Эта дорожная карта предоставляет конкретные цели, определяет пути их достижения и выявляет проблемы, которые необходимо решить для реализации специализированных для физики крупномасштабных моделей искусственного интеллекта.
1. Введение
Традиционно модели машинного обучения в физике были узкоспециализированными и предназначались для решения конкретных задач, таких как различение событий сигнала от фоновых событий в экспериментах на ускорителях частиц, прогнозирование массы частицы по данным детектора, открытие материалов или идентификация небесных объектов [1, 2, 3, 4, 5, 6, 7]. Хотя некоторые из этих моделей были (и все еще являются) эффективными в выполнении конкретных задач, для которых они были разработаны, им не хватало универсальности для применения за пределами их первоначальных областей. В отличие от моделей, ориентированных на конкретную область и применение, Большие Языковые Модели (БЯМ), такие как GPT-4 [8], Claude [9], Gemma [10] и Llama [11], являются универсальными и способными анализировать и реагировать на текст, изображения, компьютерный код и данные в целом, в различных областях, с замечательной степенью владения [12, 13].
В отличие от узконаправленных моделей, которые в основном используются для анализа данных, БЯМ могут расширить спектр научно-исследовательской деятельности. Научные исследования можно рассматривать как взаимосвязанную сеть процессов, направленных на развитие научного понимания. В этой сети такие виды деятельности, как выдвижение гипотез, экспериментирование, анализ данных и разработка моделей или теорий, постоянно взаимодействуют друг с другом в итеративной, динамической манере. Успешная интеграция БЯМ в эти рабочие процессы требует не только тщательной оценки навыков, которые они вносят в эту деятельность, но и их соответствия желаемым эпистемическим ценностям (например, точность, согласованность и объяснительная сила) и неэпистемическим ценностям (например, социальное воздействие и этические соображения). Как и в случае с использованием компьютерных исследований, БФМ также могут помочь нам преодолеть ограничения наших человеческих возможностей. Например, они могут помочь ускорить общий научный прогресс, углубляя наше научное понимание, которое является одной из главных целей науки, позволяя нам не только делать точные прогнозы, но и понимать, почему все устроено именно так [14].
Например, они могут помочь в генерировании гипотез, выступая в качестве партнеров по мозговому штурму, и, делая это, могут предложить новые подходы к сложным проблемам в физике и вдохновить на творчество, выступая в качестве «искусственной музы» [15] для исследователей. Например, [16] используют БЯМ для предложения идей в физике, при этом 100 опытных исследователей оценивают полученные идеи. На экспериментальном этапе БЯМ могут помочь в разработке тестов и экспериментов, демонстрируя как текущие возможности, так и будущий потенциал для проектирования и проведения экспериментов, тем самым оптимизируя исследовательский процесс [17]. При анализе данных БЯМ могут предложить новые методы интерпретации и визуализации, особенно в физике с интенсивным использованием данных. Они также могут генерировать выводы, которые могут ускользнуть от внимания исследователей или более узких моделей искусственного интеллекта, а также автоматизировать генерацию кода для анализа данных [18, 19, 20]. Более того, БЯМ могут помочь сформулировать доступные выводы для более широкого научного сообщества, способствуя обмену знаниями между дисциплинами, а также обеспечивая мультимодальную интеграцию и обобщение [21].
На сегодняшний день есть заметные примеры успешного научного использования БЯМ, включая разработку и проведение автономных экспериментов, лаборатории ИИ на основе агентов, применение для символических задач и разработку совместных инструментов ИИ, известных как CoScientists, а также повышение возможностей в программировании и генерации математических доказательств [22, 23, 24, 25, 26, 27, 28]. Утверждается, что БЯМ трансформируют научные исследования, создавая «гибридный интеллект», который расширяет человеческое познание и изменяет исследовательские процессы [29, 30]. Несмотря на ограничения БЯМ в рассуждениях и творчестве [31, 32], которые обычно являются центральными в процессе формулирования гипотез, экспериментирования и научных выводов, было показано, что они обогащают начальный этап научных исследований, ставя проницательные вопросы и предоставляя ценные наблюдения. При выборе соответствующих тем исследования они могут эффективно обобщать и выделять ключевые выводы из обширной научной литературы, а также улучшать понимание [33, 34]. Кроме того, БЯМ облегчают изучение междисциплинарных исследований, устраняя пробелы между различными областями и способствуя развитию инновационных идей.
Учитывая потенциальный успех БЯМ, возникает фундаментальный вопрос: должно ли физическое сообщество использовать имеющиеся в продаже инструменты или разрабатывать специальную БЯМ для физических исследований. Хотя такие инструменты, как GPT-4, часто используются в физике, их полезность зависит от адаптации инструмента, который не был предназначен в первую очередь для физиков, и поэтому требует либо тонкой настройки на дополнительных данных, либо таких методов, как генерация дополненных запросов (RAG) [35, 36] (см. ATLASchatbot — chATLAS). Например, такие инструменты, как AstroLLama [37], точно настраиваются на существующих БЯМ с использованием тезисов астрономических работ. Однако такие инструменты по-прежнему имеют очень ограниченные возможности, поскольку тонкой настройке на специфических для конкретной области данных часто не хватает всеобъемлющего контекстного понимания и навыков рассуждения, необходимых для решения сложных, новых проблем в физике и астрономии. Аналогично, существует растущее число инструментов для более общего физического встраивания данных, которые могут решать очень специфические физические проблемы с помощью общего физического встраивания. Эти инструменты часто называют «фундаментальными моделями» в физической литературе, но обычно они не имеют текстового интерфейса (см., например, [38, 39, 40, 41, 42, 43]), и их сфера применения ограничена очень специфическими задачами анализа данных и не является широко обобщаемой. Кроме того, недавние результаты [44] показывают, что сочетание физически обоснованных архитектур с тонкой настройкой на конкретные задачи может обеспечить наилучшую производительность — эти архитектуры будут кодировать фундаментальные физические принципы, в то время как тонкая настройка позволит адаптироваться к конкретным случаям использования.
Рассмотрев аргументы «за» и «против», мы предлагаем, чтобы физическое сообщество разработало и оценило свою собственную модель физического языка. Эта инициатива соответствует фундаментальной миссии сообщества по продвижению физического понимания. Хотя коммерческие модели ИИ существуют, физическое сообщество имеет уникальные преимущества, которые делают его особенно хорошо подходящим для этого начинания, а именно, их опыт в данной области, доступ к специализированным экспериментальным данным и возможность проводить и проверять физические эксперименты, которые генерируют новые данные (см. раздел 2). Мы представляем эту модель как интегрированную систему, включающую сеть специализированных фундаментальных моделей [45] и Больших Языковых Моделей (БЯМ). Мы называем эти крупномасштабные системы искусственного интеллекта общего назначения Большими Физическими Моделями (БФМ). Эти модели искусственного интеллекта адаптированы для физических исследований и предназначены для анализа, понимания и генерации объяснений физических явлений путем обработки формул, связей и — через специальные интерфейсы — экспериментальных и смоделированных данных. Эти модели используют возможности БЯМ для достижения широкого мультимодального понимания, позволяя им интерпретировать и генерировать текст, математические уравнения, диаграммы и визуализации данных, обычно используемые в физике. Такие БФМ могут потенциально усилить фундаментальную структуру научного исследования [46]. Мы рассматриваем БФМ как набор взаимосвязанных БЯМ и фундаментальных моделей, каждая из которых специализируется на отдельных областях в физике (см. раздел 4). Взаимосвязь может осуществляться через центральных агентов (маршрутизаторов), которые выбирают специализированные фундаментальные модели или БЯМ в соответствии с их возможностями, обеспечивая единый интерфейс.
Основная цель данной работы заключается в разработке потенциальной дорожной карты для разработки и оценки БФМ в контексте физики, а также в философском осмыслении их преобразующего потенциала для научного понимания. Разработка БФМ представляет собой амбициозный шаг вперед в применении ИИ в научной практике.
Эта статья является результатом семинара, проведенного в начале 2024 года в Лейдене, который собрал ведущих исследователей в области физики, информатики и философии науки для обсуждения и изучения уникальных проблем и возможностей, связанных с БЯМ в отношении научного понимания в фундаментальной физике.
Статья построена следующим образом: в разделе 2 обсуждается вопрос о том, следует ли физическому сообществу разрабатывать БФМ, в разделе 3 описываются три основных столпа (Разработка, Оценка и Философское Осмысление) и обсуждается взаимодействие между их соответствующими сообществами. В разделе 4 подробно описываются цели, задачи и методы, связанные с разработкой БФМ. В разделе 5 рассматриваются цели, методы и задачи оценки и бенчмаркинга БФМ. В разделе 6 рассматриваются цели, задачи и методы философского осмысления более широких последствий применения ИИ в научных исследованиях.
2. Нужны ли физическому сообществу специализированные крупномасштабные модели ИИ для физики?
Интеграция БЯМ и фундаментальных моделей в физические исследования представляется многообещающей и неизбежной. Однако возникает вопрос, должно ли физическое сообщество активно разрабатывать и совершенствовать эти модели ИИ или полагаться на коммерческие. С одной стороны, крупные коммерческие БЯМ предлагают ряд преимуществ. Эти модели, как правило, хорошо финансируются и извлекают выгоду из огромных вычислительных ресурсов и специализированных знаний в области ИИ, которые есть в промышленности [47]. Коммерческие БЯМ также предназначены для того, чтобы быть универсальными и адаптируемыми, потенциально облегчая их применение в различных областях физики. Более того, использование коммерческих моделей может позволить физикам сосредоточиться на своих основных исследованиях, а не тратить время и ресурсы на разработку ИИ.
С другой стороны, есть веские основания для того, чтобы физическое сообщество играло активную роль в разработке БЯМ, адаптированных к их конкретным потребностям. Физические исследования часто включают сложные математические формулировки, символические рассуждения и специфические для конкретной области знания, которые могут быть недостаточно хорошо уловлены моделями общего назначения [48, 49]. Разрабатывая модели внутри компании, физическое сообщество может лучше согласовать эти инструменты с уникальными методологиями, стандартами и методологическими соображениями своей области [50, 51, 52]. Такой уровень контроля и кастомизации может привести к более точным, интерпретируемым и надежным результатам [53]. Более того, сохраняя контроль над данными обучения, архитектурами моделей и процессами оценки, сообщество может обеспечить соблюдение научных принципов, таких как воспроизводимость и экспертная оценка [54, 31, 55].
Взвесив эти соображения, мы считаем, что идеальным сценарием было бы, если бы физическое сообщество играло ведущую роль в разработке БЯМ и фундаментальных моделей, адаптированных к их потребностям. Этот подход позволил бы создать инструменты ИИ, точно настроенные на сложности физических исследований, согласованные с ценностями и стандартами сообщества и оптимизированные для продвижения фундаментальных знаний и понимания.
Мы признаем, что этот идеальный сценарий сталкивается со значительными проблемами, особенно в плане финансирования и ресурсов. Разработка и обслуживание передовых моделей искусственного интеллекта требует значительных вычислительных мощностей, специальных знаний и постоянных инвестиций. Чтобы смягчить эти проблемы, мы предлагаем многогранный подход. Физическое сообщество должно активно искать стратегическое сотрудничество с промышленными партнерами. Используя вычислительные ресурсы и опыт коммерческих компаний, сохраняя при этом лидирующую роль в разработке моделей, сообщество может убедиться, что полученные инструменты адаптированы к его потребностям, извлекая при этом выгоду из масштаба и возможностей промышленности. Кроме того, сообщество должно изучить инновационные модели финансирования, такие как целевые гранты, партнерские отношения с филантропическими организациями, поддержка со стороны крупных международных исследовательских организаций или лабораторий (например, ЦЕРН) и междисциплинарное сотрудничество, объединяющее ресурсы и опыт.
Кроме того, использование структуры сотрудничества, аналогичной той, что используется в физике элементарных частиц для экспериментального анализа, может обеспечить эффективную основу для создания специализированных для физики ИИ. Такая структура способствует объединению ресурсов, обмену опытом и участию различных учреждений, а также координации усилий в больших масштабах, что имеет решающее значение для решения сложных задач, связанных с разработкой крупномасштабных моделей ИИ. Разработка платформ с открытым исходным кодом и общей инфраструктуры могла бы помочь распределить расходы и способствовать созданию совместной экосистемы вокруг специализированных для физики БЯМ.
Хотя быстрые темпы коммерческой разработки ИИ создают риск «мертвого рождения» — когда специализированные для физики модели могут устареть до завершения из-за более быстрых циклов разработки в промышленности, — несколько факторов позволяют справиться с этой проблемой. Физическое сообщество обладает уникальными преимуществами, которые создают естественный ров, защищающий устойчивую ценность специализированных моделей: опыт в предметной области в фундаментальной физике, контроль над специализированными наборами данных и способность генерировать новые данные (например, путем проведения экспериментов), а также разработка специализированного программного обеспечения и моделирования, которые не могут быть легко воспроизведены внешними организациями без сотрудничества. Эти стратегические активы особенно ценны, поскольку многие физические проблемы не могут быть просто решены за счет увеличения вычислительных мощностей. Более того, есть веские причины для поддержания определенной степени независимости от коммерческого ИИ, включая проблемы конфиденциальности данных и необходимость прозрачных, этически выверенных моделей, соответствующих научным стандартам. Для поддержания актуальности и конкурентоспособности мы выступаем за адаптивную стратегию разработки, сочетающую: (1) итеративную, модульную разработку, позволяющую постоянно обновляться, (2) тщательно выверенное сотрудничество с открытым исходным кодом, позволяющее внести вклад всему сообществу в определенных областях, (3) перенос обучения из существующих моделей для ускорения разработки, и (4) стратегические партнерства, которые способствуют быстрой интеграции новых достижений, сохраняя при этом автономию сообщества и научную целостность.
Модель ИИ для физики может также служить прототипом для других областей науки. Физическое сообщество имеет давнюю традицию сотрудничества в крупных проектах, совместного использования баз данных и строгих процессов экспертной оценки и имеет опыт решения задач, аналогичных тем, с которыми сталкиваются в крупных проектах ИИ (см., например, [56]). Кроме того, работа физиков в теоретическом и экспериментальном контекстах предлагает разнообразные тестовые площадки для оценки возможностей ИИ в моделировании, распознавании образов и тестировании гипотез. Этот фундаментальный опыт может оптимизировать адаптацию аналогичных архитектур ИИ в других научных областях. Следующий вопрос, который возникает, заключается в том, как именно мы можем получить БФМ.
3. Как получить БФМ: Ключевые столпы
Чтобы решить проблемы в разработке БФМ и использовать их потенциал для продвижения физики, мы предлагаем дорожную карту, построенную на трех важнейших столпах: Разработка, Оценка и Философское Осмысление. Эта дорожная карта разработана специально для физического сообщества, но в принципе должна быть применима и к другим научным дисциплинам.
Столп Разработка фокусируется на создании надежных БФМ, способных обрабатывать сложности физических теорий, данных и естественного языка. Это предполагает междисциплинарное сотрудничество, чтобы гарантировать, что модели будут не только мощными, но и хорошо приспособленными к конкретным потребностям физических исследований. Ключевые задачи в рамках этого столпа включают: (i) разработку фундаментальных моделей, адаптированных к физике, (ii) курирование высококачественных, разнообразных наборов физических данных, (iii) интеграцию физико-специфических знаний и возможностей рассуждения, (iv) обеспечение взаимодействия с физическими базами данных и симуляторами, и (v) непрерывное обновление моделей для соответствия научному прогрессу. Основой всего этого является, пожалуй, самый важный компонент: (vi) разработка платформ для сотрудничества.
Столп Оценка посвящен оценке точности, надежности, эффективности и результативности БФМ, что включает в себя тестирование и бенчмаркинг. Оценщики играют важную роль в проверке моделей, повышая надежность и научную обоснованность их результатов. Ключевые области внимания в рамках этого столпа включают: (i) разработку физико-специфических тестов и протоколов оценки, (ii) оценку точности модели для решения сложных физических задач, (iii) проверку надежности и устойчивости в различных сценариях, (iv) оценку практической применимости моделей для физических исследований в реальных условиях и (v) обеспечение интеграции в существующие научные рабочие процессы.
Столп Философское Осмысление включает в себя изучение более широких последствий интеграции БФМ в научную практику. Сюда входит изучение их потенциала для генерирования новых научных идей, преобразования традиционных подходов к решению проблем в физике и изменения самой природы научного понимания. Философы науки рассматривают фундаментальные вопросы, такие как: (i) могут ли БФМ действительно обладать научным пониманием или они являются лишь мощными инструментами для исследователей-людей? (ii) Как мы определяем и измеряем научное понимание в контексте ИИ? (iii) Каковы эпистемологические и этические последствия использования моделей ИИ в научных открытиях? (iv) Как мы можем обеспечить соответствие использования БФМ ценностям и целям научного исследования?
Дорожная карта подчеркивает взаимосвязанный характер этих столпов, подчеркивая важность постоянного диалога и обратной связи между разработчиками, оценщиками и философами науки. Как показано на рисунке 1 ниже, эти три сообщества — разработчики, оценщики и философы науки — должны работать в тесном сотрудничестве для реализации всего потенциала БФМ. Разработчики создают модели, которые опираются на идеи оценщиков и философов, стремясь сделать модели не только мощными, но и надежными, интерпретируемыми и соответствующими потребностям физических исследований. Оценщики, в свою очередь, проводят строгую оценку производительности моделей и помогают выявить области для улучшения, одновременно рассматривая более широкие последствия, подчеркнутые философами. Философы науки вносят концептуальную ясность, эпистемологическое руководство и фреймворки, которые формируют разработку и внедрение БФМ, следя за тем, чтобы эти инструменты оставались основанными на фундаментальных принципах научного исследования.
4. Столп Разработка
Столп Разработка фокусируется на построении БФМ, способных ориентироваться в сложном ландшафте физических теорий, физических симуляторов и реальных экспериментальных условиях, одновременно осваивая специфические для науки задачи, такие как символическое мышление, генерация гипотез и интерпретация сложных наборов данных.
4.1. Цели
Основная цель состоит в том, чтобы разработать фундаментальные модели и модели БЯМ, адаптированные к потребностям науки (см. [49], в химии см. [48, 46, 57, 23]). В контексте физики это предполагает предварительное обучение на физических данных и точную настройку с использованием отобранных наборов данных, включающих научные работы, учебники и проблемы из физики. Следовательно, этот процесс должен быть направлен на то, чтобы научить модель языковым нюансам, теориям и стратегиям решения проблем, специфическим для физики.
Чтобы быть ценными для физического сообщества, модели должны быть оснащены возможностью анализировать экспериментальные данные, проводить моделирование и сравнивать смоделированные данные с экспериментальными физическими данными [58]. В равной степени это требует написания специализированного вычислительного кода и доступа к математическому и статистическому программному обеспечению или возможности доступа к другим фундаментальным моделям, адаптированным к анализу конкретных экспериментальных данных. Поскольку математика является языком, на котором физика основывает свои теории и принципы, тесное сотрудничество с математиками и экспертами в области символьных вычислений будет ценным. Это сотрудничество может направить способность модели обрабатывать и генерировать символические представления, выполнять алгебраические манипуляции и применять передовые математические методы, такие как исчисление, линейная алгебра и тензорные операции. Здесь сотрудничество с сообществом символьной математики в области ИИ станет важным шагом вперед в развитии моделей ИИ для физики (см., например, [59, 60]).
Учитывая широкий спектр подразделов в физике, необходимо будет разработать модели, отвечающие конкретным требованиям каждой области. Между прочим, это может включать в себя создание специализированных многоцелевых фундаментальных моделей для физики элементарных частиц, астрофизики, физики конденсированного состояния и других областей, каждая из которых обучена на специфических для данной области данных и оснащена необходимыми знаниями и возможностями решения проблем, с общим предварительным обучением и последующими специализированными модулями. Например, фундаментальные модели, адаптированные к физике элементарных частиц, могут сосредоточиться на таких задачах, как классификация событий, моделирование детекторов или реконструкция событий столкновения, используя уникальные данные, генерируемые ускорителями частиц. Аналогично, модель, ориентированная на астрофизику [61], может анализировать крупномасштабное космологическое моделирование, обрабатывать данные наблюдений с телескопов или помогать в интерпретации таких явлений, как гравитационные волны и экзопланетные системы. В качестве первого шага создание небольших демонстраторов для конкретных задач в каждом подразделе обеспечило бы доказательство концепции, позволяющее исследователям оценить целесообразность, производительность и потенциальное воздействие. В последнее время были предложены предварительные модели для физики элементарных частиц [62] и экспериментов по столкновениям тяжелых ионов [63], демонстрирующие ранние подходы и идеи в отношении фундаментальных моделей, которые могут быть предварительно обучены и точно настроены или использованы различными способами. Модели, специфичные для конкретных областей, не только повысят производительность, сосредоточившись на уникальных задачах каждой области, но и могут быть интегрированы в более широкую междисциплинарную структуру, обеспечивая междоменные знания и совместное решение проблем (см. рисунок 2).
риВ частности, мы представляем, что будущие научные исследования будут расширены за счет концепции «физика ИИ», системы взаимосвязанных фундаментальных моделей, адаптированных для решения конкретных исследовательских задач в различных областях физики [19]; [64], с. 20). Эта стратегия опирается на разделение труда в совместных исследовательских группах, стремясь повысить производительность и инновации в физических исследованиях. Это также соответствует последним достижениям в оркестровке нескольких БЯМ для выполнения сложных задач по ответу на вопросы [65, 66]. Соответственно, сеть включает в себя специализированные фундаментальные модели (например, обученные на корпусе рецензируемых журналов открытого доступа, на данных Большого адронного коллайдера (БАК), физики гравитационных волн (ГВ) и астрофизики), которые занимаются синтезом литературы, анализом данных и моделированием, визуализацией результатов и составлением научных работ, охватывая весь спектр исследовательской деятельности. В этом контексте агенты — это автономные системы ИИ, которые могут воспринимать свое окружение, принимать решения и предпринимать действия для достижения конкретных целей. Эти агенты могут работать в координации, при поддержке API и фреймворков для беспрепятственного обмена информацией, в то время как исследователи-люди используют модели и направляют и уточняют процесс, улучшая соответствие подлинным целям научных исследований.
В идеале (разговорные) БФМ должны быть способны генерировать новые гипотезы, предлагать инновационные эксперименты или вопросы к массиву данных и определять перспективные направления исследований. Благодаря обработке огромного количества научной литературы и данных эти модели могут выявлять скрытые закономерности, связи и пробелы в существующих знаниях, тем самым направляя исследователей к новым открытиям и прорывам. Тем не менее, чтобы облегчить эффективное сотрудничество между исследователями и БФМ, важно разработать удобные интерфейсы (предположительно, на естественном языке, но, возможно, с использованием ключевых визуальных компонентов), которые позволят ученым беспрепятственно взаимодействовать с ИИ. Эти интерфейсы должны позволять исследователям вводить свои запросы, предоставлять рекомендации и легко интерпретировать результаты модели. Таким образом, разрабатывая интуитивно понятные интерфейсы, столп Разработка стремится преодолеть разрыв между техническими аспектами ИИ и опытом физиков в предметной области, обеспечивая синергетическое партнерство.
4.2. Проблемы и методы
Разработка специализированных для физики крупномасштабных моделей ИИ представляет собой уникальный набор проблем, начиная от курирования и обработки данных и заканчивая проектированием моделей, высокопроизводительными вычислениями (HPC) и оценкой. Эти проблемы тесно связаны между собой, и некоторые из них требуют инновационных подходов и междисциплинарного сотрудничества для удовлетворения разнообразных потребностей физических исследований. Далее мы кратко обсудим некоторые из этих проблем и наметим первоначальные подходы к их решению. Хотя эти усилия дают основную перспективу, для полного решения этих проблем, особенно посредством разработки первоначальных демонстрационных моделей, необходима дальнейшая обширная работа.
Курирование высококачественных, разнообразных наборов данных является серьезной проблемой при разработке БФМ, особенно при обработке экспериментальных и смоделированных данных. Эти источники данных часто поступают в различных форматах и требуют тщательной предварительной обработки для обеспечения совместимости с моделями ИИ. Сотрудничество с разработчиками эталонных тестов (оценщиками) будет необходимо не только для стандартизации форматов данных, но и для создания фреймворков оценки. Эти эталонные тесты (описанные в следующем разделе) помогают оценить производительность модели по различным физическим задачам, обеспечить основу для сравнения различных подходов и направить итеративные усовершенствования в процессе разработки.
При разработке специализированных для физики крупномасштабных моделей ИИ важным вопросом будет то, следует ли использовать существующие модели с открытым исходным кодом или создавать совершенно новые модели, адаптированные к задачам физики. Прагматическая стратегия могла бы включать гибридный подход, использующий сильные стороны обоих методов. Во-первых, физическое сообщество могло бы точно настроить базовые модели с открытым исходным кодом для конкретных случаев использования, таких как обработка научной литературы или решение специфических для конкретной области задач. Это позволило бы быстро создавать прототипы и ранние демонстрации для демонстрации осуществимости БФМ при минимизации потребностей в ресурсах. Со временем, по мере увеличения опыта и ресурсов, фокус может сместиться на разработку специализированных моделей, оптимизированных для физико-специфических задач, таких как символическое мышление, решение математических задач и анализ экспериментальных данных. Такие методы, как генерация с расширенным поиском (RAG), могут расширить возможности БФМ за счет включения внешних знаний в запрос, расширяя охват модели за пределы ее интернализованных данных [35, 36]). Этот метод извлекает соответствующую информацию из структурированных баз знаний и научной литературы, предоставляя более точные и подробные ответы на научные запросы. Обычно векторная база данных создается из внедрений документов, но возможны и более продвинутые подходы (например, построение графа из документов — GraphRAG).
Параллельно с разработкой БФМ следует разрабатывать специфические для домена конвейеры обработки данных (специфические для домена фундаментальные модели) для обработки уникальных форматов и сложностей физических данных, таких как наборы данных коллайдера с Большого адронного коллайдера (БАК) или астрофизические наблюдения. Эти конвейеры играют важную роль в предварительной обработке, стандартизации и интеграции различных типов данных в рабочие процессы ИИ, которые необходимы для обеспечения совместимости и согласованности между различными модальностями. Такие конвейеры будут изначально полагаться на существующую аналитическую инфраструктуру (например, в рамках экспериментальных коллабораций или теоретических симуляций), но постепенно будут включать в себя комбинацию сквозного машинного обучения и обучаемых алгоритмов на основе физики.
Одной из ключевых задач будет определение того, как представлять физические данные, чтобы БЯМ общего назначения могли эффективно работать. Стратегии токенизации [67] могут быть особенно полезны для кодирования специфических для физики данных, таких как последовательности частиц, записи событий, математические уравнения и результаты моделирования, в форматы, подходящие для БЯМ. Например, предварительное обучение моделей на необработанных экспериментальных данных, таких как последовательности частиц БАК или наборы данных астрофизических временных рядов, может позволить им изучать специфические для данной области закономерности и структуры, улучшая их способность интерпретировать новые экспериментальные данные и раскрывать основные физические явления. Однако для полного использования богатства физических данных следует изучить альтернативные подходы, помимо токенизации, — такие как непрерывные представления, графы или нейронные поля, — которые могут обеспечить более бесшовные и значимые представления физических структур.
В дополнение к токенизации важную роль будет играть создание общих внедрений физических данных. Эти внедрения могут кодировать экспериментальную и моделированную информацию в стандартизированном формате, совместимом с БЯМ, что позволит расширить возможности применения в различных подразделах. Эти усилия требуют интеграции различных типов данных, включая текст, изображения, математические формулы и экспериментальные результаты, в единый конвейер обучения. Достижение этой интеграции станет серьезной задачей, но будет являться необходимым условием для создания универсальных БФМ.
Кроме того, подключение БФМ к внешним ресурсам, таким как базы данных вроде Particle Data Group (PDG) [68] или физическое программное обеспечение для моделирования, может обеспечить анализ в реальном времени (и повторный анализ) и облегчить сравнение между экспериментальными и смоделированными данными. Такая интеграция не только повысит точность модели, но и предоставит инструменты для совершенствования теоретических моделей, устраняя разрыв между теорией, экспериментом и знаниями на основе ИИ. Ранние попытки автоматизировать поиск новой физики и повторный анализ данных в физике элементарных частиц на коллайдерах Tevatron, LEP, HERA и LHC, например, [69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82].
Еще одна важная задача при разработке БФМ заключается в символическом мышлении и манипулировании сложными математическими формулами. Такие методы, как абстрактные синтаксические деревья (АСТ), теоремы и системы символической алгебры, показали большие перспективы для обеспечения способности моделей анализировать и манипулировать математическими структурами [83]. АСТ иерархически представляют математические выражения, помогая в разборе уравнений, в то время как теоремы позволяют логически рассуждать и делать выводы, что, вероятно, будет полезно для решения физических проблем.
Кроме того, нейросимволический подход ИИ, который объединяет возможности распознавания образов нейронных сетей с системами символьного мышления, также является перспективным для БФМ [84, 85]. Этот гибридный метод позволяет моделям одновременно обрабатывать язык и рассуждать об уравнениях, что делает его особенно эффективным для решения сложных научных задач.
Несоответствия, предвзятости и ошибки в обучающих данных создают дополнительные проблемы [86, 87]. Например, исторические предубеждения в научной литературе или ограничения в экспериментальных набора
данных могут привести к искаженным результатам моделей. Здесь методы объяснимого ИИ (XAI) [88], такие как визуализация внимания и атрибуция признаков, могут помочь улучшить некоторые из ключевых аспектов прозрачности БФМ, выявляя ключевые признаки и этапы рассуждения, лежащие в основе результатов определенных моделей. Методы XAI могут быть дополнены «механистической интерпретацией», которая включает в себя интервенционистские подходы [89, 90, 91], которые, как ожидается, прольют свет на внутренние причинно-следственные механизмы, определяющие поведение модели [92], и предложат понимание более широких функциональных структур, которые связывают эти механизмы с генерацией результатов [93], тем самым повышая прозрачность и надежность. Хотя эти методологии все еще находятся на начальной стадии, их сложность быстро возрастает.
Поскольку БФМ становятся все более неотъемлемой частью исследований, обеспечение их долгосрочной доступности и поддержки — помимо коммерческих интересов — становится еще одним важным вопросом. Разработка открытого исходного кода, обслуживание силами сообщества и целенаправленные инициативы по финансированию являются жизненно важными стратегиями для обеспечения доступности моделей для будущих научных достижений. Это поднимает вопрос о том, почему исследователи решат принять БФМ. Причина кроется в теоретическом стимуле: исследователи, которые принимают БФМ, получат конкурентное преимущество в своей способности генерировать новые знания и ускорять свой прогресс в исследованиях, создавая давление для принятия.
Наконец, разработка крупномасштабных БФМ требует существенной инфраструктуры высокопроизводительных вычислений (HPC), что может быть непомерно дорого для некоторых исследовательских групп. Совместные усилия с центрами HPC или поставщиками облачных вычислений, а также разработка более эффективных вычислительных решений потребуются для демократизации доступа к этим мощным моделям в научном сообществе.
5. Столп Оценка
Столп Оценка предназначен для оценки точности, надежности и эффективности БФМ. Посредством тестирования и бенчмаркинга оценщики играют фундаментальную роль в проверке моделей и в обеспечении большей надежности и научной обоснованности их результатов.
5.1. Цели
Основной целью столпа Оценка является оценка возможностей БФМ, таких как научное мышление и открытия. Соответственно, оценщики должны разрабатывать тесты, которые проверяют основные физические знания, математические способности и исследовательские навыки. Эти тесты должны охватывать широкий спектр подразделов физики и уровней сложности, от базовых концепций до передовых проблем на уровне исследований.
Для разработки надежных и обобщаемых (разговорных) БФМ важно оценивать их производительность при изменении распределения и в задачах вне домена [94, 48, 95]. Затем модели тестируются на наборах данных и задачах, которые отличаются от их обучающих данных, чтобы оценить их способность адаптировать и применять свои знания в новых ситуациях. Кроме того, оценщики должны измерять устойчивость модели к возмущениям входных данных, атакам противника и поврежденным данным, обеспечивая, чтобы модели могли обрабатывать шумные и несовершенные входные данные, которые могут встречаться в реальных условиях исследования.
Оценка калибровки модели и количественная оценка неопределенности при анализе экспериментальных данных является еще одной важной задачей столпа Оценка. БФМ должны не только предоставлять точные прогнозы, но и выражать соответствующие уровни уверенности в своих результатах. Следовательно, оценщики должны разрабатывать методы для измерения соответствия между предсказаниями моделей и реальными физическими данными и теориями, гарантируя, что модели генерируют научно обоснованные и надежные результаты.
Сравнение производительности БФМ с производительностью экспертов-людей в решении сложных задач исследовательского уровня может помочь понять, в какой степени эти модели могут расширить возможности человека. Кроме того, оценщики должны разрабатывать тесты, которые требуют сочетания глубоких знаний физики, креативности и навыков решения проблем, раздвигая границы того, чего ИИ может достичь в научных открытиях. Количественно определяя повышение эффективности и ускорение научных рабочих процессов, обеспечиваемое БФМ, оценщики могут продемонстрировать практическую ценность этих моделей в оптимизации исследовательских процессов и ускорении прогресса.
Исследование теоретических основ искусственного мышления и понимания в БФМ является еще одной важной задачей столпа Оценка. Оценщики должны сотрудничать с философами науки и теоретиками ИИ для изучения таких вопросов, как: Что представляет собой подлинное научное понимание в системах ИИ? Как мы можем формализовать и измерить возможности мышления БФМ? На основе решения этих фундаментальных вопросов оценщики могут внести свой вклад в разработку надежной теоретической основы для использования ИИ в научных открытиях.
Отслеживание улучшений производительности БФМ с течением времени для измерения темпов научного прогресса, обеспечиваемого этими моделями, представляет собой еще одну актуальную задачу. Оценщики должны установить долгосрочные тесты, которые оценивают возможности моделей в различных версиях, сценариях подсказок и итерациях обучения, что позволит исследователям выявлять тенденции, узкие места и области для дальнейшего улучшения. Кстати, эта информация может помочь в разработке более совершенных и эффективных БФМ, ускоряя темпы научных открытий.
5.2. Проблемы и методы оценки БФМ
На сегодняшний день существует много различных тестов физики для БЯМ. Большинство из них фокусируется на вопросах базового уровня средней школы или на более широких задачах извлечения знаний [96, 97, 98, 99, 100]. Однако не существует фундаментальных тестов физики, и нет тестов, которые специально нацелены на научное понимание. В настоящее время используется несколько методов для оценки способности БЯМ справляться со сложными задачами рассуждения, особенно в физике [101, 102, 103]. Теоретические подходы также вносят свой вклад в эту область; [15] предлагает сценарий, в котором понимание учителя (ИИ или человека) оценивается на основе его способности передавать знания ученику, как это оценивает независимый арбитр. Аналогично, тест научного понимания (SUB), представленный в [104], фокусируется на измерении научного понимания с помощью задач, включающих поиск информации, создание объяснений и генерацию контрфактических выводов. Можно представить себе и другие гипотетические тесты. Они могут включать в себя способность БЯМ предоставлять объяснения, выдерживающие проверку экспертами в предметной области, или создавать причинно-следственные реалистичные симуляции.
Текущие тесты для оценки БЯМ (и будущих БФМ) представляют несколько проблем, которые оценщики должны решить. Основной проблемой является избежание переобучения теста и закона Гудхарта, который предупреждает, что когда мера становится целью, она перестает быть хорошей мерой [105]. Поэтому оценщики должны быть осторожны, чтобы не создавать тесты, которые являются слишком узкими или легко поддаются «обыгрыванию», разрабатывая разнообразные и всеобъемлющие наборы тестов, которые проверяют широкий спектр навыков, от концептуального понимания до творческого решения проблем. Общие тесты ИИ часто страдают от произвольного выбора задач, неполного охвата домена и низкой производительности в отношении меньшинств ([106]; см., однако, [47]). Аналогично, основанные на подсказках оценки могут быть иногда хрупкими и чувствительными к незначительным изменениям в формулировке подсказки. Специфические для физики тесты должны избегать этих ловушек. Для достижения этой цели может быть полезным создание проблем и оценок от разных членов физического сообщества в качестве способа разработки мета-тестов, которые проверяют обобщение и оценивают компромиссы между широтой и глубиной знаний, а также антагонистическое тестирование. Однако следует отметить, что существует проблема, заключающаяся в том, что тесты становятся частью обучающих данных, поэтому важно, чтобы некоторые тестовые данные не публиковались.
Кроме того, включение реальных экспериментальных данных, таких как данные с Большого адронного коллайдера (БАК) или астрофизических изображений или смоделированных данных, в тесты БФМ может быть полезным для оценки способности БФМ рассуждать и анализировать сложную многомодальную научную информацию. Эти реальные наборы данных часто содержат шум, артефакты и другие проблемы, которых нет в идеализированных тестовых задачах. Тестирование больших предварительно обученных моделей (БФМ) на специфических для предметной области физических данных, таких как физика коллайдеров, астрофизика или гравитационные волны, с использованием как реальных, так и смоделированных (маркированных) наборов данных имеет решающее значение для их эффективного развертывания. В литературе уже существует несколько тестов, которые касаются таких задач, как обнаружение сигналов, реконструкция и поиск аномалий (например, [107, 108, 109, 110, 111, 112, 113]). Подробное обсуждение инициатив по открытым данным и разработки конкретных тестов, хотя и важно, выходит за рамки данной работы.
Еще одной ключевой задачей является различение запоминания и рассуждения. Оценщики должны использовать такие методы, как пошаговое объяснение, контрфактическое мышление, данные вне распределения и контроль процесса, чтобы проверить понимание моделей. Это может помочь моделям обобщать информацию за рамками запомненной информации. Аналогично, понимание (а также другие навыки) — это не бинарное понятие, а скорее градиент, который может иметь много разных уровней. Это означает, что хороший тест должен учитывать разные типы и разные уровни понимания [104]. Учитывая комбинаторное пространство физических задач, тесты должны охватывать репрезентативную выборку, чтобы обеспечить способность моделей справляться с разнообразными и новыми проблемами. Поскольку научные знания развиваются, модели должны обновляться с учетом меняющихся приоритетов и предположений. Таким образом, для поддержания актуальности требуются динамические фреймворки бенчмаркинга. Кроме того, рейтинги и сравнительные тесты могут привести к краткосрочной «метрической слежке» и узкой направленности на достижение наилучших результатов. Оценщики должны осознавать эти потенциальные негативные последствия и отдавать приоритет долгосрочному научному прогрессу и концептуальному пониманию, а не просто достижению наивысших баллов.
Применение абляции данных и методов зондирования может помочь проанализировать источники знаний в БФМ и понять, какие компоненты более низкого уровня отвечают за определенное поведение [114, 115]. Абляция данных [116] предполагает систематическое удаление или изменение конкретных подмножеств обучающих данных и наблюдение за влиянием на производительность модели. Методы зондирования включают в себя разработку целевых запросов или задач, которые проверяют понимание моделями конкретных концепций или принципов. Используя эти и другие методы механистической интерпретации, оценщики могут получить более детальное понимание знаний и возможностей рассуждения моделей. Аналогично, включение контроля процессов (по мере того, как они работают над проблемой), например, их механизмов внимания или активации признаков, в структуру оценки может дать ценную информацию о надежности промежуточных этапов рассуждений моделей.
Наконец, внедрение подробных рамок анализа ошибок может обеспечить систематический путь для диагностики слабых мест в БФМ и выявления областей для целенаправленного улучшения. Например, с помощью дезагрегированных показателей ошибок [117] исследователи могут разложить производительность модели на различные типы проблем и уровни сложности, потенциально выявляя закономерности несоответствий в физическом мышлении. Такое детальное понимание режимов отказов может потенциально выявить конкретные слабые места в архитектуре БФМ, а также дать представление о разработке более надежных и теоретически обоснованных моделей.
6. Столп Философское Осмысление
Интеграция БФМ в научные исследования представляет ряд эпистемологических, концептуальных и этических проблем, требующих философского исследования. Столп Философское Осмысление фокусируется на философских последствиях интеграции БФМ в научные исследования. Он изучает, как эти системы ИИ могут улучшить или трансформировать научную практику, и размышляет об их потенциале для расширения научного понимания, о роли ученых-людей в их разработке и развертывании, а также о типах совместных структур, которые могут потребоваться.
6.1. Цели
Изучение природы и критериев научного понимания в контексте ИИ представляет собой первую цель. Может ли, и если да, то как, БФМ усилить человеческое понимание — это философский вопрос, который связан с текущими дебатами о научном понимании [118, 14, 119]. Последующим вопросом является то, могут ли они генерировать «искусственное понимание» независимо от людей. Хотя БФМ могут поддерживать генерацию гипотез и экспериментальное тестирование, пока именно ученые-люди интегрируют эти результаты в более широкие процессы понимания. В классической научной практике научное понимание создается путем ответа на вопросы, ищущие объяснения различных типов [120], которые обычно обусловлены эпистемическими интересами, такими как предвидение последствий вмешательств. Перспектива функционирования БФМ как «искусственных ученых», которые могут обладать «искусственным пониманием», поднимает вопрос о том, должно ли такое понимание соответствовать существующим критериям человеческого понимания или требует новой концепции понимания [104]. По мере того как БФМ развиваются от инструментов до автономных агентов, в соответствии с такими понятиями, как «робот-первооткрыватель» Зыткова [121], «робот-ученый» [122] и недавняя «интеллектуальная агентская система» [23], их растущая роль в разработке теорий и концептуальных инновациях является областью, которую необходимо исследовать.
Интеграция БФМ также создает риски, такие как распространение ненадежных исследований, снижение взаимодействия с коллегами и создание эхо-камер. Эти риски усугубляются непрозрачностью методологий в сложных областях, требуя разработки этических руководящих принципов и механизмов надзора [50, 51, 52, 123]. Для решения этих проблем философы должны сотрудничать с исследователями ИИ и физиками для разработки фреймворков для ответственного и надежного ИИ в физических исследованиях.
6.2. Проблемы и методы
Определение и операционализация научного понимания для систем ИИ, например, разработка четкого и применимого определения, является ключевой задачей, как и поиск компромиссов между объяснимостью, точностью и сложностью [124, 125, 126]. Возрастающая автономность БФМ в научных задачах вызывает опасения по поводу их потенциала заменить ученых-людей и последствий для роли творчества и случайности в научных открытиях [127]. Хотя в некотором отношении ИИ может предоставить возможность для долгожданной «логики открытия» [128]; [129], которая была востребована в 70-х и 80-х годах, роль человека в этом цикле по-прежнему очень важна [130, 131, 132].
Совершенствование соответствия ИИ научным ценностям и этическим принципам, таким как объективность, прозрачность, воспроизводимость, благодеяние, ненанесение вреда и справедливость, является еще одной важной задачей. Аналогично, успешная интеграция БФМ в научные исследования потребует преодоления дисциплинарных барьеров и содействия эффективному междисциплинарному сотрудничеству между физикой, информатикой и философией. Для достижения этого преобразования необходимо извлечь уроки из успешных экспериментальных коллабораций в физике и других областях, где четкие структуры стимулирования, общая инфраструктура и сценарии «выигрыш-выигрыш» позволили исследователям продвигать индивидуальные цели, внося при этом вклад в более широкие цели. Это предполагает, среди прочего, приведение в соответствие стимулов карьерного роста, механизмов финансирования и систем признания с общими целями (см. раздел ниже).
Для решения этих задач философы будут использовать ряд методов. Концептуальный анализ и философское исследование, чтобы прояснить ключевые понятия, такие как научное понимание, искусственный интеллект и природа научного открытия, и изучить последствия БФМ для этих понятий. Тематические исследования и историческое изучение использования ИИ в научной практике, чтобы дать представление о развивающейся роли ИИ в научных исследованиях. Мысленные эксперименты и контрфактические рассуждения будут использоваться для изучения потенциальных последствий БФМ для научного понимания и открытий, а также для проверки границ наших концепций и фреймворков. Этические фреймворки и методологии согласования ценностей будут разработаны для того, чтобы направить развитие и развертывание БФМ в научных исследованиях таким образом, чтобы они соответствовали основным научным ценностям и этическим принципам. Наконец, планирование сценариев и методы упреждающего управления могут быть использованы для изучения потенциальных будущих траекторий развития и развертывания ИИ в физических исследованиях, а также для разработки проактивных стратегий управления связанными с этим рисками и проблемами.
Поддержать перевод подпиской на канал — клик
ссылка на оригинал статьи https://habr.com/ru/articles/873140/
Добавить комментарий