Большинство исследований в компьютерной томографии нельзя воспроизвести

Мы не собирались писать эту статью. Мы всего лишь хотели воспроизвести результаты открытого бенчмарка ICASSP-2024 по низкодозовой компьютерной томографии, сравнить их с алгоритмами Smart Tomo Engine и понять свое место относительно опубликованных baseline и SOTA-решений.

Сначала всё шло по плану. Потом более быстрый алгоритм неожиданно оказался точнее более медленного. Затем на картах ошибок начали повторяться странные структуры. А спустя несколько дней выяснилось, что часть измеряемого качества может определяться не реконструкцией томографических данных, а особенностями самого бенчмарка.

Так обычная задача воспроизведения результатов превратилась в расследование. В этой статье мы покажем, что именно удалось обнаружить, почему воспроизводимость в компьютерной томографии оказывается намного сложнее, чем кажется, и почему хороший результат в таблице лидеров не всегда означает хороший алгоритм.

А в какой области, собственно, соревнуемся? Краткий экскурс в конусно-лучевую компьютерную томографию (КЛКТ)

Конусно-лучевая компьютерная томография (eng. Cone Beam Computed Tomography, CBCT) — это разновидность компьютерной томографии, в которой зондирующее излучение распространяется от условно точечного источника в виде широкого конуса, а получение всех необходимых проекций происходит за один или даже половину оборота источника и детектора (в отличии от более привычной нам после COVID-19 спиральной КТ). В медицине КЛКТ активно используется там, где важны высокая скорость получения реконструкции при сравнительно низкой дозе. Основное применение для визуализации рентгеноконтрастных костных структур: стоматология и челюстно-лицевая хирургия, хирургия конечностей, интервенционная радиология.

Фотография медицинской установки и схема КЛКТ (ссылка)

В большинстве современных медицинских аппаратов КЛКТ используются плоские детекторы и в этом они очень похожи на установки для лабораторной КТ.

Низкодозовая КТ (low-dose CT)

Целевой для датасета ICASSP-2024 является задача низкодозовой КЛКТ реконструкции, которая состоит в получении максимально качественной реконструкции при изменении протокола для снижения дозы относительно некоторого стандартного (clinical/full dose) протокола. Снизить лучевую нагрузку возможно разными способами: уменьшить количество проекций, уменьшить время экспозиции для одной проекции, понизить напряжение на источнике и снизить интенсивность излучения. Конкретно в ICASSP-2024 для уменьшения дозы от условных 100% для clinical до 10% у low варианта при сохранении числа проекций уменьшается число регистрируемых фотонов, что приводит к уменьшению уровня сигнал/шум.

Примеры визуализации нормализованных проекций датасета ICASSP-2024 для нормальной дозы (clinial dose, слева) и низкой дозы (low dose, справа)

Поскольку датасет ICASSP-2024 первый достаточно объемный открытый набор данных для КЛКТ мы решили воспроизвести процедуру измерения качества для baseline методов и сравнить с качеством работы реализованы в Smart Tomo Engine [Shutov-2022] алгоритмов STE-FDK и STE-HFDK, быстрой версии FDK, основанной на идеях [Xiao-2003]

Пробуем играть по правилам

Для начала мы разобрались с правилами соревнований. Датасет ICASSP-2024 содержит два набора синограм соответствующих нормальному и низкодозовому режиму съемки (clinical, low) и три восстановленных методом ASTRA-FDK объема (clean, clinical, low). За эталон объема принимается clean-реконструкция, Официально объявленная метрика соревнования — average MSE (AMSE). То есть оценивается отклонение результата реконструкции с заданной дозой от чистого clean-варианта по всему объёму и результат усредняется между всеми объемами.

Далее техническая работа: скачать и распаковать данные, адаптировать авторские скрипты базового метода реконструкции ASTRA-FDK, реализовать расчет официальной метрики AMSE, проверить что заявленные значения для baseline совпадают с опубликованными (строка 1 в таблице ниже) для обоих вариантов дозы.

Показатели качества (AMSE) для ICASSP validation, меньше лучше — референтные методы (строки 1-2) [Alavala-2024], реализации Smart Tomo Engine (строки 3-4) и top-3 метода по рейтингу ICASSP-2024 [ICASSP-2024]

#	Метод реконструкции	Обычная доза (сlinical)	Низкая доза (low)
1	ASTRA-FDK (baseline)	0.03102	0.07959
2	ASTRA-SIRT	0.06648	0.04545
3	STE-FDK	0.04199	0.11923
4	STE-HFDK	0.03009	0.03764
5	BJTU_PKUCH (2)	0.00077	0.00145
6	Mikael Brudfors (1)	0.00084	0.00148
7	Andreas Hauptmann (9,4)	0.00097	0.00168

Для запуска своих методов в описании датасета находится геометрическое описание “установки” и переносится в виде параметров в конфигурационные файлы, данный конвертируются в более универсальный для промышленного софта вид (папка со срезами). После это можно запускать реконструктор и замерять качество. На глаз реконструируемые объемы похожи на опубликованные, цифры выглядят приятными для исследователя: наш метод STE-HFDK победитель среди инженерных методов, соревноваться с сетками плана не было. Кажется, можно публиковаться… Но нет, победа STE-HFDK над STE-FDK не является частью плана. Более быстрый STE-HFDK считает менее точно и его победа является сомнительной, а точнее наводит на мысль, что сломана “линейка” и процедура оценки качества измеряет что-то не то.

Копаем глубже — генерация данных ICASSP-2024

Для правильного понимания цифр пришлось вдумчиво разбираться. Датасет ICASSP-2024 синтетический, то есть данные получены моделированием процесса сканирования. Авторами за основу взят широко известный в узких кругах и публично доступный датасет LIDC-IDRI, содержащий порядка 1 тыс. реконструкции объемов зоны грудной клетки полученных на стандартных медицинских КТ-сканерах в режиме спиральной съёмки. Выбор объекта съемки не типичен для медицинского КЛКТ и скорее может быть объяснен простотой доступа к LIDC-IDRI, но использованию этих данных для сравнения алгоритмов томографической реконструкции не мешает.

Примеры визуализации срезов исходных объемов LIDC-IDRI

Сразу отметим, что скрипты генерации данных авторами датасета не выложены, поэтому приходится опираться на описания и наблюдения. Для получения КЛКТ проекций авторы моделируют проецирования с помощью оператора прямого проецирования (custom forward operator) на базе библиотеки ASTRA Toolbox с фиксированной конической геометрией сканирования.

Обратим внимание, что пиксели проекционного изображения содержат число пропорциональное количество зарегистрированных фотонов, то есть “на воздухе” должен быть “светлое”, а объект дает “тени”. На рис. 1 изображение инвертировано, то есть это уже не проекции, а нормализованные изображения после линеаризации. Результаты такого прямого проецирования чистые (clean) нормализованные проекции (не опубликованы авторами ICASSP-2024), для которых опорным методом ASTRA-FDK реконструированы опубликованные эталонные clean-объемы.

Примеры визуализации срезов эталонных clean-объемов ICASSP-2024

Реальные физические процессы регистрации проекций в КТ намного сложнее, чем моделирует прямое проецирование, поэтому для повышения реалистичности на полученные проекции добавляют шум, причем чем “меньше доза”, тем более сильный шум добавляют. Эта практика является одной из стандартных для создания low dose наборов данных, и её часто используют для получения из проекций реальных КТ-сканеров проекций с “пониженной дозой”. Наличие шума снижает качество реконструкции с нормальной дозой относительно clean-объема.

Примеры визуализации срезов объемов для нормальной дозы (clinical) ICASSP-2024

Результаты реконструкции для низкой дозы очевидно существенно ещё хуже, поэтому задача низкодозовой КТ реконструкции вполне понятна в терминах “сделать хорошо” (как при высокой дозе).

Примеры визуализации срезов реконструированных объемов для пониженной дозы (low) ICASSP-2024

Поскольку просто взять и запустить авторские скрипты генерации данных возможности нет, мы попробовали сделать “по описанию”. Для начала попробуем разобраться насколько GT реконструкция (clean) похожа на исходный объем. Медицинские реконструкции чаще всего хранят значения стандартной шкалы для измерения рентгеновской плотности тканей — значения в единица Хаунсфилда (HU, Hounsfield Units). Нижней границей является -1000 для воздуха.

Визуализация среза исходного объема LIDC-IDRI 0802-030 и LIDC-IDRI 0809-099 (с областью вокселей вне зоны реконструкции, справа)

Фиксированный в LIDC-IDRI размер среза 512×512 может достигаться обрезанием области реконструкции до нужного размера. При этом часть реконструированных объемов содержать воксели, в которых нет информации — они просто не попали в область реконструкции. Для кодирования таких случаев используются в клинических данных отрицательные значения, выходящие за пределы диапазона (например -2000 или -2048). Считать прямые проекции непосредственно для таких данных просто нельзя, поэтому заменяем “невозможные” значения на значения соответствующие воздуху. По описанию необходимо сжать исходный объем до куба со стороной 256. Из возможных вариантов усреднения при сжатии используем усреднение по области.

Визуализация соответствующих срезов LIDC-IDRI 0802-030 scaled и ICASSP 0801-030 clear

Нормализованный по значениям и размеру LIDC-IDRI объем качественно похож на clean, но стоит заметить более заметную неоднородность “воздуха” для clean. Отдельно отметим, что clean-объемы ICASSP содержат большое количество вокселей с отрицательными значениями в широком диапазоне значений. Для метода FDK это нормально (известная фича, а не баг), но совершенно не соответствует физической интерпретации реконструированных данных КТ.

Само решение авторов набора данных ICASSP о том, что за «истинную величину» берется “бесшумной” реконструкции, выглядит довольно спорным. Когда измерение качества строится на реальных проекционных данных, то ничего другого не остается, как брать за эталон лучшую реконструкцию. Когда данные моделируются, то вариантов становится больше. Результатом выбранного метода подготовки GT в наборе данных ICASSP-2024 стало привнесение артефактов реконструкции опорным алгоритмом ASTRA-FDK в сам эталон. Для соревнования в такими правилами как ICASP-2024, это частично компенсируется использованием ровно того же алгоритма FDK для получения clinical и low версий объемов. Тем не менее при использовании других алгоритмов реконструкции предложенная схема измерения качества будет реагировать не только на разницу между clinical и low версиями, но и реагировать на отклонения от результатов FDK.

Отдельный пристальный взгляд на визуализацию разности срезов между реконструкциями и эталоном наводит на две мысли: во-первых на таких визуализация бросается в глаза одинаковая кольцевая структура области с максимальным отклонением, во-вторых среднее значение отклонения близко к нулю в области реконструкции и довольно много ошибки накапливается вне области реконструкции (“в углах”).

Визуализация типичной для ICASSP карты отклонений среза реконструкции от GT (clear) для clinical (слева) и low (справа)

Про сам метод FDK известно, что на границе цилиндрической области реконструкции появляются заметные отклонения и артефакты реконструкции. Но замеченное кольцо высокой ошибки визуально отличается от типичных артефактов и странно похоже между срезами для нормальной и низкой дозы. Такая странность подтолкнула буквально под лупой изучить нормализованные проекции, в результате чего была обнаружена отчетливо видная полоска в один пиксель по краю.

Визуализация увеличенного фрагмента левого верхнего угла нормализованных проекций для нормальной дозы и низкой дозы

Такая выраженная полоска есть на всех нормализованных проекциях, а в результате реконструкция “обогащается” тонкостенным поглощающим цилиндром, который и дает кольцо заметного отклонения. Отсутствие ярко выраженной кольцевой области на срезах GT реконструкции объема соответствует правдоподобной гипотезе, что однопиксельная рамка отсутствовала на clean-проекциях, однако проверить эту гипотезу невозможно, т.к. clean-проекции не входят в опубликованный набор данных. Таким образом, результаты реконструктора “штрафуются” при более точной реконструкции.

Следуя принципу “критикуя — предлагай” для устранения некорректности использования значений вне центральной круговой области интереса (ROI) при вычислении 𝐴𝑀𝑆𝐸 мы предлагаем использовать Masked AMSE (𝑀𝐴𝑀𝑆𝐸), который вычисляется только по маске области интереса. Для ICASSP-2024 областью интереса можно считать цилиндр (в объеме) или круг заданного радиуса круга 𝑟 на срезе, см. рисунок.

График зависимости 𝑀𝐴𝑀𝑆𝐸(𝑟) для реконструкции методом ASTRA-FDK показывает характерный скачок ошибки на границе области реконструкции

Это позволяет исключить из оценки как естественные артефакты методов реконструкции около границы области реконструкции, так и ICASSP-2024 специфичную ошибку в данных. Например, как видно из графика, просто исключение области “вне реконструкции” для нормальной дозы уменьшает показатель MAMSE в три раза. После этой находки становятся понятны фантастические успехи обучаемых методов по сравнению с baseline и другими инженерными методами. Сетки, которые более успешно научаются правильно маскировать кольцевой артефакт и артефакты ASTRA-FDK вне области реконструкции успешно решают задачу уменьшения AMSE на целевых данных, при этом оценить вклад от улучшения самой реконструкции в области интереса не представляется возможным. Ещё немного проблем датасета ICASSP-2024 не касается напрямую задач оценки качества методов КТ реконструкции, но резко снижают его ценность для научных исследований и делает его малопригодным для валидация на независимых данных (cross-dataset validation) в околомедицинских исследованиях. Источником проблемы является игнорирование авторами ICASSP-2024 особенностей медицинских реконструкций, а именно “некубичность” вокселей, которая имеет место почти всегда. Исходные объемы LIDC-IDRI в продольном направлении имеют разное число срезов и разную толщину среза. Примеры конкретных значений приведены в таблице ниже

Пример вариативности геометрических параметров пакетов ICASSP-2024 (по метаданным LIDC-IDRI DICOM)

ICASSP, номер пакета	LIDC, номер пакета	𝑛, число срезов	𝑇, mm толщина среза	𝐿, mm продольный размер реконструкции
0801	0802	256	1.3	332.8
0805	0806	481	1.3	625.3
0808	0809	198	2.0	396.0

Большая разница в геометрических размерах объясняется тем, что датасет содержит исследования как для взрослых, так и для детей. В итоге разные исходные объемы LIDC-IDRI сжимаются крайне неравномерно по разным направлениям, поэтому нарушается правдоподобие пропорции человеческих органов.

Заключение

Мы начинали эту работу как попытку воспроизвести результаты открытого бенчмарка, а закончили расследованием ограничений самого бенчмарка. Этот опыт еще раз показал: лидерство в таблице результатов не всегда означает лидерство в качестве реконструкции. Для создания действительно работающих технологий необходимы воспроизводимые данные, прозрачные процедуры оценки и критический анализ получаемых результатов.

Именно такой подход лежит в основе разработки томографических технологий Smart Engines.

P.S. Настоящая статья написана по материалам следующей научной работы сотрудников Smart Engines:

D. Polevoy, D. Kazimirov, M. Mehova and M. Gilmanov, “X-ray Computed Tomography Traps and Challenges for Deep Learning Scientist,” SPRA 2024, 13540 ed. Society of Photo-Optical Instrumentation Engineers (SPIE), Feb. 2025, vol. 13540, ISSN 0277-786X, ISBN 9781510688797, vol. 13540, pp. 135400F1-135400F6, 2025, DOI: 10.1117/12.3056584.

Список литературы

[Biguri-2024] A. Biguri and S. Mukherjee, “Advancing the frontiers of deep learning for low-dose 3D cone-beam computed tomography (CT) reconstruction,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024.

[Biguri-2023] A. Biguri and S. Mukherjee. Validation dataset for the ICASSP-2024 3D-CBCT challenge (Version 1) [Data set]. Zenodo. 2023. doi:10.5281/zenodo.8377374

[Xiao-2003] S. Xiao, Y. Bresler, and D. C. Munson, «Fast feldkamp algorithm for cone-beam computer tomography,» in Proceedings 2003 International Conference on Image Processing (Cat. No. 03CH37429), 2, II–819, IEEE (2003).

[Alavala-2024] S. Alavala and S. Gorthi, «3d cbct challenge 2024: Improved cone beam ct reconstruction using swinir-based sinogram and image enhancement,» 101–102 (2024). doi: 10.1109/ICASSPW62465.2024.10626033.

[Shutov-2022] M. Shutov, A. Ingacheva, D. Kazimirov, A. Yamaev, M. Gilmanov, A. Buzmakov, M. Chukalina, D. Nikolaev, D. Polevoy, V. Arlazarov, and others, «Smart tomo engine novel tomography reconstruction tool,» Synchrotron and Free Electron Laser Radiation: Generation and Application (SFR-2022), Novosibirsk, 35–36 (2022).

ссылка на оригинал статьи https://habr.com/ru/articles/1044162/