Опубликовано

Как научить компьютер переводить МРТ в КТ: нейросети, которые видят кости там, где их не должно быть

Новая нейросетевая архитектура превращает МРТ и конусно-лучевую томографию в качественные КТ-снимки – так, чтобы врачи могли точнее планировать лучевую терапию.

Электротехника и системные науки
DeepSeek-V3
Leonardo Phoenix 1.0
Автор: Доктор Анна Мюллер Время чтения: 10 – 15 минут

Практичность

95%

Доступность

80%

Техническая глубина

89%
Оригинальное название: Deep Learning-Based Cross-Anatomy CT Synthesis Using Adapted nnResU-Net with Anatomical Feature Prioritized Loss
Дата публикации статьи: 26 сен 2025

Представьте, что вы готовитесь к важной презентации. У вас есть два черновика: один с отличной структурой, но без деталей, другой – детальный, но плохо организованный. Нужен третий вариант, который объединит преимущества обоих. Примерно такую задачу решают врачи-радиологи, когда планируют лучевую терапию для онкологических пациентов.

Им нужны два типа изображений. Магнитно-резонансная томография показывает мягкие ткани и опухоли с невероятной чёткостью – это как HD-фотография вашей внутренней анатомии. Но для расчёта дозы облучения нужна компьютерная томография: она показывает, насколько плотны ваши ткани и как рентгеновские лучи будут через них проходить. Без этого нельзя точно рассчитать, куда именно направить излучение.

Проблема в том, что делать и МРТ, и КТ каждому пациенту – это лишняя лучевая нагрузка, время и затраты. А что если научить компьютер создавать КТ-снимок из МРТ? Звучит как фантастика, но именно этим и занимаются исследователи, и недавно появилось решение, которое работает лучше предыдущих.

Почему это вообще сложно

Давайте разберёмся, почему нельзя просто взять МРТ и «конвертировать» его в КТ, как фотографию в другой формат.

МРТ показывает, как атомы водорода в ваших тканях реагируют на магнитное поле. Это даёт отличную картинку мягких тканей – мышц, опухолей, мозга. Но информации о плотности тканей, которая нужна для расчёта дозы облучения, там нет от слова совсем. Это как если бы вам дали карту города с названиями улиц, но без высоты зданий – для некоторых задач этого недостаточно.

КТ, напротив, основана на рентгеновских лучах. Она прекрасно показывает кости и плотность тканей, но мягкие ткани на ней видны гораздо хуже. Кроме того, есть ещё конусно-лучевая КТ – упрощённый вариант, который используют прямо в кабинете лучевой терапии, чтобы проверить положение пациента. Но её качество посредственное, артефактов хватает, и для точных расчётов она не годится.

Задача звучит так: взять изображение из одного мира (МРТ или конусно-лучевая КТ) и создать изображение из другого (качественная КТ), причём так, чтобы все анатомические детали остались на своих местах, а информация о плотности тканей появилась там, где её раньше не было.

Нейросети учатся видеть то, чего нет

За последние несколько лет в медицинской визуализации произошла тихая революция. Глубокое обучение – технология, при которой нейросеть учится находить закономерности в огромных объёмах данных, – стало основным инструментом для обработки медицинских изображений.

Одна из самых успешных архитектур называется nnU-Net. Это не просто нейросеть, а целая система, которая автоматически подстраивается под ваши данные. Вы загружаете изображения, говорите, что хотите получить на выходе, и nnU-Net сама решает, какой размер патчей использовать, сколько нужно слоёв и как настроить обучение. Изначально её создавали для сегментации – задачи, когда нужно обвести на снимке печень, сердце или опухоль. Но оказалось, что с небольшими изменениями она отлично подходит и для перевода изображений.

В новом исследовании использовали два варианта этой архитектуры: стандартный и резидуальный.

Стандартная версия работает просто: на вход подаётся МРТ, на выходе – синтетическая КТ. Около тридцати миллионов параметров настраиваются так, чтобы результат был максимально похож на настоящую КТ.

Резидуальная версия хитрее. Она не пытается создать КТ с нуля, а учится находить разницу между входным и целевым изображениями. Это как если бы вас попросили нарисовать портрет, но вместо того, чтобы рисовать всё с чистого листа, вам дали фотографию и сказали: «Покажи только то, что нужно изменить». Такой подход позволяет сети сосредоточиться на действительно важных деталях. Параметров в резидуальной версии больше – около пятидесяти семи миллионов, но это позволяет ей лучше улавливать тонкие анатомические структуры.

Функция потерь, которая знает анатомию

Но тут возникает вопрос: как объяснить нейросети, что важно? Обычно используют простые метрики – например, среднее абсолютное отклонение яркости пикселей. Если предсказанное изображение отличается от настоящего на десять единиц яркости в каждом пикселе, сеть получает штраф. Чем меньше отклонение, тем лучше.

Проблема в том, что такая метрика не понимает анатомию. Для неё всё равно, ошиблась ли сеть в яркости мягких тканей или костей. А для врача – нет. Если граница между печенью и почкой размыта на миллиметр, это может быть критично. Если кость стала чуть менее яркой, но её форма сохранилась – это не так страшно.

Решение нашли в так называемых перцептуальных функциях потерь. Идея в том, чтобы сравнивать не сами пиксели, а признаки, которые извлекает из изображений другая нейросеть – та, что уже обучена понимать анатомию.

Исследователи взяли готовую сегментационную сеть, обученную на проекте TotalSegmentator. Эта сеть умеет распознавать десятки органов и структур: печень, лёгкие, кости, крупные сосуды. Она смотрит на КТ-снимок и понимает: вот здесь рёбра, вот здесь сердце, а вот здесь – позвоночник.

Новая функция потерь, названная AFP (Anatomical Feature-Prioritized, то есть «с приоритетом анатомических признаков»), работает так: настоящая и синтетическая КТ пропускаются через эту сегментационную сеть, после чего сравниваются признаки, извлечённые на разных уровнях. Если признаки похожи, значит, сеть синтеза воспроизвела анатомию правильно. Если нет – получает штраф.

Это похоже на то, как учитель проверяет сочинение: важна не только грамотность (яркость пикселей), но и смысл (анатомическая достоверность). AFP заставляет сеть не просто копировать яркости, а действительно понимать, где что находится.

Как это работает на практике

Для обучения использовали многоцентровый набор данных SynthRAD2025. В него вошли изображения трёх анатомических областей: головы и шеи, грудной клетки и живота. Все снимки были заранее выровнены, чтобы у сети не было лишних сложностей.

Изображения разрезали на трёхмерные патчи – небольшие кубики. Представьте, что вы режете буханку хлеба на ломтики, а потом каждый ломтик – на кубики. Только вместо хлеба – объёмные медицинские данные. Размер патчей подбирался автоматически в зависимости от анатомической области.

МРТ нормализовали так, чтобы в каждом случае средняя яркость была нулевой, а стандартное отклонение – единицей. Для КТ и конусно-лучевой КТ сначала обрезали экстремальные значения (чтобы убрать выбросы), а затем тоже применяли нормализацию. Это стандартная процедура, она помогает сети лучше учиться.

Обучение было долгим. Стандартная сеть училась тысячу эпох, резидуальная – полторы тысячи. Эпоха – это один полный проход всех обучающих данных через сеть. После этого лучшие модели дообучали ещё пятьсот эпох, но уже с добавлением AFP. То есть сначала сеть училась просто воспроизводить яркости, а потом – понимать анатомию.

Интересная деталь: исследователи не стали применять дополнительные аугментации – искусственное увеличение датасета за счёт поворотов, отражений и добавления шума. Это сделано намеренно, чтобы результаты были максимально воспроизводимыми и не зависели от случайных эффектов.

На этапе вывода, когда обученная сеть создаёт синтетические КТ для новых пациентов, использовали хитрый трюк. Изображение разрезали на патчи с перекрытием, каждый патч обрабатывали отдельно, а потом усредняли результаты в областях перекрытия. Это как если бы три человека рисовали разные части картины, а в местах стыка усредняли их мазки – так не остаётся резких границ.

Что получилось: цифры и картинки

Модели оценивали по двум группам метрик.

Первая группа – метрики интенсивности. Они показывают, насколько точно сеть воспроизвела яркости: среднее абсолютное отклонение (MAE), пиковое отношение сигнала к шуму (PSNR), индекс структурного сходства (SSIM). Здесь лидировали модели, обученные только на L1-потере – той самой простой метрике, которая сравнивает яркости пикселей напрямую. Это логично: если сеть училась минимизировать отклонение яркостей, то она и показывает лучшие результаты по этой метрике.

Вторая группа – метрики сегментации. Здесь синтетическую и настоящую КТ пропускали через TotalSegmentator, получали маски органов и сравнивали их. Две основные метрики: коэффициент Дайса (показывает, насколько хорошо совпадают маски) и расстояние Хаусдорфа (показывает максимальное отклонение границ). Здесь победили модели с AFP. Они лучше воспроизводили форму и положение органов, границы получались чётче, а кости – контрастнее.

Но по-настоящему интересное начинается, когда смотришь на сами изображения.

При переводе МРТ в КТ модели с AFP показали гораздо более чёткие кости. Лопатки, рёбра, позвоночник – всё это было видно отчётливо, почти как на настоящей КТ. Модели без AFP давали более размытые кости, хотя общая яркость тканей могла быть ближе к оригиналу.

Резидуальная архитектура усилила этот эффект. Она ещё лучше справлялась с деталями – мелкими костными структурами, границами органов. Это как разница между фотографией с обычного телефона и с профессиональной камеры: общие контуры одинаковые, но детализация разная.

При переводе конусно-лучевой КТ в обычную КТ задача была сложнее. Конусно-лучевая томография полна артефактов – ложных полос, размытий, шумов. Сеть должна была не просто перевести изображение, но и «очистить» его. И снова комбинация резидуальной архитектуры с AFP дала лучший результат. Патологии – например, опухоли или изменённые ткани – воспроизводились точнее, границы органов не расплывались.

Почему метрики обманывают

Здесь возникает парадокс. Модели с AFP показывают худшие результаты по MAE и PSNR, но лучшие – по сегментационным метрикам и визуальному качеству. Как так?

Дело в том, что разные метрики оптимизируют разные вещи. MAE и PSNR смотрят на каждый пиксель отдельно и считают, насколько он отличается от оригинала. Если у вас кость сдвинулась на один пиксель, но яркость осталась правильной, эти метрики покажут ошибку. Если кость осталась на месте, но стала чуть ярче или темнее, они тоже покажут ошибку. Для них это одинаково плохо.

А для врача – нет. Для планирования лучевой терапии критично, чтобы органы были на своих местах. Если печень на синтетической КТ сдвинута на три миллиметра, это катастрофа – облучение может пойти не туда. Если печень на месте, но её средняя яркость отличается на пять единиц Хаунсфилда – это не идеально, но с этим можно работать.

AFP учит сеть именно этому: не просто копировать яркости, а сохранять анатомическую структуру. Поэтому метрики интенсивности у неё чуть хуже, зато клиническая применимость – выше.

Это напоминает ситуацию с автомобильными навигаторами. Один может показать кратчайший маршрут по расстоянию, другой – самый быстрый по времени. Формально первый «точнее» (метры не врут), но второй полезнее, потому что учитывает пробки, светофоры и реальные условия.

Ограничения и артефакты

Конечно, всё не идеально. У моделей с AFP иногда возникают артефакты типа «ступенек» – резкие переходы яркости в некоторых областях. Это связано с тем, как работают свёрточные слои в декодере. Исследователи уже поняли причину: транспонированные свёртки, которые увеличивают разрешение изображения, создают эти артефакты при использовании перцептуальных функций потерь.

Решение нашли простое: заменить транспонированные свёртки на трёхлинейную интерполяцию. Это сгладило проблему, но не устранило её полностью. В будущем планируется ещё больше оптимизировать архитектуру декодера – возможно, использовать гибридные подходы, которые сохранят преимущества AFP, но минимизируют артефакты.

Ещё одна сложность – время обучения. Полторы тысячи эпох плюс пятьсот эпох дообучения – это десятки часов вычислений на мощных GPU. Но это разовые затраты. Зато после обучения сеть работает быстро: создать синтетическую КТ для нового пациента можно за несколько минут.

Почему это важно для реальной медицины

Давайте вернёмся к началу. Зачем вообще всё это нужно?

Представьте пациента с опухолью головного мозга. Ему делают МРТ, чтобы точно увидеть границы опухоли – она может прилегать к критически важным структурам, и врачу нужна максимальная чёткость. Но для планирования лучевой терапии нужна ещё и КТ, чтобы рассчитать, как рентгеновские лучи будут проходить через череп и ткани. Значит, пациент должен пройти оба исследования. Это время, дополнительное облучение и дополнительные расходы.

Теперь представьте, что можно сделать только МРТ, а КТ создать искусственно – причём настолько точно, что врач сможет уверенно планировать лечение. Пациент получает меньшую лучевую нагрузку, процесс ускоряется, а клиника экономит ресурсы.

Или другая ситуация: конусно-лучевая КТ. Её делают прямо в кабинете лучевой терапии перед каждым сеансом, чтобы убедиться, что пациент лежит правильно. Но качество такой томографии низкое, и пересчитать на её основе дозу облучения нельзя. Если бы можно было «улучшить» конусно-лучевую КТ до уровня диагностической, это позволило бы адаптировать план лечения прямо по ходу курса, учитывая изменения в опухоли и положении органов.

Именно для этого и нужны такие нейросети. Это не академическое упражнение, а инструмент, который может изменить практику лучевой терапии.

Что дальше

Предложенный метод – не финальная точка, а скорее надёжная платформа для дальнейшего развития. Комбинация автоматической настройки nnU-Net, преимуществ резидуального обучения и анатомически ориентированных функций потерь показала свою эффективность. Сеть работает стабильно на разных анатомических областях, не требует сложных аугментаций и не ломается на новых данных.

Следующие шаги очевидны. Нужно оптимизировать декодер, чтобы окончательно избавиться от артефактов. Можно экспериментировать с гибридными функциями потерь – возможно, добавить элементы состязательного обучения, когда одна сеть создаёт изображения, а другая пытается отличить их от настоящих. Можно попробовать трансформеры – архитектуру, которая показывает впечатляющие результаты в обработке естественных изображений и текстов.

Но главное уже сделано: доказано, что глубокое обучение может решать задачу межмодального синтеза медицинских изображений на клинически значимом уровне. Это больше не теория, а работающая технология, которая может войти в реальную практику.

Когда-то планирование лучевой терапии занимало недели и требовало множества повторных сканирований. Потом появились автоматические системы оконтуривания. Теперь приходит время синтетических изображений – когда одного исследования хватает для задач, для которых раньше требовалось два или три. Медицинская визуализация, как и энергия, должна быть надёжной, как воздух.

Это не революция за один день. Но каждый такой шаг приближает нас к медицине, где технологии работают на точность, скорость и комфорт пациента. Где врач получает все нужные данные из одного исследования. Где нейросеть видит кости там, где их физически не видно, и делает это настолько хорошо, что этому можно доверять.

Авторы оригинальной статьи : Javier Sequeiro González, Arthur Longuefosse, Miguel Díaz Benito, Álvaro García Martín, Fabien Baldacci
GPT-5
Claude Sonnet 4
Gemini 2.5 Pro
Предыдущая статья Когда математика рисует на эллипсе: как приручить безграничные Следующая статья Почему рынок труда не подчиняется учебникам: иллюзии, которые мы приняли за законы

Хотите сами поэкспериментировать
с нейросетями?

В GetAtom собраны лучшие AI-инструменты: генерация текстов, создание изображений, озвучка и даже видео. Всё для вашего творческого поиска.

Начать эксперимент

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Как научить нейросеть играть на гитаре: от чистого звука до дисторшна за 5 секунд

Инженерный взгляд на технологию плавного перехода между гитарными эффектами через нейросети – от математики сферической интерполяции до практического применения в -40°C.

Электротехника и системные науки

Как заставить литиевую батарею рассказать правду о себе: новый метод изучения аккумуляторов на ходу

Сибирские инженеры разработали способ изучать внутреннее устройство литиевых аккумуляторов прямо во время их работы, не разбирая и не останавливая.

Электротехника и системные науки

Как мы учим компьютеры различать настоящие голоса от подделок: проблема многоязычных дипфейков

Исследование показывает, как объединение аудиозаписей на 9 языках помогает системам искусственного интеллекта лучше распознавать поддельные голоса.

Электротехника и системные науки

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ в нашем Telegram-канале!

Подписаться