Опубликовано

Как научить ИИ предсказывать рак при -40°C: История одного трансформера, который не боится пропусков в данных

Разбираем impuTMAE – систему машинного обучения, которая учится предсказывать выживаемость онкобольных даже при неполных медицинских данных.

Электротехника и системные науки
Leonardo Phoenix 1.0
Автор: Доктор Алексей Петров Время чтения: 4 – 6 минут

Международная вовлечённость

70%

Склонность к полемике

88%

Теоретическая глубина

81%
Оригинальное название: impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction
Дата публикации статьи: 8 авг 2025

В медицине, как и в сибирской энергетике, половина оборудования работает не так, как задумано, а вторая половина – вообще не работает. Но жизни людей зависят от того, сможем ли мы получить точный прогноз даже в таких условиях. Сегодня расскажу про систему impuTMAE – искусственный интеллект, который научился предсказывать выживаемость онкологических пациентов, даже когда половина медицинских данных отсутствует.

Суровая реальность медицинских данных

Представьте: у вас есть пациент с опухолью мозга. Для точного прогноза нужны генетические анализы, снимки МРТ, гистологические препараты, клинические показатели. Но анализы ДНК задержались на неделю, МРТ сломался в выходные, а часть образцов потерялась при транспортировке. Звучит знакомо? В реальной медицине такие ситуации – норма, а не исключение.

Традиционные системы машинного обучения в таких случаях либо отказываются работать совсем, либо выдают результат с точностью «50 на 50». Это как пытаться запустить газотурбинную установку в мороз на летнем топливе – теоретически должно работать, практически не работает никогда.

Что такое impuTMAE и почему он особенный

impuTMAE (да, название звучит как заклинание, но это сокращение от «imputation Transformer with Masked AutoEncoder») – это система, которая умеет работать с пятью типами медицинских данных одновременно:

  • Генетические данные: информация о ДНК (25 тысяч параметров) и активности генов (16 тысяч показателей)
  • Медицинские изображения: снимки МРТ и микроскопические препараты тканей
  • Клинические показатели: возраст пациента, проводимое лечение и другие факторы

Фишка в том, что система продолжает работать, даже если доступны только 2-3 типа данных из пяти. Это как двигатель, который не глохнет при отказе половины цилиндров.

Технология под капотом: как это работает

Основа системы – трансформер. Та же архитектура, что используется в ChatGPT, но адаптированная для медицинских задач. Процесс обучения проходит в два этапа:

Этап первый: обучение на «испорченных» данных

Система специально берет полные наборы медицинских данных и искусственно скрывает от себя случайные фрагменты – примерно половину информации. Затем пытается восстановить недостающие части, опираясь на доступные данные.

Это как обучение электрика работать в темноте: сначала тренируется при нормальном освещении, потом постепенно выключаем свет, пока не научится определять неисправности на ощупь.

Этап второй: специализация на прогнозах

После того, как система научилась «догадываться» о недостающих данных, её дообучают на конкретной задаче – предсказании выживаемости пациентов с глиомами (агрессивными опухолями мозга).

Здесь есть важная деталь: разные типы данных обрабатываются по-разному. Генетическая информация «нарезается» на фрагменты по 512-1024 значений, МРТ-снимки делятся на трёхмерные кубики, а микроскопические препараты – на квадраты размером 256×256 пикселей.

Испытания в боевых условиях

Систему тестировали на данных более чем тысячи пациентов из двух крупных международных исследований. Результаты впечатляют: даже при отсутствии части данных точность прогнозов остается на уровне лучших мировых аналогов.

Особенно интересно, что система подтвердила важность генетических данных о РНК – они оказались ключевыми для точного прогноза. Это как обнаружить, что самый важный датчик в энергосистеме – не тот, который все считают главным, а неприметный измеритель где-то в углу щитовой.

Архитектурные решения: инженерный взгляд

С технической точки зрения impuTMAE использует модульную архитектуру. Каждый тип данных обрабатывается своим специализированным энкодером:

Для генетических данных используются классические трансформеры с 6 слоями. Для медицинских изображений – гибридные архитектуры, которые сначала выделяют признаки сверточными сетями, а потом анализируют их трансформерами.

Центральная часть системы – мультимодальный декодер, который умеет «переводить» между разными типами данных и восстанавливать недостающую информацию.

Это напоминает современную диспетчерскую энергосистемы: каждый тип оборудования имеет специализированные контроллеры, но все они подключены к центральной системе управления, которая принимает решения на основе общей картины.

Практические результаты

Система показывает точность прогноза 0,82-0,85 по метрике C-index (где 1,0 – идеальный прогноз, а 0,5 – случайное угадывание). Это значительно лучше предыдущих решений, особенно в условиях неполных данных.

Важнее всего то, что система стабильно работает при любых комбинациях доступных данных. Есть только генетика и клинические показатели? Работает. Только изображения и анализы крови? Тоже работает. Это именно то, что нужно в реальной клинической практике.

Ограничения и перспективы

Как и любая технология, impuTMAE имеет свои границы. Систему обучали конкретно на глиомах – для других типов рака потребуется дополнительная настройка. Это как промышленный контроллер: отлично работает на том оборудовании, для которого настроен, но требует адаптации для новых задач.

Кроме того, система требует значительных вычислительных ресурсов для обучения, хотя для работы с пациентами достаточно обычного сервера.

Что это значит для будущего медицины

impuTMAE – это не просто очередной алгоритм, а демонстрация принципиально нового подхода. Вместо того чтобы требовать идеальных условий, система адаптируется к реальности.

В ближайшие годы подобные технологии могут стать основой для персонализированных систем поддержки принятия медицинских решений. Врач сможет получить прогноз выживаемости пациента даже при неполном обследовании, а система сама подскажет, какие дополнительные анализы принесут максимальную пользу.

Заключение

В инженерном деле есть простое правило: хорошая система – та, которая работает в реальных условиях, а не только на бумаге. impuTMAE именно такая система. Она не требует идеальных данных, не паникует при сбоях и продолжает выдавать полезные результаты даже в сложных ситуациях.

Возможно, через несколько лет подобные системы станут такими же обычными в больницах, как сейчас – томографы. И тогда врачи смогут принимать более точные решения, а пациенты – получать более эффективное лечение.

Ведь технологии, которые не работают в суровых условиях реального мира, действительно остаются просто игрушками.

Авторы оригинальной статьи : Maria Boyko, Aleksandra Beliaeva, Dmitriy Kornilov, Alexander Bernstein, Maxim Sharaev
GPT-5
Claude Sonnet 4
Предыдущая статья Как алгоритмы ловят мошенников на рынке электричества, или Почему роботы лучше людей видят сговоры Следующая статья Скрытая простота ядерных плотностей: как математика раскрывает тайны атомных ядер

Хотите сами поэкспериментировать
с нейросетями?

В GetAtom собраны лучшие AI-инструменты: генерация текстов, создание изображений, озвучка и даже видео. Всё для вашего творческого поиска.

Начать эксперимент

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Как научить нейросеть играть на гитаре: от чистого звука до дисторшна за 5 секунд

Инженерный взгляд на технологию плавного перехода между гитарными эффектами через нейросети – от математики сферической интерполяции до практического применения в -40°C.

Электротехника и системные науки

Как научить компьютер переводить МРТ в КТ: нейросети, которые видят кости там, где их не должно быть

Новая нейросетевая архитектура превращает МРТ и конусно-лучевую томографию в качественные КТ-снимки – так, чтобы врачи могли точнее планировать лучевую терапию.

Электротехника и системные науки

Как заставить литиевую батарею рассказать правду о себе: новый метод изучения аккумуляторов на ходу

Сибирские инженеры разработали способ изучать внутреннее устройство литиевых аккумуляторов прямо во время их работы, не разбирая и не останавливая.

Электротехника и системные науки

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться