Опубликовано 23 августа 2025

Как ИИ предсказывает рак при неполных данных: система impuTMAE

Как научить ИИ предсказывать рак при -40°C: История одного трансформера, который не боится пропусков в данных

Разбираем impuTMAE – систему машинного обучения, которая учится предсказывать выживаемость онкобольных даже при неполных медицинских данных.

Электротехника и системные науки 4 – 6 минут чтения

Автор публикации: Доктор Алексей Петров 4 – 6 минут чтения

В медицине, как и в сибирской энергетике, половина оборудования работает не так, как задумано, а вторая половина – вообще не работает. Но жизни людей зависят от того, сможем ли мы получить точный прогноз даже в таких условиях. Сегодня расскажу про систему impuTMAE – искусственный интеллект, который научился предсказывать выживаемость онкологических пациентов, даже когда половина медицинских данных отсутствует.

Суровая реальность медицинских данных

Представьте: у вас есть пациент с опухолью мозга. Для точного прогноза нужны генетические анализы, снимки МРТ, гистологические препараты, клинические показатели. Но анализы ДНК задержались на неделю, МРТ сломался в выходные, а часть образцов потерялась при транспортировке. Звучит знакомо? В реальной медицине такие ситуации – норма, а не исключение.

Традиционные системы машинного обучения в таких случаях либо отказываются работать совсем, либо выдают результат с точностью «50 на 50». Это как пытаться запустить газотурбинную установку в мороз на летнем топливе – теоретически должно работать, практически не работает никогда.

Что такое impuTMAE и почему он особенный

impuTMAE (да, название звучит как заклинание, но это сокращение от «imputation Transformer with Masked AutoEncoder») – это система, которая умеет работать с пятью типами медицинских данных одновременно:

Генетические данные: информация о ДНК (25 тысяч параметров) и активности генов (16 тысяч показателей)
Медицинские изображения: снимки МРТ и микроскопические препараты тканей
Клинические показатели: возраст пациента, проводимое лечение и другие факторы

Фишка в том, что система продолжает работать, даже если доступны только 2-3 типа данных из пяти. Это как двигатель, который не глохнет при отказе половины цилиндров.

Технология impuTMAE: как это работает

Технология под капотом: как это работает

Основа системы – трансформер. Та же архитектура, что используется в ChatGPT, но адаптированная для медицинских задач. Процесс обучения проходит в два этапа:

Этап первый: обучение на «испорченных» данных

Система специально берет полные наборы медицинских данных и искусственно скрывает от себя случайные фрагменты – примерно половину информации. Затем пытается восстановить недостающие части, опираясь на доступные данные.

Это как обучение электрика работать в темноте: сначала тренируется при нормальном освещении, потом постепенно выключаем свет, пока не научится определять неисправности на ощупь.

Этап второй: специализация на прогнозах

После того, как система научилась «догадываться» о недостающих данных, её дообучают на конкретной задаче – предсказании выживаемости пациентов с глиомами (агрессивными опухолями мозга).

Здесь есть важная деталь: разные типы данных обрабатываются по-разному. Генетическая информация «нарезается» на фрагменты по 512-1024 значений, МРТ-снимки делятся на трёхмерные кубики, а микроскопические препараты – на квадраты размером 256×256 пикселей.

Испытания impuTMAE в боевых условиях

Испытания в боевых условиях

Систему тестировали на данных более чем тысячи пациентов из двух крупных международных исследований. Результаты впечатляют: даже при отсутствии части данных точность прогнозов остается на уровне лучших мировых аналогов.

Особенно интересно, что система подтвердила важность генетических данных о РНК – они оказались ключевыми для точного прогноза. Это как обнаружить, что самый важный датчик в энергосистеме – не тот, который все считают главным, а неприметный измеритель где-то в углу щитовой.

Архитектурные решения impuTMAE: инженерный взгляд

Архитектурные решения: инженерный взгляд

С технической точки зрения impuTMAE использует модульную архитектуру. Каждый тип данных обрабатывается своим специализированным энкодером:

Для генетических данных используются классические трансформеры с 6 слоями. Для медицинских изображений – гибридные архитектуры, которые сначала выделяют признаки сверточными сетями, а потом анализируют их трансформерами.

Центральная часть системы – мультимодальный декодер, который умеет «переводить» между разными типами данных и восстанавливать недостающую информацию.

Это напоминает современную диспетчерскую энергосистемы: каждый тип оборудования имеет специализированные контроллеры, но все они подключены к центральной системе управления, которая принимает решения на основе общей картины.

Практические результаты impuTMAE

Практические результаты

Система показывает точность прогноза 0,82-0,85 по метрике C-index (где 1,0 – идеальный прогноз, а 0,5 – случайное угадывание). Это значительно лучше предыдущих решений, особенно в условиях неполных данных.

Важнее всего то, что система стабильно работает при любых комбинациях доступных данных. Есть только генетика и клинические показатели? Работает. Только изображения и анализы крови? Тоже работает. Это именно то, что нужно в реальной клинической практике.

Ограничения и перспективы impuTMAE

Ограничения и перспективы

Как и любая технология, impuTMAE имеет свои границы. Систему обучали конкретно на глиомах – для других типов рака потребуется дополнительная настройка. Это как промышленный контроллер: отлично работает на том оборудовании, для которого настроен, но требует адаптации для новых задач.

Кроме того, система требует значительных вычислительных ресурсов для обучения, хотя для работы с пациентами достаточно обычного сервера.

Что impuTMAE значит для будущего медицины

Что это значит для будущего медицины

impuTMAE – это не просто очередной алгоритм, а демонстрация принципиально нового подхода. Вместо того чтобы требовать идеальных условий, система адаптируется к реальности.

В ближайшие годы подобные технологии могут стать основой для персонализированных систем поддержки принятия медицинских решений. Врач сможет получить прогноз выживаемости пациента даже при неполном обследовании, а система сама подскажет, какие дополнительные анализы принесут максимальную пользу.

Заключение

В инженерном деле есть простое правило: хорошая система – та, которая работает в реальных условиях, а не только на бумаге. impuTMAE именно такая система. Она не требует идеальных данных, не паникует при сбоях и продолжает выдавать полезные результаты даже в сложных ситуациях.

Возможно, через несколько лет подобные системы станут такими же обычными в больницах, как сейчас – томографы. И тогда врачи смогут принимать более точные решения, а пациенты – получать более эффективное лечение.

Ведь технологии, которые не работают в суровых условиях реального мира, действительно остаются просто игрушками.

#прикладной разбор #технический контекст #нейросети #машинное обучение #развитие ии #инженерия #биология #ии в медицине #мультимодальные модели

Источник: https://arxiv.org/abs/2508.09195v1

Оригинальное название: impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction

Дата публикации статьи: 8 авг 2025

Авторы оригинальной статьи : Maria Boyko, Aleksandra Beliaeva, Dmitriy Kornilov, Alexander Bernstein, Maxim Sharaev

Доктор Алексей Петров Открыть профиль

«Технологии должны работать при -40°C. Иначе это просто игрушки.»

Открыть профиль

Я инженер, который не верит в технологии до тех пор, пока они не выдержат сибирскую зиму. Разрабатываю энергосети и сенсоры, способные работать там, где другие сдаются. Моя цель – чтобы наука перестала бояться реальности.

Предыдущая статья Как алгоритмы ловят мошенников на рынке электричества, или Почему роботы лучше людей видят сговоры Следующая статья Скрытая простота ядерных плотностей: как математика раскрывает тайны атомных ядер

Как ИИ предсказывает рак при неполных данных: система impuTMAE

Суровая реальность медицинских данных

Что такое impuTMAE и почему он особенный

Технология impuTMAE: как это работает

Этап первый: обучение на «испорченных» данных

Этап второй: специализация на прогнозах

Испытания impuTMAE в боевых условиях

Архитектурные решения impuTMAE: инженерный взгляд

Практические результаты impuTMAE

Ограничения и перспективы impuTMAE

Что impuTMAE значит для будущего медицины

Заключение

Связанные публикации

МРТ мозга: как заставить обычный снимок показать то, что видят только дорогие аппараты

Как один ИИ научился редактировать видео лучше целой команды специалистов

Как заставить нейросети работать как сибирские системы управления

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Создание иллюстрации