Опубликовано 23 августа 2025

Как ИИ предсказывает рак при неполных данных: система impuTMAE

Как научить ИИ предсказывать рак при -40°C: История одного трансформера, который не боится пропусков в данных

Разбираем impuTMAE – систему машинного обучения, которая учится предсказывать выживаемость онкобольных даже при неполных медицинских данных.

Электротехника и системные науки
Автор публикации: Доктор Алексей Петров Время чтения: 4 – 6 минут

В медицине, как и в сибирской энергетике, половина оборудования работает не так, как задумано, а вторая половина – вообще не работает. Но жизни людей зависят от того, сможем ли мы получить точный прогноз даже в таких условиях. Сегодня расскажу про систему impuTMAE – искусственный интеллект, который научился предсказывать выживаемость онкологических пациентов, даже когда половина медицинских данных отсутствует.

Суровая реальность медицинских данных

Представьте: у вас есть пациент с опухолью мозга. Для точного прогноза нужны генетические анализы, снимки МРТ, гистологические препараты, клинические показатели. Но анализы ДНК задержались на неделю, МРТ сломался в выходные, а часть образцов потерялась при транспортировке. Звучит знакомо? В реальной медицине такие ситуации – норма, а не исключение.

Традиционные системы машинного обучения в таких случаях либо отказываются работать совсем, либо выдают результат с точностью «50 на 50». Это как пытаться запустить газотурбинную установку в мороз на летнем топливе – теоретически должно работать, практически не работает никогда.

Что такое impuTMAE и почему он особенный

impuTMAE (да, название звучит как заклинание, но это сокращение от «imputation Transformer with Masked AutoEncoder») – это система, которая умеет работать с пятью типами медицинских данных одновременно:

  • Генетические данные: информация о ДНК (25 тысяч параметров) и активности генов (16 тысяч показателей)
  • Медицинские изображения: снимки МРТ и микроскопические препараты тканей
  • Клинические показатели: возраст пациента, проводимое лечение и другие факторы

Фишка в том, что система продолжает работать, даже если доступны только 2-3 типа данных из пяти. Это как двигатель, который не глохнет при отказе половины цилиндров.

Технология impuTMAE: как это работает

Технология под капотом: как это работает

Основа системы – трансформер. Та же архитектура, что используется в ChatGPT, но адаптированная для медицинских задач. Процесс обучения проходит в два этапа:

Этап первый: обучение на «испорченных» данных

Система специально берет полные наборы медицинских данных и искусственно скрывает от себя случайные фрагменты – примерно половину информации. Затем пытается восстановить недостающие части, опираясь на доступные данные.

Это как обучение электрика работать в темноте: сначала тренируется при нормальном освещении, потом постепенно выключаем свет, пока не научится определять неисправности на ощупь.

Этап второй: специализация на прогнозах

После того, как система научилась «догадываться» о недостающих данных, её дообучают на конкретной задаче – предсказании выживаемости пациентов с глиомами (агрессивными опухолями мозга).

Здесь есть важная деталь: разные типы данных обрабатываются по-разному. Генетическая информация «нарезается» на фрагменты по 512-1024 значений, МРТ-снимки делятся на трёхмерные кубики, а микроскопические препараты – на квадраты размером 256×256 пикселей.

Испытания impuTMAE в боевых условиях

Испытания в боевых условиях

Систему тестировали на данных более чем тысячи пациентов из двух крупных международных исследований. Результаты впечатляют: даже при отсутствии части данных точность прогнозов остается на уровне лучших мировых аналогов.

Особенно интересно, что система подтвердила важность генетических данных о РНК – они оказались ключевыми для точного прогноза. Это как обнаружить, что самый важный датчик в энергосистеме – не тот, который все считают главным, а неприметный измеритель где-то в углу щитовой.

Архитектурные решения impuTMAE: инженерный взгляд

Архитектурные решения: инженерный взгляд

С технической точки зрения impuTMAE использует модульную архитектуру. Каждый тип данных обрабатывается своим специализированным энкодером:

Для генетических данных используются классические трансформеры с 6 слоями. Для медицинских изображений – гибридные архитектуры, которые сначала выделяют признаки сверточными сетями, а потом анализируют их трансформерами.

Центральная часть системы – мультимодальный декодер, который умеет «переводить» между разными типами данных и восстанавливать недостающую информацию.

Это напоминает современную диспетчерскую энергосистемы: каждый тип оборудования имеет специализированные контроллеры, но все они подключены к центральной системе управления, которая принимает решения на основе общей картины.

Практические результаты impuTMAE

Практические результаты

Система показывает точность прогноза 0,82-0,85 по метрике C-index (где 1,0 – идеальный прогноз, а 0,5 – случайное угадывание). Это значительно лучше предыдущих решений, особенно в условиях неполных данных.

Важнее всего то, что система стабильно работает при любых комбинациях доступных данных. Есть только генетика и клинические показатели? Работает. Только изображения и анализы крови? Тоже работает. Это именно то, что нужно в реальной клинической практике.

Ограничения и перспективы impuTMAE

Ограничения и перспективы

Как и любая технология, impuTMAE имеет свои границы. Систему обучали конкретно на глиомах – для других типов рака потребуется дополнительная настройка. Это как промышленный контроллер: отлично работает на том оборудовании, для которого настроен, но требует адаптации для новых задач.

Кроме того, система требует значительных вычислительных ресурсов для обучения, хотя для работы с пациентами достаточно обычного сервера.

Что impuTMAE значит для будущего медицины

Что это значит для будущего медицины

impuTMAE – это не просто очередной алгоритм, а демонстрация принципиально нового подхода. Вместо того чтобы требовать идеальных условий, система адаптируется к реальности.

В ближайшие годы подобные технологии могут стать основой для персонализированных систем поддержки принятия медицинских решений. Врач сможет получить прогноз выживаемости пациента даже при неполном обследовании, а система сама подскажет, какие дополнительные анализы принесут максимальную пользу.

Заключение

В инженерном деле есть простое правило: хорошая система – та, которая работает в реальных условиях, а не только на бумаге. impuTMAE именно такая система. Она не требует идеальных данных, не паникует при сбоях и продолжает выдавать полезные результаты даже в сложных ситуациях.

Возможно, через несколько лет подобные системы станут такими же обычными в больницах, как сейчас – томографы. И тогда врачи смогут принимать более точные решения, а пациенты – получать более эффективное лечение.

Ведь технологии, которые не работают в суровых условиях реального мира, действительно остаются просто игрушками.

Оригинальное название: impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction
Дата публикации статьи: 8 авг 2025
Авторы оригинальной статьи : Maria Boyko, Aleksandra Beliaeva, Dmitriy Kornilov, Alexander Bernstein, Maxim Sharaev
Предыдущая статья Как алгоритмы ловят мошенников на рынке электричества, или Почему роботы лучше людей видят сговоры Следующая статья Скрытая простота ядерных плотностей: как математика раскрывает тайны атомных ядер

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Международная вовлечённость

70%

Склонность к полемике

88%

Теоретическая глубина

81%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
GPT-5 OpenAI Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

GPT-5 OpenAI
2.
Claude Sonnet 4 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4 Anthropic
3.
Phoenix 1.0 Leonardo AI Создание иллюстрации Генерация изображения по подготовленному промпту

3. Создание иллюстрации

Генерация изображения по подготовленному промпту

Phoenix 1.0 Leonardo AI

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Сибирские инженеры научили ИИ создавать детальные снимки глубоких структур мозга из обычных МРТ-изображений, которые есть в любой клинике.

Доктор Алексей Петров 21 июл 2025

Лаборатория

Как заставить нейросети работать как сибирские системы управления

Электротехника и системные науки

Новый подход к селекции данных в нейросетях на основе проверенных временем методов теории управления – стабильно и без капризов.

Доктор Алексей Петров 27 июн 2025

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться