Опубликовано 16 марта 2026

ИИ читает науку: революция в работе с биомедицинскими данными

Когда ИИ читает науку быстрее учёных: революция в работе с биомедицинскими данными

Как система ИИ-агентов научилась самостоятельно искать, скачивать и анализировать научные данные – и почему это меняет правила игры в биомедицине.

Биология и нейробиология 10 – 15 минут чтения

Автор публикации: Доктор Хуан Мендоса 10 – 15 минут чтения

«Работая над этим текстом, я поймал себя на мысли, которая не отпускала весь день: мы так долго жаловались на «кризис воспроизводимости» в науке – и вот появляется инструмент, который может проверять опубликованные результаты автоматически, в промышленных масштабах. Это одновременно вдохновляет и немного пугает – ведь никто не знает, сколько «классических» результатов не переживут такой проверки. Но именно это и делает науку живой: она не боится задавать неудобные вопросы даже самой себе.» – Доктор Хуан Мендоса

Представьте себе гигантскую библиотеку. Не обычную, а такую, где книги написаны на десятках специализированных языков, часть страниц вырвана и спрятана в соседних зданиях, а ключи от некоторых шкафов находятся у людей, которые давно уехали. Вот примерно так выглядит для исследователя биомедицинская научная литература, когда он хочет воспользоваться чужими данными для нового открытия.

Каждый год публикуются десятки тысяч статей, посвящённых так называемым омикс-исследованиям – это широкое семейство подходов, позволяющих одновременно изучать тысячи молекул в живом организме. Геномика читает ДНК, транскриптомика – РНК, протеомика – белки, метаболомика – продукты обмена веществ. Каждая такая статья – это кладезь информации. Но воспользоваться этой информацией повторно? Почти невозможно без колоссальных затрат времени и сил.

Почему научные данные есть, но использовать их трудно?

Почему данные есть, но использовать их нельзя?

Казалось бы, в эпоху открытой науки всё должно быть доступно. И формально – да. Авторы депонируют свои данные в публичные репозитории. Существуют целые базы данных, куда складываются результаты протеомных, геномных и других исследований. Но вот в чём загвоздка: чтобы воспользоваться чужими данными для нового анализа, нужно сначала их найти. А потом понять, как именно они собирались. А потом скачать в нужном формате. А потом обработать правильным инструментом. А потом убедиться, что твой результат сопоставим с тем, что получили авторы оригинального исследования.

На каждом из этих шагов исследователь сталкивается с препятствиями. Идентификатор набора данных может быть упомянут вскользь в примечании на странице двенадцать. Метод обработки может быть описан в дополнительных материалах, которые приложены отдельным PDF-файлом. Код анализа может лежать на GitHub, а ссылка на него – в тексте статьи, написанном три года назад.

Это не чья-то злая воля. Это просто исторически сложившаяся экосистема, где каждый элемент создавался независимо и для разных целей. Журнальная статья – для людей. Репозиторий данных – для машин. Дополнительные материалы – для особо упорных. В итоге информация есть, но она разрознена, как пазл, разбросанный по трём разным коробкам.

Использование ИИ-агентов для обработки данных

Введите агентов 🤖

Именно эту проблему попыталась решить команда исследователей, разработавшая систему так называемых ИИ-агентов для работы с омикс-данными. Публикация с описанием этой системы появилась в 2024–2025 годах и предлагает, пожалуй, один из наиболее конкретных и работающих ответов на вопрос: а что, если поручить всю эту рутинную работу искусственному интеллекту?

Не просто языковой модели, которая отвечает на вопросы, а настоящей команде специализированных программных агентов, каждый из которых умеет делать что-то конкретное – искать статьи, извлекать из них нужную информацию, скачивать данные, запускать анализ и сравнивать результаты.

Если продолжить библиотечную метафору: это не просто умный читатель, который быстро листает книги. Это целая бригада – библиограф, архивариус, лаборант и аналитик, – которые работают согласованно, получив от вас одно простое задание на человеческом языке.

Как устроена система ИИ-агентов в биомедицине

Как это устроено: команда специалистов внутри компьютера

В основе системы – так называемый агент-планировщик. Он получает задачу, сформулированную обычным языком, например: «Найди исследования по протеомике фиброза печени, скачай данные и проверь, какие белки ведут себя аномально.» Дальше планировщик берёт эту задачу и разбивает её на конкретные шаги, выбирая подходящий инструмент для каждого из них.

В роли планировщика в описанной системе выступает языковая модель GPT-4 от компании OpenAI – на момент разработки одна из наиболее мощных доступных моделей с развитыми способностями к рассуждению и пониманию сложных инструкций. Но планировщик – лишь «мозг». Реальную работу выполняют специализированные инструменты, к которым он имеет доступ.

Инструмент первый: поиск и чтение статей

Агент умеет обращаться к базам данных PubMed и PubMed Central – крупнейшим в мире хранилищам биомедицинской литературы – и скачивать полные тексты статей. Не просто аннотации, а полные тексты в машиночитаемом формате. Это позволяет ему анализировать содержимое статьи на уровне отдельных абзацев и таблиц.

Инструмент второй: извлечение метаданных

Получив текст статьи, агент запускает специализированный экстрактор метаданных. Этот модуль умеет «читать» научный текст и выделять из него структурированную информацию: какой тип омикс-анализа использовался, на каком биологическом материале, в каких экспериментальных условиях, и – самое важное – где хранятся данные.

Именно на этом этапе система ищет идентификаторы наборов данных. В мире протеомики, например, существует международный репозиторий ProteomeXchange, где каждый депонированный набор данных получает уникальный код вида PXD000000. Агент умеет находить такие коды в тексте статьи – даже если они спрятаны в дополнительных материалах или упомянуты вскользь в разделе «Доступность данных».

Точность этого поиска в описанных экспериментах составила 80%. Это значит, что в восьми случаях из десяти агент правильно находил и извлекал идентификатор набора данных. Звучит, может, и не как стопроцентный результат, но учтите контекст: речь идёт об автоматической обработке неструктурированного научного текста, написанного сотнями разных авторов в самых разных форматах.

Инструмент третий: скачивание данных

Имея идентификатор набора данных, агент подключается к соответствующему репозиторию и скачивает нужные файлы. В случае протеомики это могут быть «сырые» данные масс-спектрометрии – огромные файлы, содержащие информацию о тысячах молекулярных фрагментов, которые были обнаружены прибором в биологическом образце.

Инструмент четвёртый: анализ данных в контейнере

Здесь начинается особенно интересная часть. Скачать данные – это полдела. Данные масс-спектрометрии нельзя просто «открыть и посмотреть». Их нужно обработать специализированным программным обеспечением – например, широко используемым в протеомике пакетом MaxQuant. Это сложный многошаговый процесс, результатом которого является таблица с количественной оценкой содержания белков в каждом образце.

Чтобы обеспечить воспроизводимость этого процесса, авторы системы использовали концепцию контейнеризации. Представьте, что каждый аналитический инструмент упакован в герметичную коробку вместе со всем необходимым – нужной версией операционной системы, всеми зависимостями и настройками. Вы открываете эту коробку, кладёте туда данные, закрываете – и получаете результат. Где бы и когда бы вы ни запустили этот процесс, результат будет одинаковым. Это принципиально важно для науки, где воспроизводимость является одним из краеугольных камней.

Доступ агента к этим «коробкам» осуществляется через специальный протокол – MCP (Model Context Protocol, или «протокол контекста модели»). По сути, это стандартизированный способ, с помощью которого языковая модель может вызывать внешние инструменты и получать от них результаты. Агент «говорит» серверу: «Запусти вот этот пайплайн с вот этими данными» – и получает обратно результаты анализа.

Эксперимент: ИИ в исследованиях фиброза печени

Эксперимент с фиброзом печени: что получилось на практике

Чтобы проверить систему в деле, исследователи поставили перед агентами конкретную задачу: найти статьи о протеомике фиброза печени, скачать данные, заново обработать их стандартизированным методом и сравнить результаты с тем, что сообщалось в оригинальных публикациях.

Фиброз печени – это состояние, при котором нормальная ткань органа замещается рубцовой, соединительной тканью. Это происходит в ответ на длительное повреждение – например, при хроническом вирусном гепатите или злоупотреблении алкоголем. Понимание того, какие белки ведут себя аномально при этом процессе, важно для разработки диагностических маркеров и новых методов лечения.

Агенты прошли весь путь: нашли статьи в PubMed Central, извлекли идентификаторы наборов данных, скачали сырые данные масс-спектрометрии и заново обработали их с помощью контейнеризированного пайплайна MaxQuant-Perseus. Затем провели анализ дифференциальной экспрессии – то есть выяснили, какие белки статистически значимо изменяют своё содержание в больной ткани по сравнению со здоровой.

Итог: 63% совпадение с результатами, которые были опубликованы авторами оригинальных исследований. Иными словами, почти две трети белков, которых оригинальные авторы назвали «изменёнными», система нашла самостоятельно, работая в автоматическом режиме.

Почему не сто процентов? Здесь важно понимать несколько вещей. Во-первых, научный анализ протеомных данных – это не одна правильная дорога, а целая сеть перекрёстков, на каждом из которых можно свернуть по-разному. Незначительные различия в параметрах обработки – какой алгоритм поиска использовать, как фильтровать данные, какой статистический порог считать значимым – могут существенно изменить итоговый список белков. Во-вторых, описания методов в научных статьях нередко неполные. Авторы часто не указывают все детали своего анализа, полагая, что коллеги и так поймут. В таких условиях 63% – это не слабый результат, а скорее честная оценка того, насколько хорошо система справляется с реальностью несовершенных данных.

Сравнение научных исследований: метаанализ данных

Сравнение исследований: когда один плюс один больше двух

Второй сценарий, который продемонстрировали авторы, ещё интереснее с научной точки зрения. Агентам была поставлена задача не просто воспроизвести один эксперимент, а найти несколько похожих исследований, оценить их совместимость и провести объединённый анализ.

Это то, что учёные называют метаанализом – систематическим объединением данных из нескольких независимых исследований для получения более надёжных и обобщённых выводов. Традиционно метаанализ требует месяцев работы: нужно вручную найти все подходящие статьи, прочитать их, извлечь данные, стандартизировать форматы и только потом начинать анализ.

В описанной системе агент использует специальный инструмент семантической схожести. Принцип его работы напоминает то, как рекомендательные алгоритмы в стриминговых сервисах находят похожие фильмы: вместо того чтобы сравнивать тексты по ключевым словам, система преобразует описания статей в числовые векторы – математические «отпечатки» смысла – и сравнивает их между собой. Статьи, у которых похожие «отпечатки», вероятно, изучают похожие явления.

Найдя группу семантически близких исследований, агент запускает инструмент проверки совместимости данных: можно ли вообще объединить эти наборы данных? Это важный вопрос. Если одна группа учёных работала с тканью мыши, а другая – с биоптатами человека, прямое объединение данных может дать бессмысленный результат.

В случае с фиброзом печени система успешно нашла несколько исследований, использовавших одинаковую экспериментальную модель – так называемую CCL4-индуцированную модель фиброза у мышей. Эта модель воспроизводится в разных лабораториях мира как стандартная, что делает данные из таких исследований сравнимыми.

Объединённый анализ выявил группу белков и молекулярных путей, которые стабильно изменяются при фиброзе печени независимо от конкретной лаборатории и конкретного года проведения эксперимента. Это белки, связанные с перестройкой внеклеточного матрикса – своеобразного «каркаса», на котором держатся клетки в ткани, – а также белки воспалительных реакций и жирового обмена. Всё это хорошо согласуется с тем, что известно о механизмах развития фиброза, и придаёт дополнительную уверенность в правильности найденных закономерностей.

Значение ИИ для науки: от статей к живому знанию

Почему это важно: от статических страниц к живому знанию

Вся эта история – не просто демонстрация того, что ИИ умеет читать статьи и нажимать кнопки вместо учёных. За ней стоит более глубокая идея, которая может изменить саму структуру того, как производится научное знание.

Сегодня опубликованная научная статья – это в каком-то смысле мёртвый артефакт. Она написана, отрецензирована, опубликована и лежит в базе данных. Исследователи цитируют её, читают, иногда воспроизводят её эксперименты. Но сама по себе она пассивна. Она не может ответить на новый вопрос. Она не может объединиться с другой статьёй, чтобы получить результат, который ни в одной из них не содержится.

Описанная система делает шаг к тому, чтобы изменить это. Статья перестаёт быть просто текстом и становится отправной точкой для автоматизированного исследования. Данные из неё можно достать, обработать заново и сравнить с данными из сотни других статей – причём без участия человека на каждом шаге.

Это особенно важно в контексте воспроизводимости науки. Начиная с 2010-х годов в научном сообществе активно обсуждается так называемый «кризис воспроизводимости»: оказывается, значительная часть опубликованных результатов не воспроизводится при повторных попытках. Причины разные – статистические ошибки, недостаточное описание методов, неосознанные предубеждения исследователей. Автоматизированная система, которая может заново обработать оригинальные данные по стандартизированному протоколу и сравнить результат с опубликованным, становится мощным инструментом проверки научных утверждений.

Ограничения применения ИИ-агентов

Честный разговор об ограничениях

Авторы системы не скрывают её слабых мест, и это само по себе признак зрелого подхода к науке.

Во-первых, вся система зависит от качества базовой языковой модели. GPT-4 – мощный инструмент, но он не является биологом. Он может неправильно интерпретировать специфическую терминологию, путать похожие концепции или пропускать важные нюансы в описании методов.

Во-вторых, 80% точности при идентификации наборов данных означают, что в 20% случаев система либо не находит данные, либо находит не те. Это приемлемо для масштабных автоматических обзоров, но требует осторожности при работе с конкретными исследованиями.

В-третьих, система пока ориентирована преимущественно на крупные публичные репозитории – PRIDE, GEO, ProteomeXchange. Данные из менее известных или более специализированных хранилищ она может попросту не найти.

В-четвёртых, чем абстрактнее и сложнее запрос – тем труднее агентам с ним справиться. «Найди все белки, связанные с фиброзом печени» – задача вполне конкретная. «Выяви молекулярные механизмы, объясняющие почему некоторые пациенты устойчивы к фиброзу» – это уже другой уровень сложности, требующий настоящего биологического рассуждения, а не только извлечения информации.

Перспективы развития ИИ в биомедицине: куда двигаться дальше?

Куда дальше?

Авторы видят несколько ключевых направлений для развития системы.

Первое – возможность сохранять успешные «маршруты» анализа. Если агент однажды решил задачу оптимальным способом, почему бы не записать этот маршрут и не поделиться им с другими исследователями? Это как сохранить пошаговый рецепт вместо того, чтобы каждый раз изобретать его заново.

Второе – активное участие человека в процессе. Не просто «задай вопрос и получи ответ», а возможность вмешаться на любом шаге, скорректировать решение агента, добавить контекст, которого у него нет. Наука – это всё-таки диалог, а не монолог машины.

Третье – расширение на другие типы данных. Омиксы – лишь одна, пусть и обширная, область биомедицины. Клинические данные, медицинские изображения, результаты скрининга новых соединений – всё это тоже заслуживает подобного подхода.

Четвёртое – интеграция с биомедицинскими графами знаний. Представьте, что агент не просто читает статьи, но и понимает, что белок А взаимодействует с белком Б, который, в свою очередь, регулирует ген В. Такая «база знаний о связях» позволила бы строить гипотезы, которые не содержатся ни в одной отдельной статье, а возникают именно из объединения множества источников.

Природа за миллиарды лет эволюции научилась накапливать информацию в ДНК и передавать её из поколения в поколение – это по-своему гениальная система хранения и воспроизведения знания. Наука устроена похоже: каждое исследование записывает новый фрагмент понимания, который потом должны прочитать следующие поколения учёных. Но если природе на «чтение» и «использование» своих записей нужны миллионы лет, у нас есть шанс сделать это значительно быстрее – если, конечно, мы научимся строить правильных читателей.

Работа с омикс-агентами – один из первых убедительных шагов в этом направлении. Не финальный ответ, но хорошо поставленный вопрос. А в науке, как известно, правильно поставленный вопрос уже наполовину является ответом.

#исследовательский обзор #системный анализ #нейросети #развитие ии #биология #данные #ии в медицине #многоагентные системы

Источник: https://arxiv.org/abs/2603.10161v1

Оригинальное название: Omics Data Discovery Agents

Дата публикации статьи: 10 мар 2026

Авторы оригинальной статьи : Alexandre Hutton, Jesse G. Meyer

Доктор Хуан Мендоса Открыть профиль

«Природа – самый гениальный хакер. Нам остаётся лишь подглядывать за её решениями.»

Открыть профиль

Я генетик, который верит, что старение – это не приговор, а вызов. Исследую тропическую флору и мечтаю создать «запасной план» для ДНК. Наука – это не только лаборатории, это путешествие по самым глубоким кодам жизни.

Предыдущая статья Как понять, что нейросеть «сломается», ещё до того, как она успела это сделать Следующая статья Как математики учат плазму «помнить себя»: геометрия, матрицы и магнитные вихри

ИИ читает науку: революция в работе с биомедицинскими данными

Почему научные данные есть, но использовать их трудно?

Использование ИИ-агентов для обработки данных

Как устроена система ИИ-агентов в биомедицине

Инструмент первый: поиск и чтение статей

Инструмент второй: извлечение метаданных

Инструмент третий: скачивание данных

Инструмент четвёртый: анализ данных в контейнере

Эксперимент: ИИ в исследованиях фиброза печени

Сравнение научных исследований: метаанализ данных

Значение ИИ для науки: от статей к живому знанию

Ограничения применения ИИ-агентов

Перспективы развития ИИ в биомедицине: куда двигаться дальше?

Связанные публикации

Канадские клиники внедрили ИИ-ассистента Oracle для автоматизации медицинской документации

Как ИИ помогает выявлять рак груди на маммограммах: результаты российского исследования

Голос на приёме: почему искусственный интеллект не может расслышать врача

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Редакторская проверка

4. Подготовка описания для иллюстрации

5. Создание иллюстрации