Опубликовано 8 января 2026

Как научить компьютер чувствовать эволюцию: филогенетические деревья

Как научить компьютер «чувствовать» эволюцию: путешествие по лесу филогенетических деревьев

Представьте, что эволюционные истории генов – это карты в библиотеке природы. Узнайте, как новый метод помогает читать эти карты точнее, чем когда-либо.

Биология и нейробиология 11 – 16 минут чтения

Автор публикации: Доктор Хуан Мендоса 11 – 16 минут чтения

Представьте себе библиотеку, где вместо книг на полках стоят деревья. Не обычные деревья из парка, а филогенетические – те самые диаграммы с ветвями, которые рассказывают историю эволюции жизни на Земле. Теперь вообразите, что вы должны понять закономерности в этой библиотеке: какие деревья встречаются чаще, где образуются «скопления» похожих историй, какие эволюционные пути природа выбирает снова и снова.

Звучит как задача из области фантастики? На самом деле это реальная проблема современной биоинформатики. И я хочу рассказать вам о том, как группа исследователей нашла изящное решение, позволяющее «читать» эту библиотеку эволюционных историй с беспрецедентной точностью.

Когда карта не похожа на карту: проблемы неевклидовых пространств

Когда карта не похожа на карту: проблема неевклидовых пространств

Начнём с самого начала. Когда учёные изучают эволюцию – скажем, пытаются понять, как развивались паразиты, вызывающие малярию, – они строят филогенетические деревья. Каждое такое дерево похоже на генеалогическое древо вашей семьи, только вместо бабушек и дедушек там общие предки видов, а ветви показывают, как эти виды расходились во времени.

Проблема в том, что для одного и того же набора организмов можно построить множество разных деревьев. Почему? Потому что разные гены рассказывают немного разные истории. Один ген может «помнить» одну версию эволюционного прошлого, другой – немного иную. Это не ошибка – это нормальное явление, связанное со случайными процессами в популяциях, горизонтальным переносом генов и другими молекулярными «приключениями».

Теперь представьте, что у вас есть тысяча таких деревьев для одной группы организмов. Как понять, какие эволюционные истории встречаются чаще? Где находятся «центры масс» этого облака возможностей? Это похоже на попытку найти закономерности в облаке точек, только вместо обычных точек в пространстве у нас деревья с ветвями.

И тут мы сталкиваемся с фундаментальной проблемой: пространство филогенетических деревьев не похоже на обычное пространство, к которому мы привыкли. В обычном пространстве – том, что математики называют евклидовым – расстояние между двумя точками измеряется просто: вспомните школьную теорему Пифагора. Но как измерить расстояние между двумя эволюционными историями? Между двумя деревьями с разными топологиями и длинами ветвей?

Природа – самый гениальный хакер. Нам остаётся лишь подглядывать за её решениями.

Тропическая геометрия: как математика учится у природы

Тропическая геометрия: когда математика учится у природы

Здесь на сцену выходит нечто красивое и элегантное – тропическая геометрия. Не пугайтесь названия: никаких пальм и пляжей тут нет. «Тропической» эту математику назвали в честь математика Имре Симона, работавшего в тропиках. Суть в том, что тропическая геометрия предлагает особый способ измерения расстояний, который идеально подходит для пространств деревьев.

Представьте, что каждое филогенетическое дерево – это не просто картинка, а многомерный объект, где каждая ветвь имеет свою длину, каждая точка ветвления – свою позицию. Тропическое симметричное расстояние учитывает все эти характеристики и даёт нам число, показывающее, насколько две эволюционные истории отличаются друг от друга. Это похоже на то, как GPS вычисляет расстояние между двумя точками на искривлённой поверхности Земли, только в гораздо более сложном пространстве.

Когда у нас есть способ измерять расстояния между деревьями, мы можем начать применять статистические методы. Один из самых мощных – это оценка плотности ядра (KDE). Думайте об оценке плотности ядра как о методе, который «размазывает» каждую точку данных в небольшое облачко вероятности, а потом складывает все эти облачка вместе, чтобы получить общую картину распределения.

Проблема настройки: искусство выбора правильного размаха

Проблема настройки: искусство выбора правильного «размаха»

Вот простая аналогия. Представьте, что вы фотографируете ночной город с длинной выдержкой. Если выдержка слишком короткая, вы получите резкую, но тёмную картинку с множеством деталей и шума. Если слишком длинная – светлую, но размытую, где все детали сольются в одно пятно. Вам нужно найти золотую середину.

В методе KDE есть аналогичный параметр, который называется шириной полосы сглаживания (иногда говорят просто «ширина полосы»). Он контролирует, насколько «размазанным» будет каждое облачко вероятности вокруг точки данных. Слишком узкая полоса – и вы получите слишком детализированную, шумную картину, где каждое дерево выглядит как отдельный всплеск. Слишком широкая – и всё сольётся в одно расплывчатое пятно, где не различить важные закономерности.

Для обычных евклидовых пространств математики давно разработали методы выбора оптимальной ширины полосы. Но для пространства филогенетических деревьев с их тропической геометрией задача оказалась на порядок сложнее. До недавнего времени исследователи использовали эвристические методы – грубо говоря, методы «на глазок». Например, смотрели на расстояния до ближайших соседей каждого дерева и на основе этого выбирали параметр. Но такой подход не гарантировал оптимального результата.

Перекрёстная проверка по правдоподобию: когда данные сами о себе говорят

Перекрёстная проверка по правдоподобию: когда данные сами рассказывают, что им нужно

Здесь и начинается самое интересное. Группа исследователей предложила использовать метод, который называется перекрёстной проверкой по правдоподобию – сокращённо LCV. Идея метода элегантна в своей простоте: пусть сами данные скажут нам, какая ширина полосы сглаживания работает лучше всего.

Как это работает? Представьте, что вы играете в игру: берёте одно дерево из вашего набора данных и прячете его. Потом используете все остальные деревья, чтобы построить модель плотности и предсказать, насколько вероятно встретить именно это спрятанное дерево. Повторяете эту процедуру для каждого дерева в наборе. Та ширина полосы, которая даёт наилучшие предсказания (то есть максимальную суммарную вероятность) для всех деревьев, и считается оптимальной.

Это похоже на то, как опытный повар определяет идеальное количество специй: не по рецепту, а пробуя блюдо и корректируя по вкусу. Только в нашем случае «вкус» – это математическая вероятность, а «проба» – статистическая процедура.

Исследователи не просто предложили этот метод – они вывели явное математическое решение для оптимального параметра. Это важно: вместо того чтобы методом проб и ошибок искать нужное значение, теперь можно его вычислить напрямую. Это как разница между блужданием в темноте с фонариком и наличием карты с указателем «вы здесь».

Проверка виртуальной эволюции: эксперименты на компьютерных моделях

Проверка в виртуальной эволюции: эксперименты на компьютерных моделях

Конечно, любая красивая теория должна пройти проверку практикой. Исследователи провели серию экспериментов с виртуальными данными, созданными с помощью модели коалесценции для нескольких видов (MSC). Эта модель – стандартный инструмент в филогенетике, который симулирует, как гены эволюционируют внутри популяций и как эти популяции разделяются во времени.

Думайте о MSC как о симуляторе эволюции. Вы задаёте начальные условия – сколько видов, какие размеры популяций, когда происходили разделения – и модель генерирует набор филогенетических деревьев, которые соответствуют этим условиям. Поскольку вы сами создали эти данные, вы знаете «правильный ответ» – истинное распределение деревьев. Это позволяет объективно оценить, насколько хорошо работает метод.

Исследователи сгенерировали множество таких виртуальных наборов данных с разными параметрами: от маленьких (10 деревьев) до больших (1000 деревьев), с простыми и сложными эволюционными историями. Для каждого набора они применили тропическую KDE двумя способами: с шириной полосы, выбранной через LCV, и с полосой, выбранной методом ближайших соседей.

Результаты оказались впечатляющими. Метод LCV стабильно давал более точные оценки распределения деревьев. Когда исследователи измеряли, насколько оценённое распределение отличается от истинного (используя метрику, называемую расстоянием Хеллингера), вариант с LCV показывал значительно меньшие отклонения. Это означает, что метод лучше «чувствует» структуру данных, точнее определяет, где в пространстве деревьев находятся плотные кластеры, а где разреженные области.

Но даже это не всё. Оказалось, что метод LCV работает ещё и быстрее! Казалось бы, он должен требовать больше вычислений, ведь нужно оптимизировать параметр. Но на практике, найдя оптимальную ширину полосы один раз, метод даёт такие точные результаты, что не требует повторных итераций и подгонки. В итоге общее время работы оказывается меньше, чем при использовании эвристических подходов, где часто приходится пробовать разные значения параметра, чтобы получить приемлемый результат.

Реальная биология: паразиты рассказывают свои истории

Виртуальные эксперименты – это хорошо, но настоящая проверка метода – это применение к реальным биологическим данным. Исследователи выбрали для этого геном Apicomplexa – группы паразитических простейших, включающей возбудителей малярии и токсоплазмоза. Эти микроскопические организмы имеют сложную и увлекательную эволюционную историю, полную неожиданных поворотов.

Почему Apicomplexa? Эти паразиты прошли через множество эволюционных адаптаций, приспосабливаясь к жизни внутри клеток разных хозяев – от москитов до человека. Их геномы несут следы этой бурной истории: горизонтальный перенос генов (когда ген «прыгает» от одного организма к другому, минуя обычное наследование), дупликации генов, потери целых участков ДНК. Всё это приводит к тому, что разные гены в геноме Apicomplexa могут рассказывать немного разные эволюционные истории.

Исследователи взяли данные о последовательностях множества генов из нескольких видов Apicomplexa и построили для каждого гена отдельное филогенетическое дерево. Получился набор из сотен деревьев – та самая «библиотека эволюционных историй», о которой я говорил в начале.

Затем они применили тропическую KDE с оптимальной шириной полосы сглаживания, найденной через LCV. Результат был похож на проявление фотографии: постепенно из шума данных начали выступать чёткие структуры. Метод выявил несколько плотных кластеров деревьев, каждый из которых соответствовал определённому типу эволюционной истории.

Один кластер объединял консервативные гены – те, что эволюционируют медленно и имеют стабильную, предсказуемую историю. Эти гены кодируют основные «домашние хозяйственные» функции клетки, без которых паразит не может существовать. Другой кластер содержал гены, связанные с паразитизмом – белки, которые помогают паразиту проникать в клетки хозяина, уклоняться от иммунной системы. Эти гены эволюционируют быстро, под давлением естественного отбора, и их деревья выглядели совсем иначе.

Были обнаружены и промежуточные кластеры, представляющие гены с более сложными историями. Возможно, некоторые из них участвовали в горизонтальном переносе или испытали недавние дупликации. Метод позволил не только увидеть эти паттерны, но и визуализировать их в пространстве деревьев, создавая своего рода «карту эволюционного ландшафта» Apicomplexa.

Что это значит для науки: новые инструменты для чтения кода жизни

Давайте сделаем шаг назад и посмотрим на более широкую картину. Почему всё это важно? Дело не только в технических деталях статистических методов или в конкретных паразитах.

Мы живём в эпоху геномной революции. Каждый день секвенируются геномы новых организмов, накапливаются терабайты данных о последовательностях ДНК. Эти данные содержат ответы на фундаментальные вопросы: как возникла жизнь, как эволюционируют организмы, как они адаптируются к изменениям среды, как можно использовать это знание для медицины, сельского хозяйства, сохранения биоразнообразия.

Но данные сами по себе не дают ответов. Нужны инструменты для их анализа – инструменты, которые могут работать с огромными объёмами информации и при этом не терять из виду тонкие закономерности. Тропическая KDE с оптимизацией через LCV – один из таких инструментов. Он позволяет исследователям видеть структуры в том, что раньше выглядело как хаотическое облако возможностей.

Представьте, что вы изучаете эволюцию вирусов гриппа, пытаясь предсказать, какие штаммы будут доминировать в следующем сезоне. Или исследуете, как растения адаптируются к изменению климата, анализируя тысячи генов из популяций, живущих в разных условиях. Или реконструируете историю миграций человечества по древним ДНК. Во всех этих случаях вам нужно работать с множеством филогенетических деревьев и находить в них закономерности.

Метод, о котором я рассказываю, даёт для этого математически обоснованный, точный и эффективный способ. Это не просто ещё один алгоритм в копилке биоинформатики – это фундаментальный шаг вперёд в нашей способности «читать» историю жизни, записанную в генах.

Заглядывая в будущее: куда ведёт эта дорога

Как и любое хорошее исследование, эта работа открывает больше вопросов, чем закрывает. Исследователи уже наметили несколько направлений для дальнейшего развития.

Во-первых, есть пространство для теоретического углубления. Математики хотят лучше понять асимптотические свойства метода LCV в пространствах деревьев – то есть как он ведёт себя, когда объём данных стремится к бесконечности. Это важно для того, чтобы давать строгие статистические гарантии и доверительные интервалы для оценок.

Во-вторых, метод можно расширить на другие неевклидовые пространства. Филогенетические деревья – не единственный тип данных со сложной геометрией. Похожие проблемы возникают при работе с графами (например, в анализе социальных сетей или метаболических путей), с многообразиями (в компьютерном зрении и анализе форм) и другими структурами. Принципы, разработанные для пространств деревьев, могут оказаться применимы гораздо шире.

В-третьих, есть практические вызовы масштабируемости. Современные геномные проекты генерируют десятки и сотни тысяч филогенетических деревьев. Как сделать вычисления тропического симметричного расстояния и оптимизацию LCV достаточно быстрыми, чтобы справляться с такими объёмами? Это требует разработки специализированных алгоритмов, возможно, с использованием параллельных вычислений на графических процессорах или других современных технологий.

Наконец, метод можно интегрировать с другими инструментами филогенетического анализа. Например, после того как оценка плотности выявила кластеры деревьев, можно применить методы машинного обучения для классификации новых деревьев в эти кластеры. Или использовать информацию о плотности для улучшения консенсусных методов, которые пытаются построить одно «среднее» дерево из многих.

Уроки от природы: почему это не только про науку

В заключение я хочу вернуться к более философскому взгляду на эту работу. В своей лаборатории в Мехико, окружённый влажными тропическими лесами, где каждое дерево – не метафора, а живой организм с миллионами лет эволюции за плечами, я часто думаю о том, чему природа учит нас.

Природа не работает по жёстким правилам и формулам. Она экспериментирует, пробует разные варианты, находит оптимальные решения методом проб и ошибок, растянутым на миллионы лет. Филогенетические деревья – это записи этих экспериментов. Каждое ветвление, каждая длина ветви несёт информацию о том, какие решения сработали, а какие привели в тупик.

Метод, разработанный исследователями, в некотором смысле делает то же самое, что делает эволюция: он ищет оптимальное решение (оптимальную ширину полосы), позволяя данным «говорить» и корректируя параметры на основе обратной связи. Это пример того, как мы можем учиться у природы не только биологическим решениям, но и самим принципам поиска решений.

В мире, где данных становится всё больше, а системы – всё сложнее, нам нужны методы, которые могут справляться с неопределённостью и сложностью. Методы, которые не пытаются втиснуть природу в прокрустово ложе простых моделей, а работают с ней на её собственном языке – языке геометрии, топологии, вероятности.

Тропическая KDE с оптимизацией через LCV – шаг в этом направлении. Это инструмент, который уважает сложность эволюционных данных и при этом даёт нам способ понять их. Это мост между абстрактной математикой и конкретной биологией, между теорией и практикой, между данными и знанием.

И в этом смысле работа над такими методами – это не просто техническое упражнение. Это часть более широкого путешествия человечества к пониманию кода жизни. Путешествия, которое только начинается и которое обещает открытия, о которых мы пока даже не подозреваем.

Природа – самый гениальный хакер, как я люблю говорить. И с каждым новым инструментом мы учимся подглядывать за её решениями немного лучше. Кто знает, какие тайны откроются нам дальше в этой библиотеке эволюционных историй?

До новых открытий, друзья! 🌿

#технический контекст #исследовательский обзор #машинное обучение #развитие ии #математика #биология #научный ии #математика машинного обучения

Источник: https://arxiv.org/abs/2512.23442v1

Оригинальное название: Bandwidth Selection of Density Estimators over Treespaces

Дата публикации статьи: 29 дек 2025

Авторы оригинальной статьи : Ruriko Yoshida, Zhiwen Wang

Доктор Хуан Мендоса Открыть профиль

«Природа – самый гениальный хакер. Нам остаётся лишь подглядывать за её решениями.»

Открыть профиль

Я генетик, который верит, что старение – это не приговор, а вызов. Исследую тропическую флору и мечтаю создать «запасной план» для ДНК. Наука – это не только лаборатории, это путешествие по самым глубоким кодам жизни.

Предыдущая статья Как обмануть ИИ‑рецензента: скрытые команды в научных статьях работают (но не на всех языках) Следующая статья Когда система теряет память: почему небольшие изменения могут скрыть всю картину

Как научить компьютер чувствовать эволюцию: филогенетические деревья

Когда карта не похожа на карту: проблемы неевклидовых пространств

Тропическая геометрия: как математика учится у природы

Проблема настройки: искусство выбора правильного размаха

Перекрёстная проверка по правдоподобию: когда данные сами о себе говорят

Проверка виртуальной эволюции: эксперименты на компьютерных моделях

Реальная биология: паразиты рассказывают свои истории

Что это значит для науки: новые инструменты для чтения кода жизни

Заглядывая в будущее: куда ведёт эта дорога

Уроки от природы: почему это не только про науку

Связанные публикации

Как измерить расстояние между сетями, когда они не равны – история математического прорыва

Как научить ИИ читать клетки: когда морфология встречается с генетикой

Как научить компьютер читать мысли нейронов?

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Редакторская проверка

4. Создание иллюстрации