TTT-Discover: как ИИ учится и совершенствуется в реальном времени

«Когда я писал эту статью, меня не отпускал один вопрос: а что, если мы всё это время искали универсальность там, где нужна была специализация? Может, весь смысл не в том, чтобы модель умела всё понемногу, а в том, чтобы она училась быть гениальной в чём-то одном – прямо сейчас, прямо на твоих глазах? Это как разница между тем, кто знает тысячу песен, и тем, кто может импровизировать одну – но так, что мурашки по коже. Это как диджей, который может играть что угодно, но истинный мастер – тот, кто создаёт уникальный ритм, который захватывает всех здесь и сейчас.» – Доктор Рафаэль Сантос

Представьте себе футболиста, который учится играть не на тренировках, а прямо во время финала чемпионата. Звучит безумно? Именно так работает TTT-Discover – метод, который позволяет большим языковым моделям учиться и совершенствоваться в режиме реального времени, решая конкретную научную проблему. Это как если бы музыкант импровизировал на сцене, с каждой нотой становясь всё виртуознее, вместо того чтобы просто исполнять заученную партитуру.

Когда обучение и применение ИИ это одно и то же

🎭 Когда репетиция и выступление – одно и то же

Традиционные подходы к искусственному интеллекту работают как классическая подготовка к карнавалу в Рио: сначала месяцы тренировок, заучивание движений, отработка каждого па, а потом – выход на Самбадром с готовым номером. Языковые модели обучают на терабайтах текста, замораживают их параметры и затем используют для решения задач. Всё чётко, всё по плану. Но что, если задача настолько уникальна, что никакая предварительная подготовка не поможет? Что, если нужно импровизировать?

Именно здесь на сцену выходит TTT-Discover – метод обучения во время тестирования для открытий. Представьте себе перкуссиониста, который не просто играет на барабане, но с каждым ударом учится чувствовать инструмент лучше, подстраивает ритм под настроение толпы, экспериментирует с новыми паттернами. Модель не просто применяет то, что знает – она продолжает учиться, адаптируясь к конкретной проблеме прямо в процессе её решения.

Предыдущие работы, такие как AlphaEvolve, использовали замороженные модели – это как танцевать самбу по строго заданной хореографии. TTT-Discover же применяет обучение с подкреплением непосредственно во время тестирования. Это значит, что модель может изменять свои внутренние параметры, учиться на своих ошибках и успехах, становясь всё лучше и лучше в решении именно этой, конкретной задачи.

Как TTT-Discover обучается и работает

🥁 Ритм поиска: как это работает

Давайте разберёмся, как устроен этот танец обучения и открытий. TTT-Discover состоит из двух главных участников, которые работают в паре, как барабанщик и танцор на карнавале.

Генератор – тот, кто задаёт ритм

Первый участник – это большая языковая модель, в данном случае gpt-oss-120b. Это открытая модель, а не какой-то закрытый чёрный ящик корпоративных гигантов. Генератор – это как импровизатор на джем-сейшене: он смотрит на текущую ситуацию, понимает контекст проблемы и предлагает новые идеи. Это может быть код на Python для алгоритмической задачи, программа на CUDA для оптимизации GPU-ядра, математическая формула или последовательность для криптографической задачи.

Модель не просто выдаёт одно решение и останавливается – она генерирует множество вариантов, экспериментирует, пробует разные подходы. Это как пробовать разные ритмические рисунки на барабане, чтобы понять, какой лучше подходит к мелодии.

Оценщик – тот, кто ставит оценки

Второй участник – это оценщик, внешняя среда, которая говорит модели, насколько хорошо её предложение. Это может быть компилятор, который проверяет, работает ли код, GPU, который замеряет скорость выполнения программы, математический решатель, проверяющий корректность доказательства, или биологический анализатор, оценивающий качество обработки данных.

Оценщик возвращает числовую награду – вознаграждение (reward). Это как аплодисменты публики на концерте: чем громче овации, тем лучше выступление. Эта награда становится сигналом для алгоритма обучения с подкреплением, который корректирует поведение модели.

Цикл обучения: от первого удара до финала

Весь процесс работает циклически, как повторяющийся рефрен в музыкальной композиции:

Генерация предложений: Модель создаёт набор возможных решений или модификаций. Это могут быть совершенно разные идеи – от изменения одного параметра до полной переработки подхода. Разнообразие здесь критично, как разнообразие движений в самбе.
Оценка предложений: Каждая идея отправляется на проверку к оценщику. Для GPU-ядра это будет время выполнения – чем быстрее, тем лучше. Для математической задачи – насколько близко решение к доказательству или оптимальному результату. Каждому решению присваивается награда.
Обновление модели: Здесь происходит магия. На основе полученных наград модель обновляет свои внутренние веса с помощью алгоритмов обучения с подкреплением, таких как PPO (Proximal Policy Optimization). Это как если бы танцор после каждого выступления анализировал реакцию публики и корректировал свои движения к следующему разу. Стратегии, которые привели к высоким наградам, усиливаются. Те, что провалились – ослабляются.
Итерация: Цикл повторяется снова и снова. С каждым раундом модель становится всё более специализированной в решении именно этой задачи, углубляясь в пространство решений, как исследователь в джунглях Амазонки.

Ключевые особенности метода TTT-Discover

⚡ Фирменные фишки TTT-Discover

Что делает этот метод по-настоящему особенным? Давайте посмотрим на его ключевые характеристики – те самые элементы, которые превращают обычный алгоритм в виртуозное соло.

Целенаправленность – один удар, одна цель

В отличие от традиционного машинного обучения, где модель учится быть хорошей «в среднем» на множестве задач, TTT-Discover фокусируется на достижении превосходства в одной конкретной проблеме. Это не универсальный солдат – это снайпер. Вместо того чтобы учиться играть сто песен неплохо, модель учится исполнять одну композицию идеально.

Это принципиально другая философия. Когда вы тренируете модель на широком спектре данных, вы жертвуете глубиной ради широты. Здесь же мы жертвуем широтой ради максимальной глубины и специализации. Результат? Решения, которые превосходят всё, что было создано универсальными подходами.

Непрерывное улучшение – танец без остановки

Модель никогда не замораживается. Она постоянно эволюционирует, как живой организм. Каждая новая попытка, каждая новая награда – это шанс стать лучше. Это как футбольный матч, где команда постоянно корректирует тактику прямо во время игры, основываясь на действиях соперника.

В традиционном подходе после обучения модель фиксируется – её веса больше не меняются. Здесь же веса продолжают обновляться, модель продолжает учиться до тех пор, пока не найдёт оптимальное или близкое к оптимальному решение. Это непрерывный процесс совершенствования.

Баланс исследования и эксплуатации – риск и расчёт

Алгоритмы обучения с подкреплением естественным образом балансируют между двумя стратегиями: исследованием (exploration) новых, неизведанных территорий и эксплуатацией (exploitation) уже найденных перспективных путей. Это как выбор между тем, чтобы попробовать новый барабанный паттерн, который может оказаться гениальным (или провальным), и тем, чтобы усовершенствовать уже работающий ритм.

Слишком много исследования – и вы тратите время на бесполезные идеи. Слишком много эксплуатации – и вы застреваете в локальном оптимуме, упуская действительно прорывные решения. TTT-Discover находит золотую середину, направляя поиск модели в самые перспективные области пространства решений.

Открытость и воспроизводимость – музыка для всех

Один из самых важных аспектов: все результаты получены с помощью открытой модели gpt-oss-120b и публично доступного кода. Это означает, что любой исследователь может повторить эксперименты, проверить результаты, адаптировать метод для своих задач. Никаких закрытых корпоративных чёрных ящиков, никаких секретных соусов.

Это как публиковать ноты вашей музыкальной композиции, чтобы другие могли её исполнить, изучить, улучшить. Наука должна быть открытой, и TTT-Discover следует этому принципу.

Применение TTT-Discover в разных областях

🏆 Победы на разных танцполах: применение метода

Теория – это прекрасно, но давайте посмотрим, как TTT-Discover проявил себя на практике. Исследователи протестировали метод в четырёх совершенно разных областях – от абстрактной математики до прикладной биологии. И результаты? Впечатляющие.

Математика: когда числа танцуют

Проблема минимального перекрытия Эрдёша

Представьте себе две бинарные последовательности – строки из нулей и единиц одинаковой длины. Теперь сдвигайте одну последовательность относительно другой и считайте, сколько позиций совпадают. Задача: найти такие последовательности, чтобы при любом сдвиге количество совпадений было минимальным. Это классическая задача комбинаторики, над которой математики бились десятилетиями.

TTT-Discover подошёл к проблеме как к танцу: генерировал различные бинарные последовательности, пробовал разные стратегии их конструирования, а внешний оценщик вычислял максимальное перекрытие для каждого варианта. Модель училась создавать последовательности с всё меньшим количеством совпадений, как музыкант учится избегать диссонансов.

Результат? Новые рекорды для последовательностей длиной 32 и 36 элементов. Модель превзошла не только результаты исчерпывающего перебора (который для таких длин становится практически невозможным), но и специализированные алгоритмы, разработанные математиками. Это как если бы джазовый импровизатор создал мелодию, которую не смогли бы сочинить даже композиторы-академики.

Неравенство автокорреляции

Эта задача связана с минимизацией автокорреляции бинарных строк – свойства, критически важного для криптографии и телекоммуникаций. Нужно найти бинарную последовательность, у которой сумма произведений элементов на себя же со сдвигом минимальна. Чем меньше автокорреляция, тем лучше последовательность для использования в защищённых системах связи.

TTT-Discover генерировал различные бинарные строки, оценивал их автокорреляционные свойства и обучался минимизировать максимальное значение. Метод смог улучшить известные границы для нескольких длин строк, что имеет прямое практическое значение для криптографических приложений.

GPU-инженерия: когда код должен лететь

GPU-ядра – это небольшие программы, которые выполняются на графических процессорах и критически важны для всего: от обработки видео до обучения нейросетей. Их оптимизация – настоящее искусство, требующее глубочайшего понимания архитектуры GPU, управления памятью, параллелизма. Это как настроить болид Формулы-1: каждая микросекунда на счету.

На конкурсе GPUMode участникам предложили оптимизировать конкретное вычислительное ядро. TTT-Discover взялся за задачу, генерируя различные версии кода на CUDA – языке программирования для GPU от NVIDIA. Модель экспериментировала с:

Раскладкой данных в памяти (как эффективнее расположить информацию для быстрого доступа)
Использованием регистров (сверхбыстрая память внутри GPU)
Блокировкой потоков (как организовать параллельные вычисления)
Стратегиями синхронизации (как координировать работу тысяч одновременно выполняющихся потоков)
Другими низкоуровневыми параметрами

Внешний оценщик – реальный GPU – запускал каждую версию кода и замерял время выполнения. Модель училась на результатах, постепенно находя всё более эффективные комбинации оптимизаций.

Финальный результат: ускорение до двух раз по сравнению с предыдущими лучшими решениями. В мире GPU-оптимизации, где инженеры борются за каждый процент производительности, двукратное ускорение – это как выиграть чемпионат мира. Модель научилась использовать ресурсы GPU так эффективно, как опытный гонщик использует каждую лошадиную силу своего болида.

Алгоритмы: программирование как искусство

AtCoder – это платформа для соревновательного программирования, где участники решают сложные алгоритмические задачи за ограниченное время. Это интеллектуальный спорт высшей лиги: нужны изобретательность, глубокое знание структур данных и алгоритмов, умение писать безошибочный код под давлением.

Исследователи протестировали TTT-Discover на задачах из прошлых конкурсов AtCoder. Модель получала описание задачи, примеры входных и выходных данных, а затем генерировала код на Python. Оценщик запускал этот код на тестовых наборах данных и возвращал результат: прошёл ли код все тесты, уложился ли в ограничения по времени и памяти.

TTT-Discover смог решить несколько сложных задач, с которыми справляются только опытные программисты. Модель не просто генерировала работающий код – она находила эффективные алгоритмические решения, оптимизировала их, учитывала граничные случаи. Это показывает, что метод способен не только на грубую силу перебора, но и на своего рода «алгоритмическую интуицию».

Биология: когда данные шумят сильнее, чем карнавал

В одноклеточной биологии исследователи изучают экспрессию генов в отдельных клетках. Это позволяет понять, как разные клетки выполняют разные функции, как возникают заболевания, как работают лекарства. Проблема в том, что данные экспрессии генов часто содержат огромное количество шума – технические артефакты измерений, биологическая вариабельность, случайные флуктуации.

Представьте себе, что вы пытаетесь услышать тихую мелодию флейты посреди бразильского карнавала. Задача шумоподавления – это фильтрация данных, чтобы восстановить истинные паттерны экспрессии генов.

TTT-Discover был применён для генерации и уточнения алгоритмов шумоподавления. Модель изучала характеристики зашумлённых данных и генерировала различные подходы к их фильтрации: статистические методы, нейросетевые фильтры, комбинации разных техник. Оценщик анализировал качество восстановленных данных, сравнивая их с эталонными наборами или используя биологически значимые метрики.

Результат: улучшение качества шумоподавления, что привело к более точной идентификации типов клеток и паттернов экспрессии. Это критически важно для медицинских исследований – от диагностики рака до разработки персонализированных методов лечения. Чем чище данные, тем точнее диагноз, тем эффективнее терапия.

Доступность метода TTT-Discover

💰 Доступность: не нужен стадион, достаточно площадки

Один из самых впечатляющих аспектов TTT-Discover – его экономическая доступность. Все эксперименты проводились с использованием Tinker – API от Thinking Machines, со стоимостью всего несколько сотен долларов за задачу. Это не миллионы долларов на суперкомпьютеры, не эксклюзивный доступ к закрытым моделям корпораций-гигантов.

Несколько сотен долларов – это бюджет небольшой исследовательской группы, университетской лаборатории, даже энтузиаста-одиночки. Это демократизация научного поиска на основе ИИ. Раньше прорывные результаты требовали огромных вычислительных ресурсов и закрытых технологий. Теперь – достаточно хорошей идеи, открытой модели и нескольких сотен долларов.

Это как разница между организацией карнавала в Рио с миллионным бюджетом и устройством яркого праздника на районной площадке. Масштаб меньше, но радость и энергия – те же. А результаты могут быть не менее впечатляющими.

Что выделяет TTT-Discover среди других

🌟 Что делает TTT-Discover особенным

Давайте подведём промежуточные итоги и посмотрим на ключевые отличия этого подхода от того, что существовало раньше.

Приоритет качества над количеством

Традиционное машинное обучение стремится к хорошим результатам «в среднем». Модель должна работать неплохо на тысячах разных задач. TTT-Discover переворачивает эту логику: цель не быть хорошим везде, а быть превосходным в одном конкретном месте.

Это как разница между хорошим танцором в клубе, который может станцевать всё – от сальсы до хип-хопа на приемлемом уровне, и профессиональным танцором самбы, который довёл своё искусство до совершенства. Второй не умеет танцевать вальс, но в самбе ему нет равных.

Целенаправленная специализация

Модель не распыляется на обобщение. Она углубляется в специфику конкретной проблемы, изучает её нюансы, адаптируется к её особенностям. Это глубокое погружение, как археолог, который копает в одном месте, но добирается до самых древних слоёв.

В процессе TTT-Discover модель может открыть паттерны и стратегии, которые уникальны именно для этой задачи и могли бы быть упущены универсальным подходом.

Живая, эволюционирующая система

Модель не статична. Она живёт, дышит, развивается прямо во время решения задачи. Каждая итерация – это шаг в эволюции, каждая награда – это сигнал к адаптации. Это органический процесс, напоминающий естественный отбор, но ускоренный и направленный.

Перспективы развития метода TTT-Discover

🔮 Куда ведёт эта дорога

Потенциал TTT-Discover выходит далеко за рамки уже продемонстрированных успехов. Метод может быть применён к широчайшему спектру задач, где требуется найти не просто хорошее, а наилучшее решение.

Материаловедение

Представьте поиск новых материалов с заданными свойствами – сверхпрочных, сверхлёгких, сверхпроводящих. Модель могла бы генерировать молекулярные структуры, а симуляторы оценивали бы их физические характеристики. TTT-Discover мог бы ускорить открытие материалов будущего.

Разработка лекарств

Поиск новых молекул-кандидатов для лечения болезней – задача с огромным пространством поиска. Модель могла бы генерировать структуры потенциальных лекарств, а биологические симуляторы – оценивать их эффективность и безопасность. Это могло бы сократить время разработки новых препаратов с десятилетий до лет.

Логистика и оптимизация

Оптимизация маршрутов доставки, управление складскими запасами, планирование производства – все эти задачи требуют поиска наилучших решений в сложных условиях с множеством ограничений. TTT-Discover мог бы находить решения, которые экономят миллионы долларов и тонны топлива.

Математические доказательства

Может ли модель не просто находить численные решения, но и генерировать формальные математические доказательства? Это одна из самых амбициозных целей. Если TTT-Discover сможет справиться с этим, это откроет новую эру в математике, где ИИ становится партнёром математиков в поиске доказательств.

🎸 Заключительный аккорд

TTT-Discover показывает нам новый путь использования искусственного интеллекта в науке. Это не про то, чтобы заставить машину выполнять инструкции быстрее человека. Это про то, чтобы дать машине возможность учиться открывать, исследовать, совершенствоваться прямо в процессе решения задачи.

Традиционные подходы работают как студия звукозаписи: всё продумано, отрепетировано, записано. TTT-Discover – это живой концерт, где каждое выступление уникально, где музыканты импровизируют, адаптируются, реагируют на энергию зала. И именно в такие моменты рождается настоящая магия.

Метод демонстрирует, что прорывные результаты не требуют астрономических бюджетов и закрытых технологий. Открытые модели, публичный код, несколько сотен долларов – и вы можете решать задачи, которые ставили в тупик специалистов годами. Это демократизация научного поиска, которая делает передовые исследования доступными для гораздо более широкого круга людей.

Но самое важное – это философия подхода. Вместо того чтобы пытаться создать универсальный инструмент для всего, TTT-Discover фокусируется на достижении совершенства в одном. Это урок не только для машинного обучения, но и для жизни: иногда лучше быть мастером в одном деле, чем посредственностью в сотне.

Алгоритмы не лучше нас – они просто другие. И когда мы учимся использовать их сильные стороны правильно, когда мы позволяем им учиться и развиваться прямо в процессе решения задачи, мы открываем двери к решениям, которые казались недостижимыми. Это танец между человеческой изобретательностью и машинной адаптивностью, между алгоритмической точностью и творческим поиском.

И этот танец только начинается. 🎉

#технический контекст #методология #машинное обучение #развитие ии #обучение ии #математика #биология #открытые языковые модели #научный ии

Источник: https://arxiv.org/abs/2601.16175v1

Оригинальное название: Learning to Discover at Test Time

Дата публикации статьи: 22 янв 2026

Авторы оригинальной статьи : Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun

Доктор Рафаэль Сантос Открыть профиль

«Алгоритмы не лучше нас – они просто другие.»

Открыть профиль

Я программист, который видит в ИИ не угрозу, а инструмент для творчества. Мне нравится объяснять, как компьютеры «думают», на примерах из музыки и футбола.

Предыдущая статья Геномная мозаика: как научить компьютер различать родственные души среди миллиардов букв жизни Следующая статья Симфония детерминантов: как матричные интегралы открывают двери к загадкам дзета-функции Римана