Опубликовано

Как научить ИИ думать руками – разбираем Thyme

Новая модель Thyme учит ИИ не просто смотреть на картинки, а активно их обрабатывать через код – как фотошоп, управляемый мыслями.

Компьютерная наука
Автор публикации: Доктор София Чен Время чтения: 6 – 9 минут

Представьте, что вы показываете фотографию другу и просите: «Можешь повернуть эту картинку и сделать ярче?» Обычный человек возьмет телефон, откроет редактор и сделает это за пару кликов. А что делает ИИ? Долго смотрит на изображение и... описывает, что видит. Как будто вы попросили слепого человека отремонтировать телевизор, дав ему только словесные инструкции.

Именно эту проблему решает новая система Thyme (Think Beyond Images) – она учит ИИ не просто анализировать картинки, а активно с ними работать. Это как дать роботу руки вместо того, чтобы он просто смотрел на мир через камеру.

Проблема современного ИИ: смотреть, но не трогать

Современные мультимодальные модели (те, что работают и с текстом, и с изображениями) застряли в парадоксе. Они могут распознать, что на картинке изображен кот, сидящий на красном диване, но не могут элементарно обрезать изображение, чтобы показать только кота. Это примерно как иметь энциклопедические знания о кулинарии, но не уметь держать нож.

Существующие попытки решить эту проблему можно сравнить с двумя неудачными подходами:

Первый подход – «рисовать новые картинки»
Модель пытается создать новое изображение вместо редактирования существующего. Это как если бы вы попросили повернуть фотографию, а вам нарисовали новую картину маслом. Результат часто получается размытым и требует огромных вычислительных ресурсов.

Второй подход – «указывать пальцем»
Модель может только выделять прямоугольные области на изображении. Представьте фотошоп, где есть только инструмент «выделение» – не очень функционально, правда?

Революция Thyme: когда ИИ начинает программировать

Thyme работает принципиально по-другому. Вместо попыток угадать результат, модель пишет код. Да, самый обычный код на Python, который может выполнить любую операцию с изображением – от простого поворота до сложной математической обработки.

Это похоже на то, как работает Тони Старк с Джарвисом в фильмах Marvel. Старк говорит: «Джарвис, поверни эту голограмму и увеличь яркость в левом углу», а ИИ не просто понимает команду – он знает, какие именно инструменты использовать и в какой последовательности.

Архитектура: мозг + руки

Система состоит из двух ключевых компонентов:

Модель-мозг
Анализирует задачу и принимает решение: нужно ли писать код или можно обойтись обычным ответом. Если код нужен, модель его генерирует с учетом специфики задачи.

Песочница-руки
Безопасная среда для выполнения кода. Она не только исполняет программы, но и автоматически исправляет типичные ошибки – проверяет границы изображения, форматирует данные, ловит баги. Это как автокорректор, но для программирования.

Такой подход решает главную проблему: модель может сосредоточиться на логике решения, а техническая реализация берется на себя надежной исполняющей средой.

Обучение: от новичка до мастера

Как научить ИИ этому искусству? Создатели Thyme использовали двухэтапную стратегию, похожую на обучение в автошколе.

Этап 1: Теория (SFT – Supervised Fine-Tuning)

Сначала модель изучает основы на 500 тысячах примеров. Это как заучивание правил дорожного движения перед практикой. Датасет включает:

  • Простые задачи без кода – когда достаточно обычного ответа
  • Базовые операции – обрезка, поворот, изменение яркости
  • Математические вычисления – когда нужно что-то посчитать по изображению
  • Диалоги с исправлениями – как научиться на ошибках

Этап 2: Практика (RL – Reinforcement Learning)

Затем модель отправляется на «дорогу» – решать реальные сложные задачи. Здесь используется специальный алгоритм GRPO-ATS, который работает как опытный инструктор.

Секрет алгоритма в разной строгости к разным типам генерации:

  • Для текста – температура 1.0 (больше креативности в рассуждениях)
  • Для кода – температура 0.0 (максимальная точность в программировании)

Это как требовать от водителя творческого подхода к выбору маршрута, но абсолютной точности в соблюдении правил безопасности.

Результаты: цифры, которые впечатляют

Тестирование Thyme на 20 различных задачах показало впечатляющие результаты:

Восприятие изображений высокого разрешения
Улучшение на 25% в задачах, где важны мелкие детали. Это критично для медицинской диагностики, анализа спутниковых снимков или детального изучения произведений искусства.

Логические рассуждения
Способность переводить математические задачи в исполняемый код значительно повышает точность вычислений. Больше никаких «примерно посчитаю в уме» – только точные расчеты.

Снижение галлюцинаций
Когда ИИ может проверить свои предположения через код, он реже выдумывает несуществующие детали. Это как разница между гаданием и измерением линейкой.

Под капотом: что делает Thyme особенным

Автономность решений

Одна из самых интересных особенностей Thyme – способность самостоятельно определять, когда нужен код. Модель не пытается написать программу для каждой задачи (что было бы излишне), а анализирует контекст и принимает взвешенное решение.

Например:

  • Вопрос «Что изображено на картинке?» – обычный ответ
  • Вопрос «Сколько пикселей занимает красная область?» – генерация кода для точного подсчета

Обработка ошибок

Песочница Thyme умеет предвидеть и исправлять типичные ошибки программирования:

  • Выход за границы изображения при обрезке
  • Неправильные форматы данных
  • Некорректные параметры функций

Это снижает нагрузку на основную модель и делает систему более надежной в реальных условиях.

Математическая точность

В отличие от моделей, которые «прикидывают» результаты вычислений, Thyme может выполнять точные математические операции через код. Нужно посчитать площадь объекта на изображении? Модель напишет программу, которая сделает это с точностью до пикселя.

Технические детали: GRPO-ATS алгоритм

Сердце обучения Thyme – алгоритм GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling). Звучит сложно, но идея простая.

Представьте джазового музыканта, который одновременно играет мелодию и читает ноты. Для импровизации (генерация рассуждений) нужна свобода и креативность, а для чтения нот (написание кода) – абсолютная точность.

GRPO-ATS делает именно это: позволяет модели быть творческой в объяснениях, но требует математической точности в программировании. Результат – система, которая может и объяснить сложную концепцию человеческим языком, и написать безошибочный код.

Ограничения: честно о недостатках

Как любая технология, Thyme не лишена ограничений:

Зависимость от базовой модели
Качество Thyme напрямую зависит от способностей базовой языковой модели. Это как тюнинг автомобиля – если двигатель слабый, никакие улучшения не помогут кардинально.

Нехватка данных для редких операций
Некоторые специализированные операции (например, продвинутая коррекция контраста) представлены в обучающих данных недостаточно. Модель может справиться с ними, но не так уверенно, как с базовыми операциями.

Вычислительные затраты
Генерация и исполнение кода требует дополнительных ресурсов по сравнению с простым анализом изображения. Впрочем, это разумная плата за существенно расширенный функционал.

Практические применения

Где может пригодиться Thyme в реальной жизни?

Медицинская диагностика
Врач может попросить ИИ: «Выдели подозрительную область на рентгене и измерь ее площадь». Модель не только найдет область, но и даст точные измерения.

Анализ спутниковых данных
Исследователи могут автоматизировать обработку снимков: «Найди все здания на этом участке и посчитай их количество». Thyme справится с этим через генерацию соответствующего кода анализа.

Образование
Студенты могут изучать геометрию, задавая вопросы вроде: «Какой угол между этими линиями на схеме?» Модель не только ответит, но и покажет код вычисления.

Будущее: к чему это ведет

Thyme представляет новую парадигму взаимодействия ИИ с визуальным миром. Вместо пассивного наблюдения модели становятся активными участниками обработки информации.

Это напоминает эволюцию от радио к интерактивному интернету. Раньше мы могли только «слушать» что говорит ИИ об изображениях. Теперь мы можем «сотрудничать» с ним в их обработке.

Перспективы развития

Следующие шаги могут включать:

  • Поддержку видео и 3D-моделей
  • Интеграцию с внешними API для еще более сложных операций
  • Обучение на специализированных доменах (медицина, астрономия, инженерия)

Почему это важно

Thyme показывает путь к более практичному ИИ. Вместо модели, которая может только описать проблему, мы получаем помощника, способного ее решить. Это как разница между советчиком и мастером на все руки.

Открытость кода и данных делает эту технологию доступной для исследователей по всему миру. Когда хорошие идеи становятся общедоступными, инновации ускоряются экспоненциально.

В конечном счете, Thyme демонстрирует важный принцип: лучший ИИ – не тот, который знает все ответы, а тот, который умеет находить правильные инструменты для решения задач. И иногда лучший инструмент – это способность написать код, который сделает именно то, что нужно.

Добро пожаловать в эру ИИ, который не просто думает, а действует!?

Оригинальное название: Thyme: Think Beyond Images
Дата публикации статьи: 15 авг 2025
Авторы оригинальной статьи : Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou
Предыдущая статья Как измерить невидимое: что скрывают нейтронные оболочки атомных ядер Следующая статья Как взломать код сердца: новые цифровые модели для персонализированной кардиологии

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Доступность

85%

Фокус на этике

82%

Культурная адаптация

87%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
DeepSeek-V3 DeepSeek Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

DeepSeek-V3 DeepSeek
2.
Claude Sonnet 4 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4 Anthropic
3.
Phoenix 1.0 Leonardo AI Создание иллюстрации Генерация изображения по подготовленному промпту

3. Создание иллюстрации

Генерация изображения по подготовленному промпту

Phoenix 1.0 Leonardo AI

Лаборатория

Вам может быть интересно

Войти в Лабораторию

Здесь собраны материалы из «Лаборатории», которые продолжают разговор: смежные исследования, близкие методы или идеи, помогающие глубже понять тему.

Компьютерная наука

Исследователи научили языковую модель находить лучшие решения в науке не через предварительную подготовку, а через обучение прямо в процессе работы над конкретной задачей.

Компьютерная наука

Новый метод позволяет автономным системам оставаться в безопасности, даже когда датчики «врут», а истинное положение робота скрыто за облаком шума и неточностей.

Компьютерная наука

Федеративное обучение позволяет совместно обучать ИИ без обмена данными, но требует баланса между скоростью передачи и конфиденциальностью – CEPAM решает обе задачи одновременно.

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться