Опубликовано 12 сентября 2025

Thyme: как научить ИИ не просто смотреть, но и действовать

Как научить ИИ думать руками – разбираем Thyme

Новая модель Thyme учит ИИ не просто смотреть на картинки, а активно их обрабатывать через код – как фотошоп, управляемый мыслями.

Компьютерная наука 6 – 9 минут чтения

Автор публикации: Доктор София Чен 6 – 9 минут чтения

Представьте, что вы показываете фотографию другу и просите: «Можешь повернуть эту картинку и сделать ярче?» Обычный человек возьмет телефон, откроет редактор и сделает это за пару кликов. А что делает ИИ? Долго смотрит на изображение и... описывает, что видит. Как будто вы попросили слепого человека отремонтировать телевизор, дав ему только словесные инструкции.

Именно эту проблему решает новая система Thyme (Think Beyond Images) – она учит ИИ не просто анализировать картинки, а активно с ними работать. Это как дать роботу руки вместо того, чтобы он просто смотрел на мир через камеру.

Проблема современного ИИ: пассивное восприятие изображений

Проблема современного ИИ: смотреть, но не трогать

Современные мультимодальные модели (те, что работают и с текстом, и с изображениями) застряли в парадоксе. Они могут распознать, что на картинке изображен кот, сидящий на красном диване, но не могут элементарно обрезать изображение, чтобы показать только кота. Это примерно как иметь энциклопедические знания о кулинарии, но не уметь держать нож.

Существующие попытки решить эту проблему можно сравнить с двумя неудачными подходами:

Первый подход – «рисовать новые картинки»
Модель пытается создать новое изображение вместо редактирования существующего. Это как если бы вы попросили повернуть фотографию, а вам нарисовали новую картину маслом. Результат часто получается размытым и требует огромных вычислительных ресурсов.

Второй подход – «указывать пальцем»
Модель может только выделять прямоугольные области на изображении. Представьте фотошоп, где есть только инструмент «выделение» – не очень функционально, правда?

Революция Thyme: ИИ программирует для работы с изображениями

Революция Thyme: когда ИИ начинает программировать

Thyme работает принципиально по-другому. Вместо попыток угадать результат, модель пишет код. Да, самый обычный код на Python, который может выполнить любую операцию с изображением – от простого поворота до сложной математической обработки.

Это похоже на то, как работает Тони Старк с Джарвисом в фильмах Marvel. Старк говорит: «Джарвис, поверни эту голограмму и увеличь яркость в левом углу», а ИИ не просто понимает команду – он знает, какие именно инструменты использовать и в какой последовательности.

Архитектура: мозг + руки

Система состоит из двух ключевых компонентов:

Модель-мозг
Анализирует задачу и принимает решение: нужно ли писать код или можно обойтись обычным ответом. Если код нужен, модель его генерирует с учетом специфики задачи.

Песочница-руки
Безопасная среда для выполнения кода. Она не только исполняет программы, но и автоматически исправляет типичные ошибки – проверяет границы изображения, форматирует данные, ловит баги. Это как автокорректор, но для программирования.

Такой подход решает главную проблему: модель может сосредоточиться на логике решения, а техническая реализация берется на себя надежной исполняющей средой.

Обучение Thyme: от базовых операций до сложных задач

Обучение: от новичка до мастера

Как научить ИИ этому искусству? Создатели Thyme использовали двухэтапную стратегию, похожую на обучение в автошколе.

Этап 1: Теория (SFT – Supervised Fine-Tuning)

Сначала модель изучает основы на 500 тысячах примеров. Это как заучивание правил дорожного движения перед практикой. Датасет включает:

Простые задачи без кода – когда достаточно обычного ответа
Базовые операции – обрезка, поворот, изменение яркости
Математические вычисления – когда нужно что-то посчитать по изображению
Диалоги с исправлениями – как научиться на ошибках

Этап 2: Практика (RL – Reinforcement Learning)

Затем модель отправляется на «дорогу» – решать реальные сложные задачи. Здесь используется специальный алгоритм GRPO-ATS, который работает как опытный инструктор.

Секрет алгоритма в разной строгости к разным типам генерации:

Для текста – температура 1.0 (больше креативности в рассуждениях)
Для кода – температура 0.0 (максимальная точность в программировании)

Это как требовать от водителя творческого подхода к выбору маршрута, но абсолютной точности в соблюдении правил безопасности.

Результаты Thyme: улучшение восприятия и точности ИИ

Результаты: цифры, которые впечатляют

Тестирование Thyme на 20 различных задачах показало впечатляющие результаты:

Восприятие изображений высокого разрешения
Улучшение на 25% в задачах, где важны мелкие детали. Это критично для медицинской диагностики, анализа спутниковых снимков или детального изучения произведений искусства.

Логические рассуждения
Способность переводить математические задачи в исполняемый код значительно повышает точность вычислений. Больше никаких «примерно посчитаю в уме» – только точные расчеты.

Снижение галлюцинаций
Когда ИИ может проверить свои предположения через код, он реже выдумывает несуществующие детали. Это как разница между гаданием и измерением линейкой.

Особенности Thyme: автономность и обработка ошибок

Под капотом: что делает Thyme особенным

Автономность решений

Одна из самых интересных особенностей Thyme – способность самостоятельно определять, когда нужен код. Модель не пытается написать программу для каждой задачи (что было бы излишне), а анализирует контекст и принимает взвешенное решение.

Например:

Вопрос «Что изображено на картинке»? – обычный ответ
Вопрос «Сколько пикселей занимает красная область»? – генерация кода для точного подсчета

Обработка ошибок

Песочница Thyme умеет предвидеть и исправлять типичные ошибки программирования:

Выход за границы изображения при обрезке
Неправильные форматы данных
Некорректные параметры функций

Это снижает нагрузку на основную модель и делает систему более надежной в реальных условиях.

Математическая точность

В отличие от моделей, которые «прикидывают» результаты вычислений, Thyme может выполнять точные математические операции через код. Нужно посчитать площадь объекта на изображении? Модель напишет программу, которая сделает это с точностью до пикселя.

Технические детали: алгоритм GRPO-ATS в Thyme

Технические детали: GRPO-ATS алгоритм

Сердце обучения Thyme – алгоритм GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling). Звучит сложно, но идея простая.

Представьте джазового музыканта, который одновременно играет мелодию и читает ноты. Для импровизации (генерация рассуждений) нужна свобода и креативность, а для чтения нот (написание кода) – абсолютная точность.

GRPO-ATS делает именно это: позволяет модели быть творческой в объяснениях, но требует математической точности в программировании. Результат – система, которая может и объяснить сложную концепцию человеческим языком, и написать безошибочный код.

Ограничения Thyme: на что обратить внимание

Ограничения: честно о недостатках

Как любая технология, Thyme не лишена ограничений:

Зависимость от базовой модели
Качество Thyme напрямую зависит от способностей базовой языковой модели. Это как тюнинг автомобиля – если двигатель слабый, никакие улучшения не помогут кардинально.

Нехватка данных для редких операций
Некоторые специализированные операции (например, продвинутая коррекция контраста) представлены в обучающих данных недостаточно. Модель может справиться с ними, но не так уверенно, как с базовыми операциями.

Вычислительные затраты
Генерация и исполнение кода требует дополнительных ресурсов по сравнению с простым анализом изображения. Впрочем, это разумная плата за существенно расширенный функционал.

Практические применения Thyme

Практические применения

Где может пригодиться Thyme в реальной жизни?

Медицинская диагностика
Врач может попросить ИИ: «Выдели подозрительную область на рентгене и измерь ее площадь». Модель не только найдет область, но и даст точные измерения.

Анализ спутниковых данных
Исследователи могут автоматизировать обработку снимков: «Найди все здания на этом участке и посчитай их количество». Thyme справится с этим через генерацию соответствующего кода анализа.

Образование
Студенты могут изучать геометрию, задавая вопросы вроде: «Какой угол между этими линиями на схеме»? Модель не только ответит, но и покажет код вычисления.

Будущее Thyme в развитии ИИ

Будущее: к чему это ведет

Thyme представляет новую парадигму взаимодействия ИИ с визуальным миром. Вместо пассивного наблюдения модели становятся активными участниками обработки информации.

Это напоминает эволюцию от радио к интерактивному интернету. Раньше мы могли только «слушать» что говорит ИИ об изображениях. Теперь мы можем «сотрудничать» с ним в их обработке.

Перспективы развития

Следующие шаги могут включать:

Поддержку видео и 3D-моделей
Интеграцию с внешними API для еще более сложных операций
Обучение на специализированных доменах (медицина, астрономия, инженерия)

Почему Thyme важен для развития ИИ

Почему это важно

Thyme показывает путь к более практичному ИИ. Вместо модели, которая может только описать проблему, мы получаем помощника, способного ее решить. Это как разница между советчиком и мастером на все руки.

Открытость кода и данных делает эту технологию доступной для исследователей по всему миру. Когда хорошие идеи становятся общедоступными, инновации ускоряются экспоненциально.

В конечном счете, Thyme демонстрирует важный принцип: лучший ИИ – не тот, который знает все ответы, а тот, который умеет находить правильные инструменты для решения задач. И иногда лучший инструмент – это способность написать код, который сделает именно то, что нужно.

Добро пожаловать в эру ИИ, который не просто думает, а действует! ?

#технический контекст #образовательный материал #нейросети #развитие ии #компьютерное зрение #инженерия #данные #мультимодальные модели #работа с ошибками

Источник: https://arxiv.org/abs/2508.11630v1

Оригинальное название: Thyme: Think Beyond Images

Дата публикации статьи: 15 авг 2025

Авторы оригинальной статьи : Yi-Fan Zhang, Xingyu Lu, Shukang Yin, Chaoyou Fu, Wei Chen, Xiao Hu, Bin Wen, Kaiyu Jiang, Changyi Liu, Tianke Zhang, Haonan Fan, Kaibing Chen, Jiankang Chen, Haojie Ding, Kaiyu Tang, Zhang Zhang, Liang Wang, Fan Yang, Tingting Gao, Guorui Zhou

Доктор София Чен Открыть профиль

«ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее.»

Открыть профиль

Я инженер, которая любит объяснять сложное весело. Считаю, что хороший ИИ начинается с честного диалога о его границах.

Предыдущая статья Как измерить невидимое: что скрывают нейтронные оболочки атомных ядер Следующая статья Как взломать код сердца: новые цифровые модели для персонализированной кардиологии

Thyme: как научить ИИ не просто смотреть, но и действовать

Проблема современного ИИ: пассивное восприятие изображений

Революция Thyme: ИИ программирует для работы с изображениями

Архитектура: мозг + руки

Обучение Thyme: от базовых операций до сложных задач

Этап 1: Теория (SFT – Supervised Fine-Tuning)

Этап 2: Практика (RL – Reinforcement Learning)

Результаты Thyme: улучшение восприятия и точности ИИ

Особенности Thyme: автономность и обработка ошибок

Автономность решений

Обработка ошибок

Математическая точность

Технические детали: алгоритм GRPO-ATS в Thyme

Ограничения Thyme: на что обратить внимание

Практические применения Thyme

Будущее Thyme в развитии ИИ

Перспективы развития

Почему Thyme важен для развития ИИ

Связанные публикации

Как один ИИ научился редактировать видео лучше целой команды специалистов

Как научить ИИ предсказывать рак при -40°C: История одного трансформера, который не боится пропусков в данных

Как научить ИИ читать клетки: когда морфология встречается с генетикой

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Создание иллюстрации