Опубликовано 23 марта 2026

EvoClaw: новый бенчмарк для проверки ИИ в реальной разработке

Исследователи представили EvoClaw – систему тестирования ИИ-агентов, которая проверяет их способность работать с постоянно меняющимися проектами.

Исследования 3 – 5 минут чтения
Источник события: OpenHands 3 – 5 минут чтения

Большинство тестов для ИИ-агентов устроены примерно одинаково: берётся задача, даётся фиксированная кодовая база, и модель пытается что-то исправить или написать. Если справилась – зачёт. Но есть одна проблема: реальный код не стоит на месте. Репозитории обновляются, зависимости меняются, задачи появляются и закрываются – и то, что работало вчера, сегодня может быть уже неактуально.

Именно это противоречие попытались устранить авторы нового бенчмарка EvoClaw.

Недостатки старых тестов ИИ

Что не так со старыми тестами?

Один из самых известных бенчмарков в области автоматического написания кода – SWE-Bench. Он построен на реальных задачах из GitHub: берётся проблема, берётся снимок репозитория на момент её появления, и ИИ-агент должен её решить. Звучит разумно.

Но со временем выяснилось несколько неудобных моментов. Во-первых, многие из этих задач уже известны – они попали в обучающие данные моделей. Агент не «решает» задачу, он, по сути, её «вспоминает». Во-вторых, бенчмарк статичен: одни и те же задачи, одни и те же репозитории. Модели начинают на него «натаскиваться», и результаты перестают отражать реальные возможности.

Проще говоря: высокий балл на SWE-Bench уже не гарантирует, что агент справится с живым проектом.

EvoClaw: динамический подход к тестированию ИИ

EvoClaw: тест, который не стоит на месте

EvoClaw – это попытка создать бенчмарк, который нельзя заучить. Главная идея: задачи для тестирования берутся из репозиториев в режиме реального времени. Как только в каком-то проекте появляется новый баг или задача – она может попасть в тест. Репозиторий при этом берётся в актуальном состоянии, а не как снимок из прошлого.

Это означает, что агент сталкивается с кодом, которого он гарантированно не видел во время обучения. Никакого «вспоминания» – только реальное решение задачи в условиях, максимально приближённых к работе живого разработчика.

Ещё один важный момент: EvoClaw отслеживает не только то, решил ли агент задачу прямо сейчас, но и то, остаётся ли его решение работоспособным по мере того, как проект продолжает развиваться. Это уже совсем другой уровень требований – агент должен писать код, который «живёт» в проекте, а не просто проходит тесты в момент проверки.

Важность EvoClaw для оценки ИИ-агентов

Почему это важно именно сейчас?

В последние месяцы ИИ-агенты для написания кода заняли заметное место в индустрии. Инструменты вроде тех, что строятся на базе последних моделей OpenAI или Anthropic, уже активно используются разработчиками – и компании наперебой рапортуют о впечатляющих результатах на бенчмарках.

Но именно здесь возникает вопрос: а что за этими цифрами стоит? Если модель набирает высокий балл на тесте, который она фактически «прошла» во время обучения, – это не показатель реальных возможностей. Это показатель хорошей памяти.

EvoClaw предлагает другой критерий: не «насколько хорошо агент знает старые задачи», а «насколько хорошо он справляется с новыми». И это различие принципиально – особенно для тех, кто всерьёз рассматривает ИИ-агентов как помощников в реальной разработке.

Первые результаты тестирования на EvoClaw

Что показали первые результаты?

Авторы EvoClaw протестировали на нём несколько современных агентов, в том числе OpenHands – открытую платформу для ИИ-агентов в разработке. Результаты оказались заметно скромнее, чем на привычных статичных тестах.

Это само по себе показательно. Не потому что агенты «плохие» – а потому что разрыв между производительностью на устаревших бенчмарках и реальными условиями оказался ощутимым. Именно такие данные нужны индустрии, чтобы двигаться в правильном направлении.

EvoClaw как постоянно обновляемая инфраструктура

Живой бенчмарк как инфраструктура

Интересная деталь: EvoClaw задуман не как разовое исследование, а как постоянно обновляемая система. Авторы планируют регулярно добавлять новые задачи из актуальных репозиториев – так что «натаскаться» на него не получится в принципе.

Это меняет саму логику оценки. Вместо того чтобы стремиться к высокому баллу на фиксированном тесте, разработчики агентов будут вынуждены создавать системы, которые действительно умеют решать незнакомые задачи в незнакомом коде. А это куда ближе к тому, чего все на самом деле хотят от ИИ-помощника в разработке.

Если коротко: EvoClaw – это попытка сдвинуть планку оценки ИИ-агентов ближе к реальности. Не «сколько баллов набрала модель», а «справится ли она с тем, чего ещё не видела». Пока это звучит как нюанс – но для индустрии, которая всё активнее внедряет таких агентов в живые проекты, это вопрос не академический, а сугубо практический.

Ссылка на публикацию: https://openhands.dev/blog/evoclaw-benchmark
Оригинальное название: EvoClaw: Evaluating AI Agents on Continuous Software Evolution
Дата публикации: 23 мар 2026
OpenHands openhands.dev Открытый проект, развивающий ИИ-агентов для автоматизации программирования и инженерных задач.
Предыдущая статья Nvidia и безопасность ИИ-агентов: что такое OpenShell и зачем он нужен Следующая статья RAG и медленная обработка документов: как Red Hat устраняет это узкое место

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Команда Cursor открыла доступ к экспериментальной функции, которая позволяет ИИ самостоятельно работать с кодом проекта в течение нескольких итераций без участия пользователя.

Cursor AIcursor.com 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться