Опубликовано 23 марта 2026

EvoClaw: новый бенчмарк для проверки ИИ в реальной разработке

Исследователи представили EvoClaw – систему тестирования ИИ-агентов, которая проверяет их способность работать с постоянно меняющимися проектами.

Исследования 3 – 5 минут чтения

Источник события: OpenHands 3 – 5 минут чтения

Большинство тестов для ИИ-агентов устроены примерно одинаково: берётся задача, даётся фиксированная кодовая база, и модель пытается что-то исправить или написать. Если справилась – зачёт. Но есть одна проблема: реальный код не стоит на месте. Репозитории обновляются, зависимости меняются, задачи появляются и закрываются – и то, что работало вчера, сегодня может быть уже неактуально.

Именно это противоречие попытались устранить авторы нового бенчмарка EvoClaw.

Недостатки старых тестов ИИ

Что не так со старыми тестами?

Один из самых известных бенчмарков в области автоматического написания кода – SWE-Bench. Он построен на реальных задачах из GitHub: берётся проблема, берётся снимок репозитория на момент её появления, и ИИ-агент должен её решить. Звучит разумно.

Но со временем выяснилось несколько неудобных моментов. Во-первых, многие из этих задач уже известны – они попали в обучающие данные моделей. Агент не «решает» задачу, он, по сути, её «вспоминает». Во-вторых, бенчмарк статичен: одни и те же задачи, одни и те же репозитории. Модели начинают на него «натаскиваться», и результаты перестают отражать реальные возможности.

Проще говоря: высокий балл на SWE-Bench уже не гарантирует, что агент справится с живым проектом.

EvoClaw: динамический подход к тестированию ИИ

EvoClaw: тест, который не стоит на месте

EvoClaw – это попытка создать бенчмарк, который нельзя заучить. Главная идея: задачи для тестирования берутся из репозиториев в режиме реального времени. Как только в каком-то проекте появляется новый баг или задача – она может попасть в тест. Репозиторий при этом берётся в актуальном состоянии, а не как снимок из прошлого.

Это означает, что агент сталкивается с кодом, которого он гарантированно не видел во время обучения. Никакого «вспоминания» – только реальное решение задачи в условиях, максимально приближённых к работе живого разработчика.

Ещё один важный момент: EvoClaw отслеживает не только то, решил ли агент задачу прямо сейчас, но и то, остаётся ли его решение работоспособным по мере того, как проект продолжает развиваться. Это уже совсем другой уровень требований – агент должен писать код, который «живёт» в проекте, а не просто проходит тесты в момент проверки.

Важность EvoClaw для оценки ИИ-агентов

Почему это важно именно сейчас?

В последние месяцы ИИ-агенты для написания кода заняли заметное место в индустрии. Инструменты вроде тех, что строятся на базе последних моделей OpenAI или Anthropic, уже активно используются разработчиками – и компании наперебой рапортуют о впечатляющих результатах на бенчмарках.

Но именно здесь возникает вопрос: а что за этими цифрами стоит? Если модель набирает высокий балл на тесте, который она фактически «прошла» во время обучения, – это не показатель реальных возможностей. Это показатель хорошей памяти.

EvoClaw предлагает другой критерий: не «насколько хорошо агент знает старые задачи», а «насколько хорошо он справляется с новыми». И это различие принципиально – особенно для тех, кто всерьёз рассматривает ИИ-агентов как помощников в реальной разработке.

Первые результаты тестирования на EvoClaw

Что показали первые результаты?

Авторы EvoClaw протестировали на нём несколько современных агентов, в том числе OpenHands – открытую платформу для ИИ-агентов в разработке. Результаты оказались заметно скромнее, чем на привычных статичных тестах.

Это само по себе показательно. Не потому что агенты «плохие» – а потому что разрыв между производительностью на устаревших бенчмарках и реальными условиями оказался ощутимым. Именно такие данные нужны индустрии, чтобы двигаться в правильном направлении.

EvoClaw как постоянно обновляемая инфраструктура

Живой бенчмарк как инфраструктура

Интересная деталь: EvoClaw задуман не как разовое исследование, а как постоянно обновляемая система. Авторы планируют регулярно добавлять новые задачи из актуальных репозиториев – так что «натаскаться» на него не получится в принципе.

Это меняет саму логику оценки. Вместо того чтобы стремиться к высокому баллу на фиксированном тесте, разработчики агентов будут вынуждены создавать системы, которые действительно умеют решать незнакомые задачи в незнакомом коде. А это куда ближе к тому, чего все на самом деле хотят от ИИ-помощника в разработке.

Если коротко: EvoClaw – это попытка сдвинуть планку оценки ИИ-агентов ближе к реальности. Не «сколько баллов набрала модель», а «справится ли она с тем, чего ещё не видела». Пока это звучит как нюанс – но для индустрии, которая всё активнее внедряет таких агентов в живые проекты, это вопрос не академический, а сугубо практический.

#аналитика #методология #машинное обучение #развитие ии #инженерия #инфраструктура #бенчмарки ии #автоматизация тестирования

Ссылка на публикацию: https://openhands.dev/blog/evoclaw-benchmark

Оригинальное название: EvoClaw: Evaluating AI Agents on Continuous Software Evolution

Дата публикации: 23 мар 2026

OpenHands openhands.dev Открытый проект, развивающий ИИ-агентов для автоматизации программирования и инженерных задач.

Предыдущая статья Nvidia и безопасность ИИ-агентов: что такое OpenShell и зачем он нужен Следующая статья RAG и медленная обработка документов: как Red Hat устраняет это узкое место

EvoClaw: новый бенчмарк для проверки ИИ в реальной разработке

Недостатки старых тестов ИИ

EvoClaw: динамический подход к тестированию ИИ

Важность EvoClaw для оценки ИИ-агентов

Первые результаты тестирования на EvoClaw

EvoClaw как постоянно обновляемая инфраструктура

Связанные публикации

Cursor представил прототип системы для автономного редактирования кодовых баз

Текст больше не главное: ИИ переходит от ответов к действиям

Как OpenAI контролирует, чтобы её ИИ-агенты не «сошли с курса»

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации