Большинство тестов для ИИ-агентов устроены примерно одинаково: берётся задача, даётся фиксированная кодовая база, и модель пытается что-то исправить или написать. Если справилась – зачёт. Но есть одна проблема: реальный код не стоит на месте. Репозитории обновляются, зависимости меняются, задачи появляются и закрываются – и то, что работало вчера, сегодня может быть уже неактуально.
Именно это противоречие попытались устранить авторы нового бенчмарка EvoClaw.
Что не так со старыми тестами?
Один из самых известных бенчмарков в области автоматического написания кода – SWE-Bench. Он построен на реальных задачах из GitHub: берётся проблема, берётся снимок репозитория на момент её появления, и ИИ-агент должен её решить. Звучит разумно.
Но со временем выяснилось несколько неудобных моментов. Во-первых, многие из этих задач уже известны – они попали в обучающие данные моделей. Агент не «решает» задачу, он, по сути, её «вспоминает». Во-вторых, бенчмарк статичен: одни и те же задачи, одни и те же репозитории. Модели начинают на него «натаскиваться», и результаты перестают отражать реальные возможности.
Проще говоря: высокий балл на SWE-Bench уже не гарантирует, что агент справится с живым проектом.
EvoClaw: тест, который не стоит на месте
EvoClaw – это попытка создать бенчмарк, который нельзя заучить. Главная идея: задачи для тестирования берутся из репозиториев в режиме реального времени. Как только в каком-то проекте появляется новый баг или задача – она может попасть в тест. Репозиторий при этом берётся в актуальном состоянии, а не как снимок из прошлого.
Это означает, что агент сталкивается с кодом, которого он гарантированно не видел во время обучения. Никакого «вспоминания» – только реальное решение задачи в условиях, максимально приближённых к работе живого разработчика.
Ещё один важный момент: EvoClaw отслеживает не только то, решил ли агент задачу прямо сейчас, но и то, остаётся ли его решение работоспособным по мере того, как проект продолжает развиваться. Это уже совсем другой уровень требований – агент должен писать код, который «живёт» в проекте, а не просто проходит тесты в момент проверки.
Почему это важно именно сейчас?
В последние месяцы ИИ-агенты для написания кода заняли заметное место в индустрии. Инструменты вроде тех, что строятся на базе последних моделей OpenAI или Anthropic, уже активно используются разработчиками – и компании наперебой рапортуют о впечатляющих результатах на бенчмарках.
Но именно здесь возникает вопрос: а что за этими цифрами стоит? Если модель набирает высокий балл на тесте, который она фактически «прошла» во время обучения, – это не показатель реальных возможностей. Это показатель хорошей памяти.
EvoClaw предлагает другой критерий: не «насколько хорошо агент знает старые задачи», а «насколько хорошо он справляется с новыми». И это различие принципиально – особенно для тех, кто всерьёз рассматривает ИИ-агентов как помощников в реальной разработке.
Что показали первые результаты?
Авторы EvoClaw протестировали на нём несколько современных агентов, в том числе OpenHands – открытую платформу для ИИ-агентов в разработке. Результаты оказались заметно скромнее, чем на привычных статичных тестах.
Это само по себе показательно. Не потому что агенты «плохие» – а потому что разрыв между производительностью на устаревших бенчмарках и реальными условиями оказался ощутимым. Именно такие данные нужны индустрии, чтобы двигаться в правильном направлении.
Живой бенчмарк как инфраструктура
Интересная деталь: EvoClaw задуман не как разовое исследование, а как постоянно обновляемая система. Авторы планируют регулярно добавлять новые задачи из актуальных репозиториев – так что «натаскаться» на него не получится в принципе.
Это меняет саму логику оценки. Вместо того чтобы стремиться к высокому баллу на фиксированном тесте, разработчики агентов будут вынуждены создавать системы, которые действительно умеют решать незнакомые задачи в незнакомом коде. А это куда ближе к тому, чего все на самом деле хотят от ИИ-помощника в разработке.
Если коротко: EvoClaw – это попытка сдвинуть планку оценки ИИ-агентов ближе к реальности. Не «сколько баллов набрала модель», а «справится ли она с тем, чего ещё не видела». Пока это звучит как нюанс – но для индустрии, которая всё активнее внедряет таких агентов в живые проекты, это вопрос не академический, а сугубо практический.