Когда мы оцениваем способность ИИ писать или исправлять код, обычно смотрим на одно: справился ли он с задачей. Нашёл баг – хорошо, исправил – отлично. Но в реальной работе важно не только что получилось сделать, но и как: сколько времени потратил агент, сколько раз обращался к модели, какие инструменты использовал, насколько экономно расходовал ресурсы.
Именно эти вопросы – о процессе, а не только о результате – легли в основу нового бенчмарка под названием SWE-fficiency. Его создатели считают, что пора оценивать ИИ-агентов не просто по факту решения задачи, а по тому, насколько разумно они действуют в процессе.
Почему важна не только точность, но и путь к решению
Классический подход к оценке ИИ-агентов для программирования выглядит так: даём задачу, проверяем результат. Если код работает – задача решена. Но в реальных условиях это только часть картины.
Представьте: один агент находит и исправляет ошибку за три минуты, обратившись к языковой модели два раза. Другой справляется с той же задачей, но тратит полчаса и делает двадцать запросов. Формально оба выполнили работу, но очевидно, что первый подход гораздо эффективнее – и дешевле, если учитывать стоимость вызовов модели.
SWE-fficiency пытается учесть именно это. Бенчмарк оценивает не только способность агента найти решение, но и то, насколько рационально он это делает: сколько шагов совершает, сколько времени занимает выполнение, как часто обращается к модели, какие инструменты использует.
Как устроен бенчмарк
В основе SWE-fficiency лежит набор реальных задач по исправлению кода. Это не синтетические примеры, а ситуации, с которыми разработчики сталкиваются в повседневной работе: нужно найти баг, разобраться в его причине и внести изменения так, чтобы код снова заработал.
Но в отличие от традиционных бенчмарков, здесь фиксируется не только итоговый результат, но и весь процесс:
- сколько раз агент обратился к языковой модели;
- сколько времени занял весь процесс исправления;
- какие инструменты использовались – редактирование файлов, запуск тестов, поиск по коду;
- сколько попыток потребовалось, чтобы прийти к рабочему решению.
Это позволяет сравнивать агентов не просто по проценту решённых задач, а по тому, насколько они эффективны в реальных условиях. Один агент может решить 70% задач, но делать это быстро и экономно. Другой справится с 80%, но потратит в разы больше ресурсов. Какой из них лучше – зависит от контекста использования.
Что показывают первые результаты
Авторы бенчмарка протестировали несколько популярных ИИ-агентов, и результаты оказались неожиданными. Выяснилось, что высокая точность решения задач не всегда означает высокую эффективность.
Некоторые агенты показывали хорошие результаты в классических бенчмарках, но при этом совершали много лишних действий: запускали тесты по несколько раз, редактировали одни и те же файлы, обращались к модели даже тогда, когда это было не обязательно. Другие работали быстрее и точнее, хотя их общая точность была чуть ниже.
Это важный сигнал: если мы хотим, чтобы ИИ-агенты стали реально полезными инструментами в разработке, недостаточно просто учить их находить правильные ответы. Нужно учить их действовать разумно, не тратя время и ресурсы впустую.
Зачем это нужно разработчикам
Для тех, кто создаёт ИИ-агентов, SWE-fficiency даёт новую точку зрения на оценку качества. Теперь можно видеть не только итоговую цифру точности, но и понимать, как агент приходит к решению. Это помогает находить слабые места: например, если агент слишком часто обращается к модели, возможно, стоит улучшить его способность анализировать контекст. Если он тратит много времени на редактирование кода, может быть, проблема в том, как он планирует свои действия.
Для тех, кто использует агентов в работе, это тоже полезно. Выбирая инструмент, можно ориентироваться не только на то, справится ли он с задачей, но и на то, насколько быстро и экономно он это сделает. В конечном счёте это влияет и на стоимость использования, и на удобство работы.
Что дальше
SWE-fficiency – это попытка сместить фокус с результата на процесс. Пока бенчмарк новый, и неясно, насколько широко его будут использовать. Но сама идея кажется логичной: если мы хотим, чтобы ИИ-агенты стали частью повседневной разработки, важно научить их работать не просто правильно, но и эффективно.
Возможно, со временем появятся и другие метрики, которые будут учитывать не только точность, но и скорость, стоимость, удобство работы. Пока же SWE-fficiency – один из первых шагов в этом направлении.