Опубликовано 17 февраля 2026

SWE-fficiency: новый бенчмарк для оценки эффективности ИИ-агентов в программировании

SWE-fficiency: как оценить не только способность ИИ найти баг, но и эффективность его исправления

Новый бенчмарк проверяет, насколько быстро и точно ИИ-агенты исправляют код, а не просто находят проблемы – учитывая время, попытки и реальные условия работы.

Разработка 3 – 5 минут чтения
Источник события: OpenHands 3 – 5 минут чтения

Когда мы оцениваем способность ИИ писать или исправлять код, обычно смотрим на одно: справился ли он с задачей. Нашёл баг – хорошо, исправил – отлично. Но в реальной работе важно не только что получилось сделать, но и как: сколько времени потратил агент, сколько раз обращался к модели, какие инструменты использовал, насколько экономно расходовал ресурсы.

Именно эти вопросы – о процессе, а не только о результате – легли в основу нового бенчмарка под названием SWE-fficiency. Его создатели считают, что пора оценивать ИИ-агентов не просто по факту решения задачи, а по тому, насколько разумно они действуют в процессе.

Почему важна не только точность, но и путь к решению задач ИИ

Почему важна не только точность, но и путь к решению

Классический подход к оценке ИИ-агентов для программирования выглядит так: даём задачу, проверяем результат. Если код работает – задача решена. Но в реальных условиях это только часть картины.

Представьте: один агент находит и исправляет ошибку за три минуты, обратившись к языковой модели два раза. Другой справляется с той же задачей, но тратит полчаса и делает двадцать запросов. Формально оба выполнили работу, но очевидно, что первый подход гораздо эффективнее – и дешевле, если учитывать стоимость вызовов модели.

SWE-fficiency пытается учесть именно это. Бенчмарк оценивает не только способность агента найти решение, но и то, насколько рационально он это делает: сколько шагов совершает, сколько времени занимает выполнение, как часто обращается к модели, какие инструменты использует.

Как устроен бенчмарк SWE-fficiency для оценки ИИ-агентов

Как устроен бенчмарк

В основе SWE-fficiency лежит набор реальных задач по исправлению кода. Это не синтетические примеры, а ситуации, с которыми разработчики сталкиваются в повседневной работе: нужно найти баг, разобраться в его причине и внести изменения так, чтобы код снова заработал.

Но в отличие от традиционных бенчмарков, здесь фиксируется не только итоговый результат, но и весь процесс:

  • сколько раз агент обратился к языковой модели;
  • сколько времени занял весь процесс исправления;
  • какие инструменты использовались – редактирование файлов, запуск тестов, поиск по коду;
  • сколько попыток потребовалось, чтобы прийти к рабочему решению.

Это позволяет сравнивать агентов не просто по проценту решённых задач, а по тому, насколько они эффективны в реальных условиях. Один агент может решить 70% задач, но делать это быстро и экономно. Другой справится с 80%, но потратит в разы больше ресурсов. Какой из них лучше – зависит от контекста использования.

Что показывают первые результаты тестирования ИИ-агентов

Что показывают первые результаты

Авторы бенчмарка протестировали несколько популярных ИИ-агентов, и результаты оказались неожиданными. Выяснилось, что высокая точность решения задач не всегда означает высокую эффективность.

Некоторые агенты показывали хорошие результаты в классических бенчмарках, но при этом совершали много лишних действий: запускали тесты по несколько раз, редактировали одни и те же файлы, обращались к модели даже тогда, когда это было не обязательно. Другие работали быстрее и точнее, хотя их общая точность была чуть ниже.

Это важный сигнал: если мы хотим, чтобы ИИ-агенты стали реально полезными инструментами в разработке, недостаточно просто учить их находить правильные ответы. Нужно учить их действовать разумно, не тратя время и ресурсы впустую.

Зачем SWE-fficiency нужен разработчикам ИИ-агентов

Зачем это нужно разработчикам

Для тех, кто создаёт ИИ-агентов, SWE-fficiency даёт новую точку зрения на оценку качества. Теперь можно видеть не только итоговую цифру точности, но и понимать, как агент приходит к решению. Это помогает находить слабые места: например, если агент слишком часто обращается к модели, возможно, стоит улучшить его способность анализировать контекст. Если он тратит много времени на редактирование кода, может быть, проблема в том, как он планирует свои действия.

Для тех, кто использует агентов в работе, это тоже полезно. Выбирая инструмент, можно ориентироваться не только на то, справится ли он с задачей, но и на то, насколько быстро и экономно он это сделает. В конечном счёте это влияет и на стоимость использования, и на удобство работы.

Будущее оценки ИИ-агентов и бенчмарк SWE-fficiency

Что дальше

SWE-fficiency – это попытка сместить фокус с результата на процесс. Пока бенчмарк новый, и неясно, насколько широко его будут использовать. Но сама идея кажется логичной: если мы хотим, чтобы ИИ-агенты стали частью повседневной разработки, важно научить их работать не просто правильно, но и эффективно.

Возможно, со временем появятся и другие метрики, которые будут учитывать не только точность, но и скорость, стоимость, удобство работы. Пока же SWE-fficiency – один из первых шагов в этом направлении.

Ссылка на публикацию: https://openhands.dev/blog/20260216-swefficiency-benchmark
Оригинальное название: SWE-fficiency: Evaluating How to Fix Code, Not Just What to Fix
Дата публикации: 16 фев 2026
OpenHands openhands.dev Открытый проект, развивающий ИИ-агентов для автоматизации программирования и инженерных задач.
Предыдущая статья Как SGLang-Diffusion ускоряет генерацию видео в 8 раз Следующая статья Qwen3.5: первая модель с нативной мультимодальностью

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Исследователи Hugging Face продемонстрировали способ проверки способности языковых моделей применять инструменты непосредственно в реальной среде, а не в изолированных условиях.

Hugging Facehuggingface.co 13 фев 2026

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Hugging Facehuggingface.co 7 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться