Опубликовано 17 февраля 2026

SWE-fficiency: новый бенчмарк для оценки эффективности ИИ-агентов в программировании

SWE-fficiency: как оценить не только способность ИИ найти баг, но и эффективность его исправления

Новый бенчмарк проверяет, насколько быстро и точно ИИ-агенты исправляют код, а не просто находят проблемы – учитывая время, попытки и реальные условия работы.

Разработка 3 – 5 минут чтения
Источник события: OpenHands 3 – 5 минут чтения

Когда мы оцениваем способность ИИ писать или исправлять код, обычно смотрим на одно: справился ли он с задачей. Нашёл баг – хорошо, исправил – отлично. Но в реальной работе важно не только что получилось сделать, но и как: сколько времени потратил агент, сколько раз обращался к модели, какие инструменты использовал, насколько экономно расходовал ресурсы.

Именно эти вопросы – о процессе, а не только о результате – легли в основу нового бенчмарка под названием SWE-fficiency. Его создатели считают, что пора оценивать ИИ-агентов не просто по факту решения задачи, а по тому, насколько разумно они действуют в процессе.

Почему важна не только точность, но и путь к решению задач ИИ

Почему важна не только точность, но и путь к решению

Классический подход к оценке ИИ-агентов для программирования выглядит так: даём задачу, проверяем результат. Если код работает – задача решена. Но в реальных условиях это только часть картины.

Представьте: один агент находит и исправляет ошибку за три минуты, обратившись к языковой модели два раза. Другой справляется с той же задачей, но тратит полчаса и делает двадцать запросов. Формально оба выполнили работу, но очевидно, что первый подход гораздо эффективнее – и дешевле, если учитывать стоимость вызовов модели.

SWE-fficiency пытается учесть именно это. Бенчмарк оценивает не только способность агента найти решение, но и то, насколько рационально он это делает: сколько шагов совершает, сколько времени занимает выполнение, как часто обращается к модели, какие инструменты использует.

Как устроен бенчмарк SWE-fficiency для оценки ИИ-агентов

Как устроен бенчмарк

В основе SWE-fficiency лежит набор реальных задач по исправлению кода. Это не синтетические примеры, а ситуации, с которыми разработчики сталкиваются в повседневной работе: нужно найти баг, разобраться в его причине и внести изменения так, чтобы код снова заработал.

Но в отличие от традиционных бенчмарков, здесь фиксируется не только итоговый результат, но и весь процесс:

  • сколько раз агент обратился к языковой модели;
  • сколько времени занял весь процесс исправления;
  • какие инструменты использовались – редактирование файлов, запуск тестов, поиск по коду;
  • сколько попыток потребовалось, чтобы прийти к рабочему решению.

Это позволяет сравнивать агентов не просто по проценту решённых задач, а по тому, насколько они эффективны в реальных условиях. Один агент может решить 70% задач, но делать это быстро и экономно. Другой справится с 80%, но потратит в разы больше ресурсов. Какой из них лучше – зависит от контекста использования.

Что показывают первые результаты тестирования ИИ-агентов

Что показывают первые результаты

Авторы бенчмарка протестировали несколько популярных ИИ-агентов, и результаты оказались неожиданными. Выяснилось, что высокая точность решения задач не всегда означает высокую эффективность.

Некоторые агенты показывали хорошие результаты в классических бенчмарках, но при этом совершали много лишних действий: запускали тесты по несколько раз, редактировали одни и те же файлы, обращались к модели даже тогда, когда это было не обязательно. Другие работали быстрее и точнее, хотя их общая точность была чуть ниже.

Это важный сигнал: если мы хотим, чтобы ИИ-агенты стали реально полезными инструментами в разработке, недостаточно просто учить их находить правильные ответы. Нужно учить их действовать разумно, не тратя время и ресурсы впустую.

Зачем SWE-fficiency нужен разработчикам ИИ-агентов

Зачем это нужно разработчикам

Для тех, кто создаёт ИИ-агентов, SWE-fficiency даёт новую точку зрения на оценку качества. Теперь можно видеть не только итоговую цифру точности, но и понимать, как агент приходит к решению. Это помогает находить слабые места: например, если агент слишком часто обращается к модели, возможно, стоит улучшить его способность анализировать контекст. Если он тратит много времени на редактирование кода, может быть, проблема в том, как он планирует свои действия.

Для тех, кто использует агентов в работе, это тоже полезно. Выбирая инструмент, можно ориентироваться не только на то, справится ли он с задачей, но и на то, насколько быстро и экономно он это сделает. В конечном счёте это влияет и на стоимость использования, и на удобство работы.

Будущее оценки ИИ-агентов и бенчмарк SWE-fficiency

Что дальше

SWE-fficiency – это попытка сместить фокус с результата на процесс. Пока бенчмарк новый, и неясно, насколько широко его будут использовать. Но сама идея кажется логичной: если мы хотим, чтобы ИИ-агенты стали частью повседневной разработки, важно научить их работать не просто правильно, но и эффективно.

Возможно, со временем появятся и другие метрики, которые будут учитывать не только точность, но и скорость, стоимость, удобство работы. Пока же SWE-fficiency – один из первых шагов в этом направлении.

Ссылка на публикацию: https://openhands.dev/blog/20260216-swefficiency-benchmark
Оригинальное название: SWE-fficiency: Evaluating How to Fix Code, Not Just What to Fix
Дата публикации: 16 фев 2026
OpenHands openhands.dev Открытый проект, развивающий ИИ-агентов для автоматизации программирования и инженерных задач.
Предыдущая статья Как SGLang-Diffusion ускоряет генерацию видео в 8 раз Следующая статья Qwen3.5: первая модель с нативной мультимодальностью

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Исследователи Hugging Face продемонстрировали способ проверки способности языковых моделей применять инструменты непосредственно в реальной среде, а не в изолированных условиях.

Hugging Facehuggingface.co 13 фев 2026

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Hugging Facehuggingface.co 7 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться