Опубликовано

Open Coding Agents: ИИ-помощники для кода, работающие с любым репозиторием

Allen Institute for AI представил Open Coding Agents – открытые модели для автономной работы с кодом, которые адаптируются к структуре проекта.

Технический контекст Разработка
Источник события: Ai2 Время чтения: 5 – 7 минут

Allen Institute for AI выпустил Open Coding Agents – набор открытых моделей, способных самостоятельно работать с кодом в реальных репозиториях. Если коротко: это ИИ-агенты, которые могут исправлять баги, добавлять функции или рефакторить код, причём делают это не в изоляции, а с учётом всей структуры проекта.

Что это за агенты и зачем они нужны

Coding agents – это не просто автодополнение в редакторе. Это системы, которые получают задачу на естественном языке, анализируют кодовую базу, самостоятельно решают, что и где нужно изменить, вносят правки и проверяют результат. Проще говоря, они работают как младший разработчик: читают код, понимают контекст, вносят изменения.

До сих пор большинство таких агентов были либо закрытыми (как GitHub Copilot Workspace), либо строились на базе проприетарных моделей вроде GPT-4 или Claude. Open Coding Agents – это попытка предоставить сообществу полностью открытую альтернативу, которую можно запускать локально, дообучать под свои задачи и интегрировать в рабочие процессы.

Три модели для разных сценариев

Команда Allen AI выпустила три варианта агентов, каждый со своими особенностями:

  • OCA-Qwen-14B – самая лёгкая модель, построенная на базе Qwen2.5-Coder-14B. Работает быстро, подходит для запуска на обычном оборудовании, но уступает в точности более крупным версиям.
  • OCA-Llama-70B – средний вариант на основе Llama-3.1-70B. Это баланс между скоростью и качеством, хороший выбор для большинства задач.
  • OCA-DeepSeek-R1-671B – самая мощная версия, использующая DeepSeek-R1-671B. Показывает результаты, сопоставимые с топовыми закрытыми моделями, но требует серьёзных вычислительных ресурсов.

Все три модели обучались на одних и тех же данных, но разница в архитектуре и размере даёт различные результаты. Это позволяет выбирать: либо скорость и доступность, либо максимальная точность.

Как они работают внутри

Open Coding Agents используют подход, который называется agentic workflow (агентский рабочий процесс). Это значит, что модель не просто генерирует код одним махом – она действует итеративно:

  1. Читает описание задачи.
  2. Анализирует репозиторий: находит нужные файлы, изучает зависимости, понимает архитектуру.
  3. Планирует изменения.
  4. Вносит правки в код.
  5. Запускает тесты или проверяет результат.
  6. Если что-то пошло не так – корректирует и повторяет.

Для навигации по коду агенты используют инструменты поиска и анализа структуры проекта. Например, они могут найти все места, где используется определённая функция, или понять, как модули связаны между собой. Это критически важно для работы с реальными репозиториями, где контекст может быть разбросан по десяткам файлов.

Результаты на бенчмарках

Команда протестировала агентов на нескольких популярных наборах данных для оценки работы с кодом:

  • SWE-Bench Verified – набор реальных задач из GitHub issues, где нужно исправить баг или добавить функцию. OCA-DeepSeek-R1 решил 48% задач, что близко к результатам лучших закрытых систем.
  • RepoQA – тест на понимание структуры репозитория. Здесь Open Coding Agents показали точность около 85%, что говорит о хорошей способности ориентироваться в чужом коде.
  • SWE-Bench Lite – упрощённая версия SWE-Bench. На ней OCA-Llama-70B справился с 35% задач, что неплохо для модели такого размера.

Для сравнения: закрытые системы вроде Claude Sonnet 3.5 или GPT-4o показывают результаты в районе 50-55% на SWE-Bench Verified. То есть разрыв есть, но он не катастрофический, особенно учитывая, что Open Coding Agents можно запускать локально и дообучать.

Где это можно использовать

Открытые агенты для работы с кодом – это не замена разработчику, но полезный инструмент для рутинных задач:

  • Рефакторинг – агент может переписать устаревший код под новые стандарты или привести проект к единому стилю.
  • Исправление багов – если есть чёткое описание проблемы, агент попытается найти причину и предложить исправление (fix).
  • Добавление простых функций – например, новый API endpoint (конечная точка API) или утилитарная функция, которая логически вписывается в существующую архитектуру.
  • Обучение и документирование – агент может анализировать код и генерировать комментарии или документацию.

Важный момент: агенты хорошо справляются с задачами, где контекст понятен и структура репозитория относительно стандартна. В сложных случаях – например, при работе с Legacy-кодом (устаревшим кодом) или нестандартными архитектурами – точность падает.

Открытость как преимущество

Главное отличие Open Coding Agents от коммерческих аналогов – полная открытость. Модели, код обучения, наборы данных – всё доступно под открытыми лицензиями. Это даёт несколько важных возможностей:

  • Локальный запуск – можно развернуть агента на своём оборудовании, не отправляя код на внешние серверы. Это критично для компаний, работающих с чувствительными данными.
  • Дообучение – модель можно дообучить на внутренних репозиториях, чтобы она лучше понимала специфику вашего проекта.
  • Исследования – академическое сообщество получает возможность изучать, как работают агенты для кода, и улучшать их.

Кроме того, открытость снимает зависимость от API-провайдеров. Вы не привязаны к лимитам запросов, ценовым изменениям или политике использования.

Что остаётся под вопросом

Open Coding Agents – это хороший шаг, но не панацея. Есть несколько моментов, которые стоит учитывать:

  • Точность – даже самая крупная версия (OCA-DeepSeek-R1) пока уступает лучшим закрытым моделям. Разрыв небольшой, но для критичных задач это может быть важно.
  • Вычислительные требования – модель на 671B параметров требует мощного оборудования. Для индивидуальных разработчиков или небольших команд это может быть барьером.
  • Контекстные ограничения – агенты хорошо работают с относительно простыми задачами и понятной структурой проекта. В сложных случаях они могут ошибаться или не понимать контекст.
  • Безопасность – как и любой ИИ, агенты могут генерировать код с уязвимостями. Проверка результата всё ещё нужна.

Также неясно, как агенты будут вести себя на проектах с нестандартными инструментами или специфическими требованиями. Бенчмарки – это одно, а реальная работа с Legacy-кодом (устаревшим кодом) или экзотическими фреймворками – совсем другое.

Что дальше

Allen AI планирует продолжать развитие Open Coding Agents. В планах – улучшение качества на сложных задачах, поддержка большего числа языков программирования и оптимизация для более лёгкого оборудования. Также команда работает над улучшением способности агентов понимать неявный контекст и работать с многомодульными проектами.

Для сообщества это возможность экспериментировать с агентами для кода, не завися от закрытых систем. Для компаний – вариант внедрить автоматизацию работы с кодом, не отправляя данные на сторонние серверы. Для исследователей – база для дальнейших экспериментов.

Open Coding Agents не совершают революцию, но делают кодовых агентов более доступными. И это уже само по себе значимо.

Ссылка на публикацию: https://allenai.org/blog/open-coding-agents
Оригинальное название: Open Coding Agents: Fast, accessible coding agents that adapt to any repo
Дата публикации: 27 янв 2026
Ai2allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.
Предыдущая статья Mistral выпустила Vibe 2.0 – модель, которая понимает изображения и видео Следующая статья Как индексировать огромные репозитории за секунды, а не часы

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться