Опубликовано

Как Cursor улучшили свой ИИ-отладчик

Команда Cursor рассказала, как они совершенствовали Bugbot – инструмент для автоматического исправления багов – с помощью специальной метрики на базе искусственного интеллекта.

Источник события: Cursor AI Время чтения: 3 – 4 минуты

У команды Cursor есть инструмент под названием Bugbot. Его задача – автоматически искать и исправлять баги в коде. Звучит просто, но на практике такие системы сложно оценивать и улучшать. Обычные метрики вроде «сколько тестов прошло» не всегда показывают реальное качество работы.

Недавно они поделились тем, как решили эту проблему: создали собственную метрику на основе ИИ и использовали её для систематического улучшения Bugbot.

Проблема оценки качества исправлений

Когда бот исправляет баг, нужно понять: действительно ли это хорошее исправление? Можно проверить, проходят ли после этого тесты. Но тесты не всегда есть, и они не всегда покрывают все важные аспекты.

Можно привлечь людей для оценки – но это медленно и дорого. Особенно если вы экспериментируете и хотите быстро проверять десятки вариантов.

В Cursor решили, что нужна автоматическая метрика, которая будет оценивать исправления почти так же, как это делал бы опытный разработчик.

Метрика на основе ИИ

Они построили специальную модель, которая смотрит на исправление и выставляет оценку: насколько хорошо бот справился с задачей. Проще говоря, один ИИ проверяет работу другого.

Эта метрика учитывает не только факт исправления, но и качество кода, полноту решения, возможные побочные эффекты. То есть она пытается имитировать то, как человек оценивал бы результат.

Конечно, такая метрика не идеальна. Но если она достаточно хорошо коррелирует с человеческими оценками, её можно использовать для быстрых экспериментов.

Как это помогло улучшить Bugbot

С появлением этой метрики процесс улучшения стал более управляемым. Раньше было сложно понять, какие изменения в системе действительно помогают, а какие – нет. Теперь можно запустить тест, получить числовую оценку и сравнить разные подходы.

Команда начала систематически проверять гипотезы: менять промпты, настраивать параметры модели, экспериментировать с контекстом, который передаётся боту. После каждого изменения метрика показывала, стало лучше или хуже.

Такой подход позволил найти несколько важных улучшений, которые иначе могли бы остаться незамеченными.

Что это значит для разработки ИИ-инструментов

История с Bugbot – хороший пример того, как можно ускорить разработку сложных ИИ-систем. Когда у вас есть надёжная метрика, вы можете экспериментировать быстрее и увереннее.

Это особенно важно для инструментов, которые работают с кодом. Там качество результата часто неочевидно, и нельзя просто посчитать точность или полноту.

Подход с кастомными метриками на базе ИИ может быть полезен не только для отладки багов, но и для других задач: генерации кода, рефакторинга, автоматических ревью.

Открытые вопросы

Остаётся несколько интересных моментов. Во-первых, насколько точно такая метрика соответствует реальным предпочтениям пользователей? ИИ может научиться оценивать код по определённым критериям, но всегда есть риск, что он упустит что-то важное или, наоборот, переоценит формальные аспекты.

Во-вторых, как обучать и калибровать такую метрику? Скорее всего, нужен какой-то набор эталонных примеров, размеченных людьми. Это требует времени и усилий, хотя всё равно меньше, чем постоянная ручная оценка каждого эксперимента.

Но в целом идея выглядит разумной: использовать ИИ не только как рабочий инструмент, но и как способ измерения качества других ИИ-систем.

Ссылка на публикацию: https://cursor.com/blog/building-bugbot
Оригинальное название: Building a better Bugbot
Дата публикации: 15 янв 2026
Cursor AIcursor.com Американский ИИ-редактор кода, помогающий разработчикам писать и анализировать программы.
Предыдущая статья Open Responses: что нужно знать о новом формате взаимодействия ИИ и человека Следующая статья Скучное – это не просто: почему предсказуемый результат работы ИИ – это настоящее достижение

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться