Люди постоянно просят чат-ботов объяснить, как что-то сделать. Починить кран, заполнить налоговую декларацию, попросить прибавку к зарплате – по некоторым оценкам, примерно 8,5% всех диалогов с ChatGPT – это именно такие запросы пошаговых инструкций.
И чем сложнее становятся задачи, которые берут на себя ИИ-системы, тем важнее становится способность генерировать надёжные инструкции. Но тут есть серьёзная проблема.
Инструкции нельзя протестировать в лаборатории
Как понять, сработают ли инструкции от ИИ? В обычном тестовом окружении это не проверишь – никто не будет подавать на развод или переделывать проводку в квартире только ради того, чтобы убедиться, что шаги корректны. А поверхностное сравнение с эталоном не выявляет те ошибки, которые имеют значение: пропущенное обязательное условие или неправильный порядок действий, из-за которого весь процесс развалится.
Именно поэтому Allen AI выпустил How2Everything – фреймворк для оценки и улучшения того, насколько хорошо модели генерируют пошаговые инструкции. В него входит целый пайплайн для извлечения реальных инструкций из сети (351 тысяча примеров из почти миллиона страниц по 14 темам), бенчмарк на 7 тысяч примеров для тестирования моделей и открытая оценочная модель, которая проверяет, есть ли в инструкции критические ошибки, мешающие человеку достичь цели.
Эксперименты показали: если обучать модели, ориентируясь на этот сигнал – то есть поощрять инструкции с меньшим количеством критических сбоев, – их производительность на бенчмарке How2Bench вырастает более чем на 10 пунктов, и при этом способности в других задачах не деградируют.
Веб как источник данных для сложных задач
Проект показывает, как данные из веба могут поддерживать замкнутый цикл оценки и улучшения способностей модели в масштабе. Сеть предоставляет практически неисчерпаемый запас открытых, естественно возникающих документов реального мира, которые могут служить опорными точками, когда верификация через выполнение невозможна.
Извлекая и стандартизируя эти данные в проверяемый формат и разрабатывая протокол оценки, который нацелен на валидность на уровне задачи и может быть воспроизведён в масштабе, команда превратила трудноизмеримое поведение в практическую петлю разработки.
Что не так с существующими бенчмарками
Процедурные инструкции важны везде – например, в агентах планирование и использование инструментов зависят от правильной последовательности действий. Но существующие датасеты часто ограничены по области применения, источнику данных или метрикам, которые не отражают, сработает ли процедура на практике. How2Everything спроектирован так, чтобы быть широким, масштабируемым и сосредоточенным на реальной валидности.
How2Everything состоит из трёх основных компонентов: How2Mine – пайплайн для извлечения процедур из веба, How2Bench – бенчмарк для оценки моделей, и How2Score – метод оценки и открытая модель-судья How2Judge. Также команда выпускает тренировочные данные и рецепты для прямого улучшения моделей.
How2Mine – это пайплайн для извлечения и стандартизации процедур с веб-страниц в масштабе. Он начинается с корпуса DCLM, использует WebOrganizer для идентификации страниц в стиле туториалов, затем применяет стратифицированную выборку, чтобы обеспечить разнообразие по 14 темам – от искусства и дизайна до юриспруденции, электроники и транспорта.
Затем пайплайн использует GPT-4.1 для обработки этих страниц в несколько этапов: извлечение кандидатов-процедур из сырого HTML, фильтрация процедур, зависящих от интерфейса, нелогичных или бессмысленных, применение эвристик (остаются только те, где от 5 до 15 шагов), извлечение списков ресурсов и финальная валидация.
Прогон How2Mine через 980 тысяч документов даёт 351 162 структурированные процедуры, каждая с темой, целью, списком необходимых ресурсов и эталонными шагами. Обработка в таком масштабе потребовала 252 тысячи вызовов API стоимостью около 5700 долларов.
Даже после фильтрации не каждая эталонная процедура идеальна. Для проверки качества команда валидировала эталоны бенчмарка с помощью GPT-4.1, который оценил 96,6% из них как валидные.
How2Bench – это бенчмарк для тестирования того, насколько хорошо модели генерируют процедуры. Он построен путём выборки по 500 процедур на каждую тему из пула How2Mine, остальные процедуры зарезервированы для обучения.
Чтобы оценить модель, How2Bench предоставляет цель (например, «поменять спущенное колесо»), список доступных ресурсов и количество шагов N, которое должна содержать процедура. Модель должна затем сгенерировать ровно N шагов, по одному предложению на каждый. Такая контролируемая настройка делает результаты сравнимыми между моделями.
В отличие от многих бенчмарков, которые быстро насыщаются по мере развития моделей, How2Bench показывает чёткие тренды масштабирования как по размеру модели, так и по прогрессу обучения – это делает его полезным для отслеживания улучшений задолго до того, как модель достигнет передовой производительности.
How2Score: не «кажется ли это полезным», а «сработает ли»
How2Score – метод оценки, разработанный для измерения того, сработает ли процедура на практике, а не просто звучит ли она убедительно.
Конкретно How2Score проверяет, содержит ли процедура критический сбой, который помешает человеку достичь цели. Критические сбои включают пропущенные шаги, ненужные действия, которые сорвут процесс, противоречия или расплывчатость настолько серьёзную, что процедура становится непригодной для использования – например, пропуск юридически обязательного периода ожидания при продаже недвижимости или отсутствие критически важных температур и времени приготовления.
Использовать для этого проприетарную модель вроде GPT-5 точно, но дорого в масштабе, и это затрудняет воспроизводимость результатов – оценка 7 тысяч примеров с GPT-5 стоит около 15 долларов.
Чтобы сделать How2Score практичным для широкого использования, команда провела дистилляцию и создала открытую модель-судью How2Judge. Сначала они валидировали свой фреймворк оценки критических сбоев против человеческой разметки – 200 примеров, размеченных тремя аннотаторами. Затем использовали GPT-5 для генерации 73 тысяч оценок и обучили открытую модель на 8 миллиардов параметров на базе Qwen 3 воспроизводить эти решения.
Получившаяся модель-судья согласуется с GPT-5 в 90,5% случаев и совпадает с большинством человеческих оценок в 80,5% случаев – достаточно точно, чтобы обеспечить недорогую, воспроизводимую оценку и служить сигналом вознаграждения для обучения.
How2Everything – это не просто фреймворк оценки, он также предназначен для помощи в улучшении моделей. Подмножество процедур из How2Mine может служить обучающими данными, а судья How2Score предоставляет сигнал вознаграждения. Процедуры с меньшим количеством критических сбоев получают более высокие оценки на How2Bench.
Фреймворк даёт существенный прирост в генерации валидных пошаговых процедур, измеряемый How2Bench. Qwen3-4B-Inst улучшился с 30,3 до 43,5 (+13,2 пункта), Qwen3-8B-Inst – с 38,5 до 48,6 (+10,1), а Olmo 3 7B Think – с 27,3 до 37,9 (+10,6). Важно, что эти улучшения не идут в ущерб другим способностям – результаты на 12 внедоменных бенчмарках не показывают систематической деградации.
Длина имеет значение
Одно важное наблюдение: явный контроль длины важен во время обучения. Без него модели учатся «обманывать» судью, выдавая более длинные и многословные результаты. Эксперимент показал раздутые баллы How2Bench в сочетании с гораздо более длинными процедурами, когда контроль длины убирается – это полезное напоминание, что настройка «LLM как судья» требует тщательного проектирования.
Что выпустили
Команда выпускает весь код и данные, связанные с How2Everything, включая пайплайн How2Mine и промпты, полный датасет из 351 тысячи процедур и разбиение How2Bench, дистиллированного судью How2Score (8B) и рецепты для дообучения с How2Score в качестве вознаграждения.
Если вы строите системы следования инструкциям, агентов, использующих инструменты, или что-либо, что зависит от надёжных пошаговых руководств, How2Everything позволяет проверить, будут ли процедуры вашей модели действительно работать, и обучать её напрямую для уменьшения критических сбоев.