Опубликовано 12 февраля 2026

Фреймворк How2Everything для оценки и улучшения пошаговых инструкций нейросетей

How2Everything: когда инструкции чат-бота должны действительно работать

Allen Institute for AI выпустил фреймворк для оценки и улучшения способности языковых моделей генерировать пошаговые инструкции, которые реально помогают достичь цели.

Разработка 5 – 8 минут чтения

Источник события: Ai2 5 – 8 минут чтения

Люди постоянно просят чат-ботов объяснить, как что-то сделать. Починить кран, заполнить налоговую декларацию, попросить прибавку к зарплате – по некоторым оценкам, примерно 8,5% всех диалогов с ChatGPT – это именно такие запросы пошаговых инструкций.

И чем сложнее становятся задачи, которые берут на себя ИИ-системы, тем важнее становится способность генерировать надёжные инструкции. Но тут есть серьёзная проблема.

Проблема верификации пошаговых руководств в обучении ИИ

Инструкции нельзя протестировать в лаборатории

Как понять, сработают ли инструкции от ИИ? В обычном тестовом окружении это не проверишь – никто не будет подавать на развод или переделывать проводку в квартире только ради того, чтобы убедиться, что шаги корректны. А поверхностное сравнение с эталоном не выявляет те ошибки, которые имеют значение: пропущенное обязательное условие или неправильный порядок действий, из-за которого весь процесс развалится.

Именно поэтому Allen AI выпустил How2Everything – фреймворк для оценки и улучшения того, насколько хорошо модели генерируют пошаговые инструкции. В него входит целый пайплайн для извлечения реальных инструкций из сети (351 тысяча примеров из почти миллиона страниц по 14 темам), бенчмарк на 7 тысяч примеров для тестирования моделей и открытая оценочная модель, которая проверяет, есть ли в инструкции критические ошибки, мешающие человеку достичь цели.

Эксперименты показали: если обучать модели, ориентируясь на этот сигнал – то есть поощрять инструкции с меньшим количеством критических сбоев, – их производительность на бенчмарке How2Bench вырастает более чем на 10 пунктов, и при этом способности в других задачах не деградируют.

Использование данных из интернета для обучения языковых моделей

Веб как источник данных для сложных задач

Проект показывает, как данные из веба могут поддерживать замкнутый цикл оценки и улучшения способностей модели в масштабе. Сеть предоставляет практически неисчерпаемый запас открытых, естественно возникающих документов реального мира, которые могут служить опорными точками, когда верификация через выполнение невозможна.

Извлекая и стандартизируя эти данные в проверяемый формат и разрабатывая протокол оценки, который нацелен на валидность на уровне задачи и может быть воспроизведён в масштабе, команда превратила трудноизмеримое поведение в практическую петлю разработки.

Ограничения текущих наборов данных для оценки процедурных знаний

Что не так с существующими бенчмарками

Процедурные инструкции важны везде – например, в агентах планирование и использование инструментов зависят от правильной последовательности действий. Но существующие датасеты часто ограничены по области применения, источнику данных или метрикам, которые не отражают, сработает ли процедура на практике. How2Everything спроектирован так, чтобы быть широким, масштабируемым и сосредоточенным на реальной валидности.

How2Everything состоит из трёх основных компонентов: How2Mine – пайплайн для извлечения процедур из веба, How2Bench – бенчмарк для оценки моделей, и How2Score – метод оценки и открытая модель-судья How2Judge. Также команда выпускает тренировочные данные и рецепты для прямого улучшения моделей.

Как устроен How2Mine

How2Mine – это пайплайн для извлечения и стандартизации процедур с веб-страниц в масштабе. Он начинается с корпуса DCLM, использует WebOrganizer для идентификации страниц в стиле туториалов, затем применяет стратифицированную выборку, чтобы обеспечить разнообразие по 14 темам – от искусства и дизайна до юриспруденции, электроники и транспорта.

Затем пайплайн использует GPT-4.1 для обработки этих страниц в несколько этапов: извлечение кандидатов-процедур из сырого HTML, фильтрация процедур, зависящих от интерфейса, нелогичных или бессмысленных, применение эвристик (остаются только те, где от 5 до 15 шагов), извлечение списков ресурсов и финальная валидация.

Прогон How2Mine через 980 тысяч документов даёт 351 162 структурированные процедуры, каждая с темой, целью, списком необходимых ресурсов и эталонными шагами. Обработка в таком масштабе потребовала 252 тысячи вызовов API стоимостью около 5700 долларов.

Даже после фильтрации не каждая эталонная процедура идеальна. Для проверки качества команда валидировала эталоны бенчмарка с помощью GPT-4.1, который оценил 96,6% из них как валидные.

How2Bench: проверка на практическую пользу

How2Bench – это бенчмарк для тестирования того, насколько хорошо модели генерируют процедуры. Он построен путём выборки по 500 процедур на каждую тему из пула How2Mine, остальные процедуры зарезервированы для обучения.

Чтобы оценить модель, How2Bench предоставляет цель (например, «поменять спущенное колесо»), список доступных ресурсов и количество шагов N, которое должна содержать процедура. Модель должна затем сгенерировать ровно N шагов, по одному предложению на каждый. Такая контролируемая настройка делает результаты сравнимыми между моделями.

В отличие от многих бенчмарков, которые быстро насыщаются по мере развития моделей, How2Bench показывает чёткие тренды масштабирования как по размеру модели, так и по прогрессу обучения – это делает его полезным для отслеживания улучшений задолго до того, как модель достигнет передовой производительности.

Методика How2Score для выявления критических ошибок в ответах ИИ

How2Score: не «кажется ли это полезным», а «сработает ли»

How2Score – метод оценки, разработанный для измерения того, сработает ли процедура на практике, а не просто звучит ли она убедительно.

Конкретно How2Score проверяет, содержит ли процедура критический сбой, который помешает человеку достичь цели. Критические сбои включают пропущенные шаги, ненужные действия, которые сорвут процесс, противоречия или расплывчатость настолько серьёзную, что процедура становится непригодной для использования – например, пропуск юридически обязательного периода ожидания при продаже недвижимости или отсутствие критически важных температур и времени приготовления.

Использовать для этого проприетарную модель вроде GPT-5 точно, но дорого в масштабе, и это затрудняет воспроизводимость результатов – оценка 7 тысяч примеров с GPT-5 стоит около 15 долларов.

Чтобы сделать How2Score практичным для широкого использования, команда провела дистилляцию и создала открытую модель-судью How2Judge. Сначала они валидировали свой фреймворк оценки критических сбоев против человеческой разметки – 200 примеров, размеченных тремя аннотаторами. Затем использовали GPT-5 для генерации 73 тысяч оценок и обучили открытую модель на 8 миллиардов параметров на базе Qwen 3 воспроизводить эти решения.

Получившаяся модель-судья согласуется с GPT-5 в 90,5% случаев и совпадает с большинством человеческих оценок в 80,5% случаев – достаточно точно, чтобы обеспечить недорогую, воспроизводимую оценку и служить сигналом вознаграждения для обучения.

Улучшение моделей через How2Everything

How2Everything – это не просто фреймворк оценки, он также предназначен для помощи в улучшении моделей. Подмножество процедур из How2Mine может служить обучающими данными, а судья How2Score предоставляет сигнал вознаграждения. Процедуры с меньшим количеством критических сбоев получают более высокие оценки на How2Bench.

Фреймворк даёт существенный прирост в генерации валидных пошаговых процедур, измеряемый How2Bench. Qwen3-4B-Inst улучшился с 30,3 до 43,5 (+13,2 пункта), Qwen3-8B-Inst – с 38,5 до 48,6 (+10,1), а Olmo 3 7B Think – с 27,3 до 37,9 (+10,6). Важно, что эти улучшения не идут в ущерб другим способностям – результаты на 12 внедоменных бенчмарках не показывают систематической деградации.

Влияние контроля длины ответов на качество обучения моделей-судей

Длина имеет значение

Одно важное наблюдение: явный контроль длины важен во время обучения. Без него модели учатся «обманывать» судью, выдавая более длинные и многословные результаты. Эксперимент показал раздутые баллы How2Bench в сочетании с гораздо более длинными процедурами, когда контроль длины убирается – это полезное напоминание, что настройка «LLM как судья» требует тщательного проектирования.

Состав открытых данных и инструментов проекта How2Everything

Что выпустили

Команда выпускает весь код и данные, связанные с How2Everything, включая пайплайн How2Mine и промпты, полный датасет из 351 тысячи процедур и разбиение How2Bench, дистиллированного судью How2Score (8B) и рецепты для дообучения с How2Score в качестве вознаграждения.

Если вы строите системы следования инструкциям, агентов, использующих инструменты, или что-либо, что зависит от надёжных пошаговых руководств, How2Everything позволяет проверить, будут ли процедуры вашей модели действительно работать, и обучать её напрямую для уменьшения критических сбоев.

#исследовательский обзор #методология #машинное обучение #развитие ии #обучение ии #данные #бенчмарки ии #надежность ии

Ссылка на публикацию: https://allenai.org/blog/how2everything

Оригинальное название: How2Everything: Mining the web to evaluate and improve LLMs on real-world procedures

Дата публикации: 11 фев 2026

Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.

Предыдущая статья LightOn выпустила NextPlaid – базу данных для быстрого поиска информации в ИИ-приложениях Следующая статья Может ли сверхпроводник охладить дата-центры? Microsoft экспериментирует с необычным решением

Фреймворк How2Everything для оценки и улучшения пошаговых инструкций нейросетей

Проблема верификации пошаговых руководств в обучении ИИ

Использование данных из интернета для обучения языковых моделей

Ограничения текущих наборов данных для оценки процедурных знаний

Как устроен How2Mine

How2Bench: проверка на практическую пользу

Методика How2Score для выявления критических ошибок в ответах ИИ

Улучшение моделей через How2Everything

Влияние контроля длины ответов на качество обучения моделей-судей

Состав открытых данных и инструментов проекта How2Everything

Связанные публикации

Perplexity представила бенчмарк для оценки качества глубоких ИИ-исследований

Обобщение обобщений: когда нейросети учатся предсказывать, но не то, что мы думали

Community Evals от Hugging Face: когда сообщество само решает проверять модели

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации