Когда речь заходит о прогрессе в области ИИ, обычно мы слышим о бенчмарках: тестах на понимание текста, решение математических задач или генерацию кода. Но есть проблема – эти метрики не всегда показывают, насколько модель полезна в реальной работе. Можно отлично справляться с академическими заданиями и при этом «пробуксовывать» на практических задачах, которые люди решают каждый день.
Anthropic решила подойти к оценке ИИ с другой стороны. Компания запустила Anthropic Economic Index – индекс, который измеряет способность моделей выполнять конкретные рабочие задачи, те самые, за которые в экономике платят деньги.
Что такое экономические примитивы?
Суть подхода в том, чтобы разбить сложную работу на базовые действия – «экономические примитивы». Это такие элементарные задачи, из которых складывается почти любая профессия: написать электронное письмо, проанализировать данные в таблице, найти информацию в документе, составить план действий.
Anthropic выделила восемь таких примитивов и создала тесты для каждого из них. Проще говоря, вместо абстрактных вопросов типа «понимает ли модель контекст», компания проверяет: может ли ИИ, например, прочитать длинный контракт и выделить из него ключевые условия? Или взять таблицу с данными и построить на её основе прогноз?
Это не просто теоретические упражнения. Каждый примитив соответствует реальным действиям, которые люди выполняют на работе – от аналитика данных до менеджера проектов.
Восемь базовых навыков
Вот какие задачи попали в индекс:
- Информационный поиск – найти нужные данные в большом объёме текста, вроде корпоративной базы знаний или набора документов.
- Классификация – отсортировать информацию по категориям: например, разделить обращения клиентов по типам проблем.
- Анализ данных – работа с таблицами: очистка, агрегация, поиск закономерностей.
- Резюмирование – сжать большой документ до краткого содержания без потери сути.
- Планирование – составить последовательность действий для достижения цели.
- Генерация контента – написать текст по заданным требованиям: от письма до отчёта.
- Редактирование и доработка – улучшить существующий текст: исправить ошибки, изменить тон, добавить детали.
- Кодирование – написать или отладить программный код.
Каждая из этих задач встречается в десятках профессий. И если модель справляется с ними надёжно, это значит, что она может реально разгрузить людей или взять на себя часть рутины.
Как это измеряется?
Для каждого примитива Anthropic собрала набор тестов, которые имитируют реальные рабочие ситуации. Например, в задаче на поиск информации модель получает стопку документов и должна быстро найти ответ на конкретный вопрос. В задаче на анализ данных – таблицу с исходными цифрами и запрос на построение статистики.
Важный момент: тесты сделаны так, чтобы отражать не только точность ответа, но и надёжность. Если модель справляется с задачей в 95% случаев, это одно. Если в 60% – совсем другое, потому что в реальной работе нестабильность становится проблемой.
Индекс показывает, на каком уровне находится модель по каждому из восьми навыков. Это позволяет увидеть не только общий прогресс, но и конкретные сильные и слабые стороны.
Зачем это нужно?
Стандартные бенчмарки помогают разработчикам улучшать модели, но они мало говорят о том, что эти модели могут делать в бизнесе или в продуктивной работе. Anthropic Economic Index решает другую задачу: он показывает, какие реальные функции ИИ уже готов выполнять, а где ещё требуется доработка.
Это полезно для компаний, которые внедряют ИИ. Вместо размытых обещаний можно посмотреть: справится ли модель с обработкой заявок клиентов? Сможет ли она помочь аналитикам с предварительной обработкой данных? Достаточно ли надёжна для автоматизации части документооборота?
Такой подход помогает и разработчикам. Если видно, что модель отлично справляется с генерацией текста, но «пробуксовывает» на планировании, это даёт понимание, куда направить усилия.
Что показывают первые результаты?
В первом отчёте Anthropic протестировала свою модель Claude 3.7 Sonnet. Результаты показывают, что модель справляется с большинством примитивов на высоком уровне, но есть и задачи, где производительность ниже.
Например, задачи на поиск информации и резюмирование выполняются стабильно хорошо – это те области, где языковые модели уже давно показывают сильные результаты. А вот планирование и анализ данных требуют более сложных рассуждений, и там есть куда расти.
Важно, что индекс будет обновляться регулярно. Anthropic планирует отслеживать прогресс и показывать, как модели улучшаются в выполнении реальных задач. Это не разовый снимок, а динамическая картина развития.
Ограничения подхода
Понятно, что любой индекс – это упрощение. Реальная работа сложнее, чем набор изолированных задач. Люди часто комбинируют несколько навыков одновременно, работают в условиях неопределённости, принимают решения на основе неполной информации.
Экономические примитивы не покрывают всё многообразие профессий. Есть задачи, которые требуют креативности, эмпатии, умения читать между строк или вести переговоры. Эти вещи сложнее поддаются формализации.
Но даже с учётом этих ограничений индекс даёт полезную точку отсчёта. Он показывает базовую способность модели выполнять конкретные действия, которые составляют значительную часть рабочего времени во многих профессиях.
К чему это ведёт?
Появление такого индекса сигнализирует о смещении фокуса в индустрии ИИ. Раньше основное внимание уделялось тому, чтобы модели были умнее, быстрее, лучше справлялись с тестами. Теперь всё больше интереса к тому, чтобы они были полезнее – чтобы их можно было реально встроить в рабочие процессы.
Anthropic Economic Index – это попытка перевести разговор об ИИ с языка технологий на язык экономики и практической пользы. Если модель может взять на себя часть рутинных задач, это освобождает людям время для более сложной и творческой работы. Если она делает это надёжно, это снижает издержки и ускоряет процессы.
Пока это первый шаг. Посмотрим, как индекс будет развиваться и какие изменения он покажет в ближайшие месяцы. Но сама идея измерять прогресс ИИ через призму реальных задач выглядит логичной и своевременной.