Опубликовано 2 апреля 2026

AEC-Bench: как ИИ тестируют для работы в строительстве

AEC-Bench: как проверить готовность ИИ к работе в строительстве

Исследователи разработали специализированный тест для ИИ-систем, применяемых в архитектуре, строительстве и инженерии. Результаты его прохождения оказались весьма отрезвляющими.

Исследования 3 – 5 минут чтения
Источник события: Nomic 3 – 5 минут чтения

Когда речь заходит об ИИ в строительстве, обычно представляется что-то вроде умного помощника, который читает чертежи, проверяет соответствие нормам и помогает сметчикам избежать ошибок в расчётах. Звучит разумно. Но давно назревал вопрос: а как вообще понять, насколько хорошо ИИ справляется с такими задачами? До недавнего времени чёткого ответа не существовало.

Неизмеренная задача оценки ИИ в строительстве

Задача, которую никто толком не измерял

Большинство тестов для языковых моделей – это либо общие проверки на логику и знания, либо узкоспециализированные задачи из академической среды. Строительная отрасль в этой картине почти не присутствовала. Архитектура, инженерия и строительство – это особый мир: здесь работают с чертежами, техническими регламентами, многостраничными спецификациями, пространственными схемами и нормативными документами. Обычный текстовый тест здесь просто не работает.

Именно для этого был создан AEC-Bench – специализированный набор задач, который проверяет, как ИИ-системы справляются с реальными профессиональными вызовами в этих трёх областях. Проще говоря, это экзамен для ИИ, составленный с учётом специфики отрасли.

Что проверяет AEC-Bench и почему это сложно

Что именно проверяется – и почему это сложно

AEC-Bench – мультимодальный бенчмарк. Это означает, что задачи в нём не ограничиваются текстом: моделям приходится работать с изображениями, схемами, планами этажей, техническими рисунками и документацией. Именно такой материал составляет основу повседневной работы архитекторов, инженеров и строителей.

Задачи охватывают несколько уровней сложности: от распознавания элементов на чертеже до многошаговых рассуждений, где нужно сопоставить несколько источников информации и прийти к технически обоснованному выводу. Отдельный акцент сделан на так называемых агентных сценариях – ситуациях, когда ИИ должен не просто ответить на вопрос, а самостоятельно выстроить последовательность действий для решения задачи.

Это принципиальное отличие от большинства существующих тестов. Реальная работа в строительстве редко сводится к одному вопросу и одному ответу. Чаще это цепочка: нужно найти нужный раздел в проектной документации, соотнести его с нормативом, проверить соответствие, выявить противоречие и предложить решение. AEC-Bench пытается воспроизвести именно такую логику.

Итоги тестирования ИИ в AEC-Bench

Что показали результаты

Когда современные ИИ-модели прошли через этот набор задач, выяснилось кое-что важное: даже самые продвинутые из них справляются с отраслевыми задачами заметно хуже, чем с общими вопросами. Многошаговые задачи, требующие работы с визуальной информацией и нормативными документами одновременно, вызывали у моделей серьёзные затруднения.

Это не значит, что ИИ бесполезен в строительстве. Скорее, это честный сигнал: текущий уровень возможностей не соответствует той планке, которую сами разработчики и пользователи склонны приписывать своим инструментам. Разрыв между маркетинговыми обещаниями и реальной производительностью в специализированных задачах ощутим.

Зачем AEC-Bench нужен строительной индустрии

Зачем это нужно индустрии

Появление AEC-Bench важно по нескольким причинам. Во-первых, это попытка перевести разговор об ИИ в строительстве из плоскости «звучит перспективно» в плоскость «давайте измерим». Без стандартизированной точки отсчёта сложно сравнивать инструменты, отслеживать прогресс и принимать обоснованные решения о внедрении.

Во-вторых, такой бенчмарк может стать ориентиром для разработчиков, которые хотят создавать ИИ-решения именно для AEC-отрасли. Понять, где модель проваливается, – значит понять, что именно нужно улучшать.

В-третьих, это сигнал для самих специалистов отрасли: прежде чем доверять ИИ-инструменту проверку проектной документации или анализ нормативного соответствия, стоит понимать, что он пока не обязательно справится с этим так же хорошо, как опытный инженер.

Открытые вопросы по применению AEC-Bench

Открытые вопросы

Любой бенчмарк – это срез реальности, а не сама реальность. AEC-Bench охватывает определённый набор задач и документов, но строительная отрасль невероятно разнообразна: нормы различаются по странам, типы проектов – по масштабу и специфике, профессиональные практики – по регионам.

Открытым остаётся и вопрос о том, как именно результаты тестирования соотносятся с реальной рабочей производительностью. Пройти экзамен и хорошо работать на стройке – не одно и то же. Тем не менее наличие самого экзамена уже меняет ситуацию: теперь хотя бы есть с чем сравнивать.

AEC-Bench – не революция и не приговор для ИИ в строительстве. Это инструмент, который помогает смотреть на вещи трезво. А в отрасли, где цена ошибки измеряется не только деньгами, но и безопасностью, трезвый взгляд – это уже немало.

Оригинальное название: AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
Дата публикации: 2 апр 2026
Nomic www.nomic.ai Американская ИИ-компания, разрабатывающая инструменты для анализа данных, эмбеддингов и интерпретации моделей.
Предыдущая статья Руки, которые думают сами: робот Sanctuary AI научился управлять предметами без предварительной тренировки Следующая статья Как Salesforce обучает ИИ-агентов без огромных затрат

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Стэнфордские исследователи протестировали ведущие ИИ-модели на способность ориентироваться в пространстве и обнаружили неожиданно слабые результаты.

Stanford AI Laboratoryai.stanford.edu 5 мар 2026

Исследователи проверили, способны ли ИИ-системы понимать реальные медицинские разговоры – и результат оказался жёстким приговором для всей отрасли.

Доктор Алексей Петров 11 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться