Опубликовано 2 апреля 2026

AEC-Bench: как ИИ тестируют для работы в строительстве

AEC-Bench: как проверить готовность ИИ к работе в строительстве

Исследователи разработали специализированный тест для ИИ-систем, применяемых в архитектуре, строительстве и инженерии. Результаты его прохождения оказались весьма отрезвляющими.

Исследования 3 – 5 минут чтения
Источник события: Nomic 3 – 5 минут чтения

Когда речь заходит об ИИ в строительстве, обычно представляется что-то вроде умного помощника, который читает чертежи, проверяет соответствие нормам и помогает сметчикам избежать ошибок в расчётах. Звучит разумно. Но давно назревал вопрос: а как вообще понять, насколько хорошо ИИ справляется с такими задачами? До недавнего времени чёткого ответа не существовало.

Неизмеренная задача оценки ИИ в строительстве

Задача, которую никто толком не измерял

Большинство тестов для языковых моделей – это либо общие проверки на логику и знания, либо узкоспециализированные задачи из академической среды. Строительная отрасль в этой картине почти не присутствовала. Архитектура, инженерия и строительство – это особый мир: здесь работают с чертежами, техническими регламентами, многостраничными спецификациями, пространственными схемами и нормативными документами. Обычный текстовый тест здесь просто не работает.

Именно для этого был создан AEC-Bench – специализированный набор задач, который проверяет, как ИИ-системы справляются с реальными профессиональными вызовами в этих трёх областях. Проще говоря, это экзамен для ИИ, составленный с учётом специфики отрасли.

Что проверяет AEC-Bench и почему это сложно

Что именно проверяется – и почему это сложно

AEC-Bench – мультимодальный бенчмарк. Это означает, что задачи в нём не ограничиваются текстом: моделям приходится работать с изображениями, схемами, планами этажей, техническими рисунками и документацией. Именно такой материал составляет основу повседневной работы архитекторов, инженеров и строителей.

Задачи охватывают несколько уровней сложности: от распознавания элементов на чертеже до многошаговых рассуждений, где нужно сопоставить несколько источников информации и прийти к технически обоснованному выводу. Отдельный акцент сделан на так называемых агентных сценариях – ситуациях, когда ИИ должен не просто ответить на вопрос, а самостоятельно выстроить последовательность действий для решения задачи.

Это принципиальное отличие от большинства существующих тестов. Реальная работа в строительстве редко сводится к одному вопросу и одному ответу. Чаще это цепочка: нужно найти нужный раздел в проектной документации, соотнести его с нормативом, проверить соответствие, выявить противоречие и предложить решение. AEC-Bench пытается воспроизвести именно такую логику.

Итоги тестирования ИИ в AEC-Bench

Что показали результаты

Когда современные ИИ-модели прошли через этот набор задач, выяснилось кое-что важное: даже самые продвинутые из них справляются с отраслевыми задачами заметно хуже, чем с общими вопросами. Многошаговые задачи, требующие работы с визуальной информацией и нормативными документами одновременно, вызывали у моделей серьёзные затруднения.

Это не значит, что ИИ бесполезен в строительстве. Скорее, это честный сигнал: текущий уровень возможностей не соответствует той планке, которую сами разработчики и пользователи склонны приписывать своим инструментам. Разрыв между маркетинговыми обещаниями и реальной производительностью в специализированных задачах ощутим.

Зачем AEC-Bench нужен строительной индустрии

Зачем это нужно индустрии

Появление AEC-Bench важно по нескольким причинам. Во-первых, это попытка перевести разговор об ИИ в строительстве из плоскости «звучит перспективно» в плоскость «давайте измерим». Без стандартизированной точки отсчёта сложно сравнивать инструменты, отслеживать прогресс и принимать обоснованные решения о внедрении.

Во-вторых, такой бенчмарк может стать ориентиром для разработчиков, которые хотят создавать ИИ-решения именно для AEC-отрасли. Понять, где модель проваливается, – значит понять, что именно нужно улучшать.

В-третьих, это сигнал для самих специалистов отрасли: прежде чем доверять ИИ-инструменту проверку проектной документации или анализ нормативного соответствия, стоит понимать, что он пока не обязательно справится с этим так же хорошо, как опытный инженер.

Открытые вопросы по применению AEC-Bench

Открытые вопросы

Любой бенчмарк – это срез реальности, а не сама реальность. AEC-Bench охватывает определённый набор задач и документов, но строительная отрасль невероятно разнообразна: нормы различаются по странам, типы проектов – по масштабу и специфике, профессиональные практики – по регионам.

Открытым остаётся и вопрос о том, как именно результаты тестирования соотносятся с реальной рабочей производительностью. Пройти экзамен и хорошо работать на стройке – не одно и то же. Тем не менее наличие самого экзамена уже меняет ситуацию: теперь хотя бы есть с чем сравнивать.

AEC-Bench – не революция и не приговор для ИИ в строительстве. Это инструмент, который помогает смотреть на вещи трезво. А в отрасли, где цена ошибки измеряется не только деньгами, но и безопасностью, трезвый взгляд – это уже немало.

Оригинальное название: AEC-Bench: A Multimodal Benchmark for Agentic Systems in Architecture, Engineering, and Construction
Дата публикации: 2 апр 2026
Nomic www.nomic.ai Американская ИИ-компания, разрабатывающая инструменты для анализа данных, эмбеддингов и интерпретации моделей.
Предыдущая статья Руки, которые думают сами: робот Sanctuary AI научился управлять предметами без предварительной тренировки Следующая статья Как Salesforce обучает ИИ-агентов без огромных затрат

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Стэнфордские исследователи протестировали ведущие ИИ-модели на способность ориентироваться в пространстве и обнаружили неожиданно слабые результаты.

Stanford AI Laboratoryai.stanford.edu 5 мар 2026

Исследователи проверили, способны ли ИИ-системы понимать реальные медицинские разговоры – и результат оказался жёстким приговором для всей отрасли.

Доктор Алексей Петров 11 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться