Один из главных вопросов в сфере искусственного интеллекта звучит просто, но ответить на него по-прежнему трудно: как понять, что мы приближаемся к настоящему ИИ – тому, который умеет мыслить так же гибко, как человек? Google DeepMind решила подойти к этому вопросу системно и представила собственную концептуальную основу для измерения прогресса в направлении AGI – так называемого «общего искусственного интеллекта».
AGI – это не просто умная программа
Прежде чем говорить об измерениях, стоит уточнить, что такое AGI. Если коротко: это гипотетический ИИ, который способен решать любые интеллектуальные задачи так же хорошо – или лучше – чем человек. Не только играть в шахматы или писать тексты, а именно любые задачи, включая те, с которыми он никогда раньше не сталкивался.
Сегодняшние системы, даже самые мощные языковые модели, умеют многое – но действуют в довольно чётких рамках. Они хорошо справляются с тем, на что их обучали, и нередко теряются там, где человек легко адаптируется. Так что разрыв между «умным ИИ» и «настоящим общим интеллектом» всё ещё огромен. И именно поэтому вопрос об измерении этого пути становится всё актуальнее.
Измерить то, чего ещё нет, – задача не из лёгких
Проблема в том, что у нас до сих пор нет общепринятого способа оценить, насколько близка та или иная система к AGI. Существующие тесты и бенчмарки – то есть наборы задач, по которым сравниваются модели – как правило, проверяют что-то конкретное: насколько хорошо модель переводит текст, решает математические задачи или пишет код. Но ни один из них не даёт целостной картины.
Именно здесь DeepMind делает шаг вперёд. Компания предлагает когнитивную основу – набор принципов и категорий, которые описывают интеллект не по узким навыкам, а по более фундаментальным когнитивным способностям. Проще говоря: они хотят измерять не «что умеет делать модель», а «как она думает и насколько гибко».
Что именно предлагает DeepMind
В основе подхода – идея о том, что интеллект можно разложить на несколько ключевых когнитивных измерений. Это не просто список навыков – это попытка описать структуру мышления как такового. В рамках предложенной системы оценивается не только то, справился ли ИИ с задачей, но и каким образом: использовал ли он обобщение, абстракцию, рассуждение, обучение по аналогии и так далее.
Такой подход позволяет отслеживать прогресс не как «прыжки» от одного громкого результата к другому, а как постепенное движение по множеству измерений одновременно. Это ближе к тому, как учёные оценивают развитие интеллекта у людей или животных – через набор когнитивных способностей, а не по одному тесту.
Хакатон как способ проверить теорию на практике
Одновременно с публикацией фреймворка DeepMind запустила хакатон на платформе Kaggle. Это соревнование для разработчиков и исследователей, где участникам предлагается создать конкретные оценочные задачи – тесты, которые соответствуют логике предложенной концептуальной системы.
Это интересный ход. Вместо того чтобы самостоятельно придумывать все нужные тесты, DeepMind фактически открывает задачу для широкого сообщества. Хакатон – это способ быстро собрать большое количество идей, отобрать лучшие и превратить их в рабочие инструменты оценки. По сути, компания говорит: «Вот концепция – помогите нам её наполнить конкретными измерениями».
Kaggle – популярная среди специалистов по машинному обучению платформа для соревнований. Её аудитория – сотни тысяч разработчиков и исследователей по всему миру, так что охват у инициативы немалый.
Зачем это нужно всем, а не только DeepMind
На первый взгляд это может выглядеть как внутренний проект крупной технологической компании. Но на самом деле вопрос стандартов оценки ИИ касается всех, кто работает с этими системами или зависит от них.
Без общих критериев прогресса трудно сравнивать разные системы между собой, трудно понять, где реальные достижения, а где маркетинг, – и совсем непросто объяснить обществу, что происходит на самом деле. Сейчас каждая лаборатория во многом оценивает себя сама – по тем тестам, где её модели выглядят лучше всего. Это неидеальная ситуация.
Если DeepMind удастся предложить достаточно убедительную основу – и привлечь к её развитию широкое сообщество – это может стать шагом к более честным и сопоставимым оценкам в индустрии в целом.
Что пока остаётся открытым
Конечно, подобные инициативы редко принимаются единогласно. Само понятие AGI остаётся дискуссионным: разные исследователи понимают под ним разные вещи, и единого определения до сих пор нет. Это значит, что любой фреймворк для его «измерения» будет опираться на конкретные допущения – и их можно оспорить.
Кроме того, есть риск, что новые тесты в итоге окажутся такими же узкими, как и предыдущие, – просто более нарядно упакованными. История с бенчмарками в ИИ знает немало примеров, когда модели быстро «насыщали» тест, не демонстрируя при этом реального обобщённого интеллекта.
Но сам факт того, что одна из ведущих ИИ-лабораторий мира решила подойти к вопросу системно и открыто, – это уже немало. Посмотрим, что получится из хакатона и как другие игроки индустрии отреагируют на предложенную систему координат.