Представьте себе существо, которое никогда не спит. Оно не ест в привычном смысле, не пьёт воду и не дышит воздухом, но потребляет электричество с таким аппетитом, что рядом с ним меркнут целые города. Это не персонаж из научной фантастики. Это современный искусственный интеллект. И он голоден.
Когда мы говорим об ИИ, мы чаще всего обсуждаем то, что он умеет: генерировать тексты, распознавать лица, ставить диагнозы, сочинять музыку. Но почти никогда – о том, чего это стоит. Не в деньгах. В киловатт-часах.
Завтрак чемпиона: цифры, от которых немного не по себе
Обучение одной крупной языковой модели потребляет столько электроэнергии, сколько несколько сотен американских домохозяйств тратят за год. По различным оценкам, GPT-4 потребовал для обучения порядка нескольких десятков миллионов долларов только на вычислительные ресурсы – и это лишь косвенный способ сказать, что речь идёт о колоссальных объёмах энергии. Точные данные компании не раскрывают, но независимые исследователи рисуют картину, от которой хочется немного помолчать.
Каждый запрос к большой языковой модели – скажем, вопрос «как приготовить laksa» или «объясни мне квантовую запутанность» – по энергозатратам стоит примерно в десять раз дороже, чем обычный поисковый запрос в Google. Умножьте это на миллиарды запросов в день. Теперь умножьте на количество моделей, работающих параллельно по всему миру. Получается число, которое удобнее всего выразить через метафору: это как если бы где-то в облаках постоянно горел огромный костёр, и мы всё подбрасываем в него дрова, потому что хотим, чтобы он давал больше света.
Дата-центры, обслуживающие ИИ-инфраструктуру, уже сейчас потребляют от 1 до 2 процентов мирового электричества. Звучит скромно, но это больше, чем потребляет авиационная отрасль в своей наземной инфраструктуре. И это до того, как начался настоящий бум агентных систем и мультимодальных моделей.
Закон Мура умер. Но аппетит остался
Долгое время технологическая отрасль жила по негласному договору с физикой: каждые два года процессоры становились вдвое мощнее при том же энергопотреблении. Этот принцип, известный как закон Мура, был своего рода обещанием – прогресс будет дешевле и эффективнее с каждым поколением.
Но где-то в районе 2010-х этот договор начал трещать по швам. Транзисторы стали настолько маленькими, что квантовые эффекты – те самые, которые обычно остаются в учебниках по физике – начали мешать их работе. Уменьшать дальше стало физически затруднительно. Закон Мура не умер одномоментно – он скорее тихо вышел из комнаты, пока никто не смотрел.
И вот парадокс: именно в тот момент, когда аппаратное обеспечение перестало дешеветь в пересчёте на единицу вычислений, модели ИИ начали расти экспоненциально. GPT-2 в 2019 году имел 1,5 миллиарда параметров и казался огромным. GPT-3 в 2020-м – уже 175 миллиардов. Дальнейшие модели перешагнули отметку в триллион параметров. Каждый параметр – это крошечный числовой вес, который нужно хранить, обновлять и использовать при каждом вычислении. Это как если бы вы решили запомнить не телефонный номер друга, а весь телефонный справочник Сингапура – и не одной копией, а тысячами одновременно.
Физика не успевает за амбициями. И это начинает ощущаться.
Вода, которую никто не считает
Энергопотребление – это только половина истории. Есть ещё вода.
Дата-центры греются. Сильно. Чтобы не перегреться, они используют системы охлаждения – и значительная их часть работает на воде. По некоторым оценкам, обучение одной крупной модели может потребовать сотни тысяч литров воды. Для сравнения: это сопоставимо с тем, сколько воды человек выпивает за несколько десятилетий жизни.
В Сингапуре, где вода – предмет стратегического планирования и инженерной гордости, это звучит особенно остро. Мы научились опреснять морскую воду, собирать дождь, перерабатывать сточные воды в питьевую – NEWater стала одним из символов нашей устойчивости. И всё же мысль о том, что невидимые вычислительные процессы где-то в мире потребляют воду с такой же интенсивностью, как небольшой жилой квартал, не даёт покоя.
ИИ не просто ест электричество. Он пьёт воду. И, похоже, не знает меры.
Масштабирование как религия
Среди исследователей и инженеров в области ИИ долгое время господствовало почти религиозное убеждение: больше – значит лучше. Больше данных, больше параметров, больше вычислительной мощности – и модель станет умнее, точнее, полезнее. Эта идея получила научное обоснование в работах о так называемых «законах масштабирования» (scaling laws), которые показали, что производительность модели предсказуемо растёт с увеличением её размера.
Это было красиво. Это было вдохновляюще. Это было похоже на то, как в детстве узнаёшь, что у числа пи бесконечно много знаков после запятой – и мир вдруг кажется больше и загадочнее, чем ты думал.
Но потом начали появляться первые признаки того, что кривая роста начинает выполаживаться. Не везде и не сразу – но исследователи стали замечать: добавление ещё одного порядка вычислений даёт всё меньший прирост способностей. Модель не становится вдвое умнее, когда её делают вдвое больше. Она становится немного умнее – и значительно прожорливее.
Это похоже на то, как человек учится играть на музыкальном инструменте. Первые годы прогресс ощутим почти еженедельно. Потом – всё медленнее. Потом – ты занимаешься часами, а разница между вчера и сегодня почти неуловима. Это не значит, что прогресс остановился. Но его цена резко выросла.
Когда данные кончаются
У кризиса масштабирования есть ещё одно измерение, о котором говорят реже, но которое, возможно, важнее всего остального. Данные.
Большие языковые модели обучаются на огромных массивах текста – по сути, на значительной части написанного человечеством за последние десятилетия. Книги, статьи, форумы, комментарии, научные работы, рецепты, дневники. Интернет в его текстовом измерении был для ИИ тем, чем для нас является весь опыт прочитанного и услышанного за жизнь.
Но интернет не бесконечен. Точнее – качественный, размеченный, отфильтрованный от мусора текст на человеческих языках конечен. Исследователи уже говорят о приближении к так называемому «пику данных» – моменту, когда новых качественных текстов для обучения просто не остаётся. Что-то уже использовалось по несколько раз. Что-то было создано самими же языковыми моделями – и теперь эти тексты попадают обратно в обучающие выборки, создавая нечто вроде информационного эха.
Представьте художника, который всю жизнь учился, глядя на великие картины. Потом эти картины исчезли – и осталось только то, что он сам нарисовал. Он начинает учиться на собственных работах. Круг замкнулся. Новых впечатлений нет. Стиль начинает деградировать, становиться более шаблонным, более предсказуемым.
Именно это и беспокоит исследователей, когда они говорят о «коллапсе модели» при обучении на синтетических данных. Это не катастрофа в одночасье – это медленное сужение горизонта.
Маленький, но умный: другой путь
Но было бы несправедливо заканчивать на этом. Потому что параллельно с гонкой за размером происходит кое-что интересное – почти тихая революция эффективности.
Появляются так называемые «маленькие языковые модели» (Small Language Models, или SLM). Они обучены на более узких, но тщательно отобранных данных. Они работают на устройствах, которые помещаются в карман. Они потребляют в сотни раз меньше энергии – и при этом справляются с конкретными задачами не хуже, а иногда лучше, чем их гигантские собратья.
Это как сравнивать энциклопедию в двести томов с хорошо составленным путеводителем по одному городу. Энциклопедия знает больше. Но если вам нужно найти лучший торговый центр в районе Tanjong Pagar – путеводитель окажется куда полезнее.
Появляются новые архитектуры, которые используют не все нейроны сразу, а только те, что нужны для конкретной задачи – как мозг, который не активирует весь свой потенциал для того, чтобы решить, какой кофе заказать. Методы дистилляции позволяют «сжимать» большие модели в маленькие, сохраняя большую часть их способностей. Квантизация – упрощение числового представления весов – снижает требования к памяти и вычислениям.
Индустрия, кажется, начинает взрослеть. Гонка за размером уступает место поиску элегантности.
Зелёный ИИ: мечта или необходимость?
Крупные технологические компании не молчат об этом. Они публикуют отчёты об устойчивом развитии, обещают углеродную нейтральность, инвестируют в возобновляемую энергетику. Microsoft, Google, Amazon – все они строят или расширяют дата-центры рядом с источниками «зелёной» энергии: гидроэлектростанциями, ветряными парками, солнечными полями.
Но здесь есть тонкость, которую легко пропустить. Когда технологическая компания говорит «мы работаем на 100% возобновляемой энергии» – это чаще всего означает, что она покупает сертификаты на соответствующее количество зелёной энергии, произведённой где-то в мире. Это не то же самое, что физически питаться только от солнца и ветра. Электросеть – это общий котёл, и пока в неё поступает уголь или газ, технологически чистого потребления не существует.
Это не значит, что усилия бессмысленны. Это значит, что картина сложнее, чем корпоративные презентации.
Кроме того, существует так называемый «эффект отдачи» (rebound effect). Когда технология становится эффективнее и дешевле, её начинают использовать больше. Эффективность снижает стоимость одного запроса – значит, запросов становится больше. Суммарное потребление растёт, даже если каждая отдельная операция стала экономичнее. Это происходило с автомобилями, самолётами, бытовой электроникой. Нет оснований думать, что с ИИ будет иначе.
Что это значит для нас – обычных пользователей
Мы привыкли думать об ИИ как о чём-то невесомом. Облако. Нейросеть. Алгоритм. Слова, которые не имеют физического веса – в отличие от, скажем, автомобиля или фабрики.
Но за каждым ответом языковой модели стоит железо. Провода. Охлаждающие системы. Турбины где-то на другом конце континента. Каждый раз, когда мы просим ИИ написать за нас письмо, придумать рецепт или объяснить сложную концепцию – мы делаем маленький, почти незаметный запрос в физический мир. И физический мир отвечает потреблением.
Это не призыв отказаться от технологий. Это приглашение задуматься о том, что невидимое – не значит невесомое.
В Сингапуре мы давно научились думать об инфраструктуре иначе, чем многие. Каждый литр воды здесь – результат инженерного решения. Каждый киловатт-час – чья-то ответственность. Маленький остров не может позволить себе роскошь не считать ресурсы. И, возможно, именно этот взгляд – взгляд острова в большом океане – нужен сегодня технологической отрасли.
Предел, который нельзя перешагнуть дважды
Самое интересное в пределе масштабирования – то, что он не выглядит как стена. Он выглядит как пологий подъём, который становится всё круче. Ты продолжаешь идти, затрачиваешь всё больше сил – а высота почти не меняется.
Некоторые исследователи считают, что выход – в принципиально новых архитектурах. Не в трансформерах, которые сейчас лежат в основе большинства языковых моделей, а в чём-то другом. Возможно, в нейроморфных чипах, которые имитируют работу биологического мозга и потребляют энергию на порядки эффективнее. Возможно, в гибридных системах, где нейросеть отвечает только за часть задачи – остальное делают более традиционные алгоритмы.
Возможно – и это самая смелая идея – в том, чтобы перестать стремиться к универсальности. Человеческий мозг не является универсальным вычислителем. Он специализирован, избирателен, ленив в лучшем смысле этого слова – он не тратит ресурсы на то, что не нужно прямо сейчас. И при этом справляется с задачами, перед которыми пасуют самые мощные модели.
Может быть, будущее ИИ – это не один огромный ум, знающий всё. Это экосистема небольших, специализированных интеллектов, каждый из которых делает своё дело хорошо и не тратит энергию на остальное.
Как живые существа, собственно. Которые тоже однажды научились не гнаться за размером – а гнаться за точностью.
ИИ хочет есть. Но, может быть, он наконец научится выбирать, что именно положить в тарелку.