Одна из самых дорогостоящих проблем в современном ИИ заключается не столько в самом интеллекте, сколько в памяти. Чем дольше разговор с языковой моделью, чем больше контекста она должна удерживать, тем больший объём оперативной памяти ей требуется. И не просто памяти, а очень быстрой и дорогой. Именно поэтому содержание крупных ИИ-систем обходится так дорого, а обычные устройства с трудом справляются с локальным запуском мощных моделей.
Google Research предложила решение, которое выглядит неожиданно элегантно для такой «тяжёлой» проблемы. Алгоритм называется TurboQuant, и его суть – радикально сжать данные, которые модель хранит в своей рабочей памяти, не теряя при этом качество ответов.
Что такое рабочая память ИИ и почему она так много «весит»
Когда языковая модель ведёт диалог, она не перечитывает всё с нуля при каждом новом сообщении. Вместо этого она сохраняет промежуточные результаты обработки текста в специальной области – так называемом KV-кэше. Проще говоря, это нечто вроде рабочего блокнота: модель записывает туда важные детали из уже обработанного текста, чтобы не начинать расчёты заново.
Проблема в том, что этот «блокнот» очень быстро разрастается. Чем длиннее контекст, тем больше данных нужно хранить. А хранить их необходимо в быстрой памяти прямо на ускорителях (видеокартах или специализированных чипах), которая и без того дефицитна. Именно поэтому обработка длинных документов или многоходовых диалогов настолько ресурсоёмка.
До сих пор индустрия справлялась с этим путём наращивания аппаратного обеспечения. TurboQuant предлагает иной подход – пересмотреть логику хранения данных.
В основе TurboQuant лежат два параллельно работающих метода.
Первый называется PolarQuant. Вместо того чтобы хранить данные в виде громоздких многомерных координат, алгоритм переводит их в полярную систему, то есть запоминает только направление и расстояние. Это как разница между тем, чтобы описывать местоположение человека полным адресом или просто сказать: «двести метров на север». Для нейросетей, как выяснилось, направление вектора гораздо важнее точных координат, и на этом можно существенно сэкономить.
Второй метод – QJL. Он действует как корректор: при сильном сжатии неизбежно появляются небольшие искажения, и QJL «устраняет» этот шум в математически безопасную область, где он не влияет на итоговые вычисления. Это позволяет алгоритму быть агрессивным в сжатии, не теряя при этом точности.
В совокупности оба метода позволяют сжать KV-кэш в 6 раз, сохраняя при этом качество ответов на прежнем уровне. В тестах на моделях Gemma и Mistral TurboQuant не только сократил потребление памяти, но и ускорил вычисления до 8 раз на чипах NVIDIA H100.
Если отвлечься от технических деталей, последствия довольно очевидны.
Во-первых, это снижение стоимости. Меньше памяти – меньше аппаратного обеспечения – дешевле запускать модели. Для компаний, которые тратят огромные суммы на ИИ-инфраструктуру, это прямая экономия.
Во-вторых, это доступность. Если модели начнут работать с меньшим объёмом памяти, их станет проще запускать на обычных устройствах – ноутбуках, телефонах, локальных серверах. Сегодня мощные модели требуют специализированного оборудования отчасти именно из-за высокого потребления памяти.
В-третьих, это масштаб контекста. Те же ресурсы, которые раньше позволяли обрабатывать, скажем, 10 страниц текста, теперь могут покрыть 60. Это напрямую влияет на то, насколько длинными и связными могут быть разговоры с ИИ или насколько большие документы он способен анализировать за один раз.
Реакция, которую мало кто ожидал
Публикация исследования вызвала неожиданный эффект на финансовых рынках. Акции производителей памяти – компаний, которые зарабатывают на постоянном наращивании объёмов хранилищ в дата-центрах – снизились. Логика проста: если ИИ-системам внезапно потребуется в шесть раз меньше памяти, спрос на соответствующее «железо» может сократиться.
Правда, аналитики расходятся во мнениях. Одни считают, что это прямой удар по рынку памяти. Другие указывают на так называемый парадокс Джевонса: когда технология становится эффективнее, её начинают использовать активнее, и в итоге совокупное потребление ресурсов не падает, а растёт. Если ИИ станет дешевле в эксплуатации, его, вероятно, начнут применять в куда большем числе сценариев, и суммарный спрос на память может остаться прежним или даже увеличиться.
Сравнение с DeepSeek, которое уже звучит в комментариях, также уместно: китайская модель в своё время показала, что высокая эффективность при скромных ресурсах достижима. TurboQuant движется в том же направлении, но применительно к памяти во время работы модели, а не к процессу её обучения.
Пока это только результат исследования
Важно понимать: TurboQuant пока остаётся лабораторной разработкой. Google планирует представить её на конференции ICLR 2026, где будут подробно описаны лежащие в основе методы. До реального внедрения в продукты или широкого распространения предстоит ещё несколько шагов.
Открытые вопросы также есть. Насколько хорошо алгоритм ведёт себя на других архитектурах, кроме тех, на которых тестировался? Как он работает в условиях очень длинных контекстов или нестандартных задач? Как его интегрировать в уже работающие системы без значительных переделок?
Ни один из этих вопросов не отменяет значимости результата – но они напоминают, что между «работает в эксперименте» и «работает везде» обычно лежит немало инженерной работы.
Тем не менее сам факт того, что задача памяти в ИИ решается не наращиванием аппаратного обеспечения, а переосмыслением математики, – это действительно интересный сигнал. Индустрия, которая привыкла покупать путь вперёд, всё чаще начинает его вычислять. 🧮