Последние несколько лет разговор об ИИ почти всегда сводился к облаку: мощные модели живут на серверах, запросы уходят туда, ответы приходят обратно. Но постепенно картина меняется. Всё больше разработчиков и компаний хотят, чтобы ИИ работал прямо на устройстве – без отправки данных куда-то вовне, без задержек, без зависимости от интернета.
Google сделала шаг в эту сторону, расширив семейство открытых моделей Gemma. А NVIDIA подключилась к этому проекту, чтобы модели эффективно работали на широком спектре оборудования компании – от компактных встраиваемых модулей до персональных суперкомпьютеров.
Что такое Gemma и зачем она нужна
Gemma – это семейство открытых языковых моделей от Google, рассчитанных на локальный запуск. Проще говоря, это модели, которые можно скачать и запустить у себя – на рабочем компьютере, на специализированном или на мощной рабочей станции – без подключения к облаку.
Новые варианты в линейке охватывают широкий диапазон: от совсем компактных E2B и E4B до более тяжёлых 26B и 31B. Цифры здесь условно отражают «размер» модели – чем больше, тем, как правило, богаче возможности, но и выше требования к аппаратному обеспечению.
Модели поддерживают не только текст. Gemma умеет работать с изображениями, видео и аудио, распознавать объекты, обрабатывать документы, понимать речь. Можно смешивать текст и картинки в одном запросе в произвольном порядке – это называется мультимодальным вводом. Ещё из заявленных возможностей: решение сложных задач с рассуждением, помощь в написании и отладке кода, поддержка более 35 языков «из коробки» (а предварительное обучение проходило на более чем 140 языках).
Маленькие, но шустрые: E2B и E4B
Самые компактные модели из семейства – E2B и E4B – созданы для работы в условиях ограниченных ресурсов. Они рассчитаны на так называемые Edge-устройства: небольшие специализированные модули, которые устанавливаются там, где нужна локальная обработка данных – в промышленном оборудовании, встраиваемых системах и подобных решениях.
Ключевое здесь – полная автономность. Никакого интернета, минимальная задержка, работа в реальном времени. Такие модели, например, хорошо подходят для распознавания объектов или голосового управления прямо на устройстве.
26B и 31B: для тех, кто хочет большего
Более крупные модели – 26B и 31B – ориентированы на сложные задачи: развёрнутые рассуждения, работу с кодом, а также на так называемые агентные сценарии. Если коротко, агентный ИИ – это когда модель не просто отвечает на вопросы, а самостоятельно планирует и выполняет цепочку действий: открывает файлы, обращается к инструментам, запускает задачи.
Эти модели оптимизированы для запуска на видеокартах NVIDIA RTX – тех самых, что стоят в игровых и рабочих ПК – а также на DGX Station. DGX Station – это персональный компьютер от NVIDIA, позиционируемый как «персональный суперкомпьютер для ИИ». По меркам домашнего и рабочего аппаратного обеспечения это весьма мощная машина, рассчитанная именно на такие задачи.
Агентный ИИ на вашем рабочем столе
Отдельного внимания заслуживает совместимость новых моделей с платформой OpenCLAW. Это приложение, которое позволяет создавать локальных ИИ-ассистентов, постоянно работающих в фоновом режиме. Такой ассистент может читать ваши файлы, следить за открытыми приложениями и автоматизировать рутинные задачи – и всё это происходит локально, без отправки данных в облако.
Проще говоря, представьте помощника, который знает, над каким проектом вы сейчас работаете, видит ваши документы и способен без лишних объяснений выполнить то, о чём вы его попросили. Именно для такого сценария и предназначены модели 26B и 31B в связке с OpenCLAW на RTX-компьютерах и DGX Station.
Почему именно NVIDIA и как это работает на практике
NVIDIA не просто «разрешила» запускать Gemma на своих видеокартах – компания активно участвовала в оптимизации моделей. Результат: Gemma работает эффективно на всём диапазоне оборудования NVIDIA – от компактных встраиваемых модулей Jetson Orin Nano до RTX-видеокарт в обычных ПК и до DGX Station.
Для тех, кто хочет попробовать модели самостоятельно, доступны несколько вариантов локального запуска – в частности, через инструменты Ollama и llama.cpp. Сервис Unsloth, в свою очередь, предлагает уже оптимизированные и «облегчённые» версии моделей, а также возможность их дообучения под конкретные задачи прямо через собственный интерфейс Unsloth Studio.
Что ещё происходит в экосистеме
Параллельно с выходом Gemma в экосистеме NVIDIA появился ряд смежных обновлений. NVIDIA представила NemoCLAW – открытый программный стек, который улучшает работу OpenCLAW на устройствах NVIDIA: повышает безопасность и расширяет поддержку локальных моделей.
Компания Accomplish.ai анонсировала бесплатную версию своего настольного ИИ-агента Accomplish FREE. Он использует открытые модели, запускает их локально на RTX-видеокартах и при необходимости динамически перераспределяет нагрузку между локальным аппаратным обеспечением и облаком. При этом не требуется никакой дополнительной настройки и API-ключей.
Среди других моделей, получивших оптимизацию для локальных агентов на RTX-устройствах, – NVIDIA Nemotron 3 Nano 4B, Nemotron 3 Super 120B, а также модели Qwen 3.5 и Mistral Small 4.
Куда движется локальный ИИ
То, что происходит сейчас, – это постепенное смещение центра тяжести. ИИ перестаёт быть исключительно облачной историей и начинает жить на устройствах пользователей. Это многое меняет: появляется возможность работать с личными данными без их передачи третьим сторонам, снижается зависимость от стабильности интернета, уменьшается задержка при выполнении задач.
Gemma в связке с оборудованием NVIDIA – один из наиболее конкретных примеров того, как эта идея воплощается на практике прямо сейчас. Открытые модели, доступные для локального запуска на потребительском аппаратном обеспечении, – это уже не концепция будущего, а рабочий инструмент, который можно попробовать сегодня.
Остаётся, впрочем, открытым вопрос о реальном пороге входа. Модели 26B и 31B, несмотря на оптимизацию, всё же требуют довольно мощного аппаратного обеспечения. Для широкой аудитории это пока скорее инструмент разработчиков и технически подготовленных пользователей, чем что-то для ежедневного использования на среднестатистическом ноутбуке. Но компактные варианты вроде E2B и E4B показывают, что индустрия активно работает над тем, чтобы снизить этот порог.