Когда Google выпускает новое семейство открытых моделей, вопрос «а на чём это запустить?» встаёт почти сразу. С Gemma 4 AMD постаралась снять его заранее: поддержка всей линейки новых моделей появилась в день релиза – и это касается не только серверного оборудования, но и потребительских видеокарт с процессорами для ноутбуков.
Что такое Gemma 4 и чем она интересна
Gemma 4 – это семейство из четырёх открытых моделей от Google с разным размером и архитектурой. Самая компактная работает с примерно 2 миллиардами активных параметров, самая крупная – с 31 миллиардом. Часть моделей построена по классической «плотной» схеме, часть использует подход под названием Mixture of Experts – проще говоря, модель активирует только нужную часть своих «знаний» в зависимости от задачи, что позволяет экономить вычислительные ресурсы.
Модели мультимодальные: они работают с текстом, изображениями, а некоторые варианты – и со звуком. Контекстное окно достигает 256 тысяч токенов – это очень много, примерно как несколько толстых романов за один раз. Среди заявленных сильных сторон – понимание 140 языков, работа с кодом, распознавание текста на изображениях и объектов, а также голосовой ввод.
По сравнению с предыдущим поколением, Gemma 3, архитектура была переработана: улучшена эффективность и качество работы с длинными контекстами. Обновлены также модули для обработки изображений и звука. В совокупности это делает Gemma 4 интересным вариантом для так называемых агентных сценариев – когда модель не просто отвечает на вопросы, а самостоятельно выполняет цепочки действий.
От дата-центра до ноутбука – всё охвачено
AMD объявила о поддержке Gemma 4 сразу на трёх уровнях своей линейки:
- Instinct GPU – серверные ускорители для дата-центров и корпоративной инфраструктуры;
- Radeon GPU – видеокарты для рабочих станций и домашних ПК;
- Ryzen AI – процессоры для AI-ноутбуков, в том числе с выделенным нейронным блоком (NPU).
Поддержка реализована через несколько популярных инструментов: LM Studio для удобного локального запуска, а также ряд открытых проектов, ориентированных на разработчиков.
Запуск в облаке и на серверах
Для серверных сценариев Gemma 4 можно развернуть через два основных фреймворка – vLLM и SGLang. Оба ориентированы на высокую производительность при обслуживании множества одновременных запросов, что актуально для продуктовых окружений.
vLLM поддерживает несколько поколений Instinct и Radeon GPU. SGLang заточен под топовые серверные ускорители серий MI300X, MI325X и MI35X. Примечательно, что вся линейка Gemma 4 – включая модели с архитектурой MoE – помещается на один ускоритель MI300X с его 192 ГБ памяти при полном контекстном окне. Для сценариев с повышенной нагрузкой можно задействовать несколько ускорителей параллельно.
Запуск на личном оборудовании – проще, чем кажется
Для тех, кто хочет запустить Gemma 4 локально – на своём компьютере или ноутбуке, – AMD предлагает два пути.
Первый – через LM Studio. Это приложение с графическим интерфейсом, которое позволяет скачать и запустить модель буквально в несколько кликов. Оно работает с процессорами Ryzen AI и Ryzen AI Max, а также с картами Radeon и Radeon PRO. Для полноценного ускорения потребуются актуальные драйверы AMD Software: Adrenalin Edition.
Второй путь – через Lemonade Server. Это более гибкий вариант для тех, кто хочет взаимодействовать с моделью через программный интерфейс, совместимый с форматом OpenAI. Lemonade поддерживает ускорение как на GPU через ROCm, так и на нейронном блоке NPU в процессорах Ryzen AI.
NPU – отдельная история
Нейронный блок (NPU) в процессорах Ryzen AI – это специализированный чип внутри процессора, заточенный именно под задачи нейронных сетей. Он потребляет значительно меньше энергии, чем GPU, что критично для автономной работы ноутбука.
Поддержка Gemma 4 на NPU появится с ближайшим обновлением Ryzen AI SW. На первом этапе будут доступны две компактные модели – Gemma-4 E2B и E4B. Для разработчиков это будет реализовано в том числе через интерфейс OnnxRuntime, что упрощает интеграцию в собственные приложения.
Почему это важно для пользователей
Поддержка «день в день» – не просто маркетинговый ход. Раньше пользователям и разработчикам нередко приходилось ждать недели или месяцы, пока новая модель появится в удобном инструменте или заработает на конкретном оборудовании. Здесь AMD синхронизировалась с релизом Google заранее.
Для обычного пользователя это означает, что новую модель можно попробовать сразу – через LM Studio, без ожидания патчей или обновлений. Для разработчика – что можно сразу строить на Gemma 4 что-то своё, не опасаясь, что инфраструктура отстанет.
Открытые веса Gemma 4 в сочетании с широкой аппаратной поддержкой делают её реальным вариантом для тех, кто хочет запускать мощные языковые модели локально – без облачной зависимости и без необходимости иметь под рукой серверную стойку.