Если следить за тем, как развиваются открытые языковые модели, последние месяцы ясно показывают: граница между тем, что доступно только в облаке крупных компаний, и тем, что можно запустить локально, становится всё тоньше. Новый релиз от Google DeepMind это подтверждает.
Семейство моделей Gemma 4 стало доступно широкой аудитории. Модели распространяются под лицензией Apache 2.0 – это означает, что их можно свободно использовать, модифицировать и встраивать в собственные проекты, в том числе коммерческие.
Не просто текст: изображения, видео и звук в одной модели
Gemma 4 – это мультимодальные модели. Проще говоря, они умеют работать не только с текстом, но и с изображениями, видео и аудио. На выходе модели всегда генерируют текст, однако то, что они могут принять на вход, заметно расширилось.
Все варианты моделей в семействе поддерживают изображения и текст. Младшие модели – E2B и E4B – дополнительно работают с аудио. Видео поддерживают все размеры, хотя у старших версий аудиодорожка из видео не обрабатывается.
На практике это означает, что модель может, например, описать содержимое фотографии, ответить на вопросы по аудиозаписи, распознать объекты на изображении и вернуть их координаты, расшифровать речь или написать HTML-код по скриншоту страницы. В ходе тестирования с предрелизными версиями исследователям удавалось получить хорошие результаты без какой-либо дополнительной настройки модели – что само по себе непросто воспроизвести.
Четыре размера – от «на телефоне» до «серьёзного сервера»
Семейство Gemma 4 включает четыре варианта: E2B, E4B, 26B/A4B (модель с разреженной архитектурой, где одновременно активны около 4 миллиардов параметров) и 31B (плотная модель). Все варианты выпущены как в базовой версии, так и в версии, настроенной на диалог.
Два меньших варианта ориентированы на запуск прямо на устройстве – смартфоне, ноутбуке или другом локальном оборудовании. Два крупных – для серверной инфраструктуры или облачных вычислений.
Что касается качества: 31B-модель получила расчётную оценку 1452 на текстовом бенчмарке LMArena, а 26B/A4B – 1441. Для сравнения, это сопоставимо с показателями таких моделей, как GLM-5 или Kimi K2.5, но при значительно меньшем числе параметров. Соотношение «размер / результат» у Gemma 4 выглядит весьма убедительно.
Как это работает – в двух словах об архитектуре
Не обязательно погружаться в детали, чтобы пользоваться моделью. Но если интересно понять, за счёт чего достигается такая эффективность – вот ключевые идеи.
Модель сочетает два типа механизма внимания: локальный (анализирует ближайший контекст) и глобальный (охватывает весь текст). Это позволяет эффективно работать с длинными текстами, не тратя лишние вычислительные ресурсы.
Одна из интересных особенностей – так называемые Per-Layer Embeddings (PLE). В стандартных моделях каждый токен (условная единица текста) получает одно числовое представление на входе, которое затем используется на всех уровнях обработки. PLE добавляет к этому небольшой дополнительный сигнал для каждого уровня отдельно – модель как бы получает уточнённую информацию о токене именно тогда, когда это нужно, а не всё сразу в самом начале. При этом дополнительная нагрузка на память невелика.
Ещё одна оптимизация – Shared KV Cache. Несколько последних слоёв модели не вычисляют собственные промежуточные состояния, а переиспользуют уже посчитанные. Это снижает потребление памяти и ускоряет генерацию, особенно при работе с длинными текстами. На качество это практически не влияет.
Запуск везде: от браузера до Apple Silicon
Gemma 4 с первого дня поддерживается в широком наборе инструментов для запуска моделей. Это важно: новая модель часто появляется раньше, чем её успевают поддержать любимые инструменты разработчиков, и это создаёт трение. Здесь ситуация другая.
Модель работает через transformers, llama.cpp (включая совместимость с LM Studio, Jan и локальными агентами), MLX на устройствах Apple Silicon, mistral.rs (реализация на Rust), а также прямо в браузере через WebGPU. Доступны также ONNX-чекпоинты для запуска на граничных устройствах.
Для тех, кто хочет подключить модель к локальному агенту-ассистенту, Gemma 4 совместима с openclaw, hermes, pi и open code – всё через локальный сервер на базе llama.cpp.
Дообучение: от симулятора вождения до вашего сценария
Gemma 4 поддерживает дообучение (fine-tuning) – то есть настройку модели под конкретную задачу. Это доступно через TRL, причём в рамках релиза TRL получил обновление: теперь во время обучения модель может получать изображения обратно от инструментов, а не только текст.
В качестве демонстрации была подготовлена обучающая сцена, где Gemma 4 учится управлять автомобилем в симуляторе CARLA: модель видит дорогу через камеру, принимает решения и обучается по результатам. После тренировки модель стабильно объезжает пешеходов. Тот же принцип применим к робототехнике, управлению браузером и другим интерактивным сценариям.
Также доступен вариант дообучения через облачную платформу Vertex AI – с примером расширения возможностей функциональных вызовов при фиксированных визуальном и аудиомодулях. Для тех, кто предпочитает графический интерфейс, поддерживается Unsloth Studio – локально или через Google Colab.
Что это значит для тех, кто работает с ИИ
Gemma 4 – это не экспериментальный прототип и не демо. Это полноценное семейство моделей, которое можно использовать прямо сейчас: запускать локально, дообучать под задачу, встраивать в агентные системы.
Открытая лицензия снимает типичные вопросы об ограничениях использования. Поддержка мультимодальности – изображений, аудио и видео – из коробки расширяет круг задач без необходимости собирать несколько отдельных моделей. А доступность на устройстве означает, что это применимо не только там, где есть GPU-сервер.
Открытых вопросов остаётся немало: обучающие данные и рецепт тренировки не раскрываются, производительность на специализированных доменах ещё предстоит проверить сообществу. Но старт у Gemma 4 – убедительный.