Опубликовано 3 апреля 2026

Gemma 4: мультимодальный ИИ от Google DeepMind для запуска на устройстве

Gemma 4: мультимодальный ИИ от Google DeepMind, работающий прямо на устройстве

Google DeepMind выпустила Gemma 4 – открытое семейство мультимодальных моделей, работающих с текстом, изображениями, видео и аудио непосредственно на устройстве.

Продукты / Технический контекст 4 – 6 минут чтения

Источник события: Hugging Face 4 – 6 минут чтения

Если следить за тем, как развиваются открытые языковые модели, последние месяцы ясно показывают: граница между тем, что доступно только в облаке крупных компаний, и тем, что можно запустить локально, становится всё тоньше. Новый релиз от Google DeepMind это подтверждает.

Семейство моделей Gemma 4 стало доступно широкой аудитории. Модели распространяются под лицензией Apache 2.0 – это означает, что их можно свободно использовать, модифицировать и встраивать в собственные проекты, в том числе коммерческие.

Мультимодальные возможности Gemma 4: текст, изображения, видео, аудио

Не просто текст: изображения, видео и звук в одной модели

Gemma 4 – это мультимодальные модели. Проще говоря, они умеют работать не только с текстом, но и с изображениями, видео и аудио. На выходе модели всегда генерируют текст, однако то, что они могут принять на вход, заметно расширилось.

Все варианты моделей в семействе поддерживают изображения и текст. Младшие модели – E2B и E4B – дополнительно работают с аудио. Видео поддерживают все размеры, хотя у старших версий аудиодорожка из видео не обрабатывается.

На практике это означает, что модель может, например, описать содержимое фотографии, ответить на вопросы по аудиозаписи, распознать объекты на изображении и вернуть их координаты, расшифровать речь или написать HTML-код по скриншоту страницы. В ходе тестирования с предрелизными версиями исследователям удавалось получить хорошие результаты без какой-либо дополнительной настройки модели – что само по себе непросто воспроизвести.

Размеры моделей Gemma 4: от мобильных устройств до серверов

Четыре размера – от «на телефоне» до «серьёзного сервера»

Семейство Gemma 4 включает четыре варианта: E2B, E4B, 26B/A4B (модель с разреженной архитектурой, где одновременно активны около 4 миллиардов параметров) и 31B (плотная модель). Все варианты выпущены как в базовой версии, так и в версии, настроенной на диалог.

Два меньших варианта ориентированы на запуск прямо на устройстве – смартфоне, ноутбуке или другом локальном оборудовании. Два крупных – для серверной инфраструктуры или облачных вычислений.

Что касается качества: 31B-модель получила расчётную оценку 1452 на текстовом бенчмарке LMArena, а 26B/A4B – 1441. Для сравнения, это сопоставимо с показателями таких моделей, как GLM-5 или Kimi K2.5, но при значительно меньшем числе параметров. Соотношение «размер / результат» у Gemma 4 выглядит весьма убедительно.

Архитектура Gemma 4 и принципы работы

Как это работает – в двух словах об архитектуре

Не обязательно погружаться в детали, чтобы пользоваться моделью. Но если интересно понять, за счёт чего достигается такая эффективность – вот ключевые идеи.

Модель сочетает два типа механизма внимания: локальный (анализирует ближайший контекст) и глобальный (охватывает весь текст). Это позволяет эффективно работать с длинными текстами, не тратя лишние вычислительные ресурсы.

Одна из интересных особенностей – так называемые Per-Layer Embeddings (PLE). В стандартных моделях каждый токен (условная единица текста) получает одно числовое представление на входе, которое затем используется на всех уровнях обработки. PLE добавляет к этому небольшой дополнительный сигнал для каждого уровня отдельно – модель как бы получает уточнённую информацию о токене именно тогда, когда это нужно, а не всё сразу в самом начале. При этом дополнительная нагрузка на память невелика.

Ещё одна оптимизация – Shared KV Cache. Несколько последних слоёв модели не вычисляют собственные промежуточные состояния, а переиспользуют уже посчитанные. Это снижает потребление памяти и ускоряет генерацию, особенно при работе с длинными текстами. На качество это практически не влияет.

Запуск Gemma 4 на различных платформах

Запуск везде: от браузера до Apple Silicon

Gemma 4 с первого дня поддерживается в широком наборе инструментов для запуска моделей. Это важно: новая модель часто появляется раньше, чем её успевают поддержать любимые инструменты разработчиков, и это создаёт трение. Здесь ситуация другая.

Модель работает через transformers, llama.cpp (включая совместимость с LM Studio, Jan и локальными агентами), MLX на устройствах Apple Silicon, mistral.rs (реализация на Rust), а также прямо в браузере через WebGPU. Доступны также ONNX-чекпоинты для запуска на граничных устройствах.

Для тех, кто хочет подключить модель к локальному агенту-ассистенту, Gemma 4 совместима с openclaw, hermes, pi и open code – всё через локальный сервер на базе llama.cpp.

Дообучение Gemma 4 под разные сценарии

Дообучение: от симулятора вождения до вашего сценария

Gemma 4 поддерживает дообучение (fine-tuning) – то есть настройку модели под конкретную задачу. Это доступно через TRL, причём в рамках релиза TRL получил обновление: теперь во время обучения модель может получать изображения обратно от инструментов, а не только текст.

В качестве демонстрации была подготовлена обучающая сцена, где Gemma 4 учится управлять автомобилем в симуляторе CARLA: модель видит дорогу через камеру, принимает решения и обучается по результатам. После тренировки модель стабильно объезжает пешеходов. Тот же принцип применим к робототехнике, управлению браузером и другим интерактивным сценариям.

Также доступен вариант дообучения через облачную платформу Vertex AI – с примером расширения возможностей функциональных вызовов при фиксированных визуальном и аудиомодулях. Для тех, кто предпочитает графический интерфейс, поддерживается Unsloth Studio – локально или через Google Colab.

Значение Gemma 4 для специалистов по ИИ

Что это значит для тех, кто работает с ИИ

Gemma 4 – это не экспериментальный прототип и не демо. Это полноценное семейство моделей, которое можно использовать прямо сейчас: запускать локально, дообучать под задачу, встраивать в агентные системы.

Открытая лицензия снимает типичные вопросы об ограничениях использования. Поддержка мультимодальности – изображений, аудио и видео – из коробки расширяет круг задач без необходимости собирать несколько отдельных моделей. А доступность на устройстве означает, что это применимо не только там, где есть GPU-сервер.

Открытых вопросов остаётся немало: обучающие данные и рецепт тренировки не раскрываются, производительность на специализированных доменах ещё предстоит проверить сообществу. Но старт у Gemma 4 – убедительный.

#событие #технический контекст #нейросети #развитие ии #инженерия #инфраструктура #открытые языковые модели #мультимодальные модели #мультимодальный ии

Ссылка на публикацию: https://huggingface.co/blog/gemma4

Оригинальное название: Welcome Gemma 4: Frontier multimodal intelligence on device

Дата публикации: 2 апр 2026

Hugging Face huggingface.co Американская открытая платформа и компания для хостинга, обучения и распространения ИИ-моделей.

Предыдущая статья Qwen3.6-Plus: новая модель от Alibaba на пути к настоящим ИИ-агентам Следующая статья Google Vids: бесплатная генерация видео с музыкой – что изменилось в редакторе

Gemma 4: мультимодальный ИИ от Google DeepMind для запуска на устройстве

Мультимодальные возможности Gemma 4: текст, изображения, видео, аудио

Размеры моделей Gemma 4: от мобильных устройств до серверов

Архитектура Gemma 4 и принципы работы

Запуск Gemma 4 на различных платформах

Дообучение Gemma 4 под разные сценарии

Значение Gemma 4 для специалистов по ИИ

Связанные публикации

Qwen3.5: первая модель с нативной мультимодальностью

Qwen3.6-Plus: новая модель от Alibaba на пути к настоящим ИИ-агентам

Liquid AI выпустила крупнейшую языковую модель LFM2 – и она работает даже на обычном ноутбуке

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации