Опубликовано 3 апреля 2026

Gemma 4: мультимодальный ИИ от Google DeepMind для запуска на устройстве

Gemma 4: мультимодальный ИИ от Google DeepMind, работающий прямо на устройстве

Google DeepMind выпустила Gemma 4 – открытое семейство мультимодальных моделей, работающих с текстом, изображениями, видео и аудио непосредственно на устройстве.

Продукты / Технический контекст 4 – 6 минут чтения
Источник события: Hugging Face 4 – 6 минут чтения

Если следить за тем, как развиваются открытые языковые модели, последние месяцы ясно показывают: граница между тем, что доступно только в облаке крупных компаний, и тем, что можно запустить локально, становится всё тоньше. Новый релиз от Google DeepMind это подтверждает.

Семейство моделей Gemma 4 стало доступно широкой аудитории. Модели распространяются под лицензией Apache 2.0 – это означает, что их можно свободно использовать, модифицировать и встраивать в собственные проекты, в том числе коммерческие.

Мультимодальные возможности Gemma 4: текст, изображения, видео, аудио

Не просто текст: изображения, видео и звук в одной модели

Gemma 4 – это мультимодальные модели. Проще говоря, они умеют работать не только с текстом, но и с изображениями, видео и аудио. На выходе модели всегда генерируют текст, однако то, что они могут принять на вход, заметно расширилось.

Все варианты моделей в семействе поддерживают изображения и текст. Младшие модели – E2B и E4B – дополнительно работают с аудио. Видео поддерживают все размеры, хотя у старших версий аудиодорожка из видео не обрабатывается.

На практике это означает, что модель может, например, описать содержимое фотографии, ответить на вопросы по аудиозаписи, распознать объекты на изображении и вернуть их координаты, расшифровать речь или написать HTML-код по скриншоту страницы. В ходе тестирования с предрелизными версиями исследователям удавалось получить хорошие результаты без какой-либо дополнительной настройки модели – что само по себе непросто воспроизвести.

Размеры моделей Gemma 4: от мобильных устройств до серверов

Четыре размера – от «на телефоне» до «серьёзного сервера»

Семейство Gemma 4 включает четыре варианта: E2B, E4B, 26B/A4B (модель с разреженной архитектурой, где одновременно активны около 4 миллиардов параметров) и 31B (плотная модель). Все варианты выпущены как в базовой версии, так и в версии, настроенной на диалог.

Два меньших варианта ориентированы на запуск прямо на устройстве – смартфоне, ноутбуке или другом локальном оборудовании. Два крупных – для серверной инфраструктуры или облачных вычислений.

Что касается качества: 31B-модель получила расчётную оценку 1452 на текстовом бенчмарке LMArena, а 26B/A4B – 1441. Для сравнения, это сопоставимо с показателями таких моделей, как GLM-5 или Kimi K2.5, но при значительно меньшем числе параметров. Соотношение «размер / результат» у Gemma 4 выглядит весьма убедительно.

Архитектура Gemma 4 и принципы работы

Как это работает – в двух словах об архитектуре

Не обязательно погружаться в детали, чтобы пользоваться моделью. Но если интересно понять, за счёт чего достигается такая эффективность – вот ключевые идеи.

Модель сочетает два типа механизма внимания: локальный (анализирует ближайший контекст) и глобальный (охватывает весь текст). Это позволяет эффективно работать с длинными текстами, не тратя лишние вычислительные ресурсы.

Одна из интересных особенностей – так называемые Per-Layer Embeddings (PLE). В стандартных моделях каждый токен (условная единица текста) получает одно числовое представление на входе, которое затем используется на всех уровнях обработки. PLE добавляет к этому небольшой дополнительный сигнал для каждого уровня отдельно – модель как бы получает уточнённую информацию о токене именно тогда, когда это нужно, а не всё сразу в самом начале. При этом дополнительная нагрузка на память невелика.

Ещё одна оптимизация – Shared KV Cache. Несколько последних слоёв модели не вычисляют собственные промежуточные состояния, а переиспользуют уже посчитанные. Это снижает потребление памяти и ускоряет генерацию, особенно при работе с длинными текстами. На качество это практически не влияет.

Запуск Gemma 4 на различных платформах

Запуск везде: от браузера до Apple Silicon

Gemma 4 с первого дня поддерживается в широком наборе инструментов для запуска моделей. Это важно: новая модель часто появляется раньше, чем её успевают поддержать любимые инструменты разработчиков, и это создаёт трение. Здесь ситуация другая.

Модель работает через transformers, llama.cpp (включая совместимость с LM Studio, Jan и локальными агентами), MLX на устройствах Apple Silicon, mistral.rs (реализация на Rust), а также прямо в браузере через WebGPU. Доступны также ONNX-чекпоинты для запуска на граничных устройствах.

Для тех, кто хочет подключить модель к локальному агенту-ассистенту, Gemma 4 совместима с openclaw, hermes, pi и open code – всё через локальный сервер на базе llama.cpp.

Дообучение Gemma 4 под разные сценарии

Дообучение: от симулятора вождения до вашего сценария

Gemma 4 поддерживает дообучение (fine-tuning) – то есть настройку модели под конкретную задачу. Это доступно через TRL, причём в рамках релиза TRL получил обновление: теперь во время обучения модель может получать изображения обратно от инструментов, а не только текст.

В качестве демонстрации была подготовлена обучающая сцена, где Gemma 4 учится управлять автомобилем в симуляторе CARLA: модель видит дорогу через камеру, принимает решения и обучается по результатам. После тренировки модель стабильно объезжает пешеходов. Тот же принцип применим к робототехнике, управлению браузером и другим интерактивным сценариям.

Также доступен вариант дообучения через облачную платформу Vertex AI – с примером расширения возможностей функциональных вызовов при фиксированных визуальном и аудиомодулях. Для тех, кто предпочитает графический интерфейс, поддерживается Unsloth Studio – локально или через Google Colab.

Значение Gemma 4 для специалистов по ИИ

Что это значит для тех, кто работает с ИИ

Gemma 4 – это не экспериментальный прототип и не демо. Это полноценное семейство моделей, которое можно использовать прямо сейчас: запускать локально, дообучать под задачу, встраивать в агентные системы.

Открытая лицензия снимает типичные вопросы об ограничениях использования. Поддержка мультимодальности – изображений, аудио и видео – из коробки расширяет круг задач без необходимости собирать несколько отдельных моделей. А доступность на устройстве означает, что это применимо не только там, где есть GPU-сервер.

Открытых вопросов остаётся немало: обучающие данные и рецепт тренировки не раскрываются, производительность на специализированных доменах ещё предстоит проверить сообществу. Но старт у Gemma 4 – убедительный.

Ссылка на публикацию: https://huggingface.co/blog/gemma4
Оригинальное название: Welcome Gemma 4: Frontier multimodal intelligence on device
Дата публикации: 2 апр 2026
Hugging Face huggingface.co Американская открытая платформа и компания для хостинга, обучения и распространения ИИ-моделей.
Предыдущая статья Qwen3.6-Plus: новая модель от Alibaba на пути к настоящим ИИ-агентам Следующая статья Google Vids: бесплатная генерация видео с музыкой – что изменилось в редакторе

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Qwen3.6-Plus: новая модель от Alibaba на пути к настоящим ИИ-агентам

Технический контекст Продукты

Alibaba выпустила Qwen3.6-Plus – обновлённую мультимодальную модель с улучшенными агентными возможностями, миллионным контекстом и поддержкой работы с кодом.

Alibaba Cloudwww.alibabacloud.com 2 апр 2026

Liquid AI представила LFM2-24B – свою крупнейшую языковую модель, отличающуюся нестандартной архитектурой и способную работать как в облаке, так и на локальных устройствах.

Liquidwww.liquid.ai 25 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться