Если следить за тем, как развивается рынок открытых ИИ-моделей, то последние несколько лет картина выглядела примерно так: крупные компании выпускают нечто мощное, но это «нечто» требует дорогого оборудования и работает только в облаке. Google с новой линейкой Gemma 4 пытается изменить этот баланс – и, судя по первым результатам, небезуспешно.
Что вообще произошло
2 апреля Google DeepMind представила Gemma 4 – четвёртое поколение своей серии открытых языковых моделей. Это не одна модель, а целое семейство из четырёх вариантов, рассчитанных на разные задачи и устройства. Все они распространяются под лицензией Apache 2.0 – это означает, что их можно свободно использовать в коммерческих проектах без лишних ограничений.
В основе Gemma 4 лежат те же исследования и технологии, что и у Gemini 3 – флагманской закрытой модели Google. Проще говоря, открытая версия впитала в себя достижения закрытой.
Четыре размера для разных задач
Семейство делится на четыре модели:
- E2B – самая компактная, около 2,3 млрд активных параметров. Работает на смартфоне или одноплатном компьютере, поддерживает аудиовход.
- E4B – чуть крупнее, около 4,5 млрд активных параметров. Тоже рассчитана на работу на устройстве, в том числе на Android-телефонах.
- 26B MoE – модель с архитектурой «смесь экспертов»: при 26 млрд параметров в общей сложности она реально задействует при работе лишь около 4 млрд. Это позволяет экономить вычислительные ресурсы без существенной потери качества.
- 31B Dense – флагман семейства, 31 млрд параметров, все активны одновременно. Занимает третье место среди открытых моделей в международном рейтинге Arena AI Text.
Для работы двух старших моделей нужен мощный видеоускоритель – например, Nvidia H100. Компактные E2B и E4B разрабатывались в партнёрстве с Qualcomm и MediaTek и оптимизированы специально под мобильные процессоры: они экономно расходуют память и энергию.
Не только текст: аудио, изображения и видео
Все четыре модели умеют работать не только с текстом, но и с изображениями и видео. Компактные E2B и E4B дополнительно поддерживают аудиовход – это открывает возможность распознавания речи прямо на устройстве, без отправки данных на сервер.
Важная техническая деталь, которая здесь имеет значение: модели умеют обрабатывать изображения с переменным соотношением сторон и гибко настраивать, сколько «внимания» уделять картинке. Это позволяет находить баланс между скоростью и качеством в зависимости от задачи – например, быстро обрабатывать низкое разрешение или тщательно анализировать детальное изображение.
Для чего это действительно полезно
Gemma 4 изначально проектировалась под агентные сценарии – это когда ИИ не просто отвечает на вопрос, а самостоятельно выполняет последовательность действий: вызывает инструменты, получает данные, принимает решения. Для этого модели нативно поддерживают структурированный вывод и вызов внешних функций.
Если коротко: это не просто чат-бот. Это основа для создания автономных помощников, которые могут, например, самостоятельно собирать информацию из разных источников и выдавать оформленный результат – без постоянного участия человека на каждом шагу.
Дополнительно модели показывают заметный прогресс в математических задачах и точном следовании инструкциям. Поддерживается более 140 языков, а контекстное окно у компактных версий – до 128 тысяч токенов, у старших – до 256 тысяч. Для сравнения: 128 тысяч токенов – это примерно несколько средних романов текстом.
Почему «на устройстве» – это важно
Большинство мощных ИИ-моделей работают в облаке: запрос уходит на сервер, там обрабатывается, возвращается ответ. Это удобно, но создаёт зависимость от интернета, добавляет задержку и поднимает вопросы приватности: данные покидают устройство.
Модели, работающие локально – прямо на смартфоне или ноутбуке, – лишены этих проблем. Они работают офлайн, реагируют быстро и не передают ничего наружу. Именно поэтому компактные варианты Gemma 4 интересны не только энтузиастам, но и корпоративным разработчикам, которым важен контроль над данными.
Старшие модели семейства, при всей своей мощности, помещаются на одном графическом ускорителе – это тоже выгодно отличает их от некоторых конкурентов, которым нужны целые кластеры.
Контекст: экосистема уже огромна
С момента выхода первого поколения Gemma разработчики скачали модели семейства более 400 миллионов раз и создали свыше 100 000 собственных модификаций на их основе. Это говорит о том, что Gemma – не просто технологическая демонстрация, а реально используемый инструмент в большом сообществе.
По словам исследователей Google DeepMind, команда целенаправленно работала над тем, чтобы максимизировать «интеллект на параметр» – то есть получить как можно более умную модель при минимальном размере. Судя по позициям в независимых рейтингах, это удалось: флагманская 31B конкурирует с моделями, которые в 20 раз больше по размеру.
Архитектурно Gemma 4 намеренно сделана совместимой с максимально широким спектром платформ и инструментов – это упрощает интеграцию и снижает порог входа для разработчиков. Модели также хорошо поддаются квантизации – процессу «сжатия», который позволяет запускать их на ещё более скромном железе с минимальной потерей качества.
В общем, Gemma 4 – это попытка Google дать разработчикам серьёзный инструмент, который не требует ни дорогой инфраструктуры, ни закрытого доступа. Получилось ли – покажет практика, но первые ориентиры выглядят убедительно.