Пока большинство продвинутых ИИ-моделей требуют мощных серверов и облачных подключений, Google двинулась в другом направлении. Семейство Gemma 4 – это четыре открытые модели, которые можно запускать локально: от смартфона до обычного персонального компьютера с одной видеокартой.
Откуда это всё взялось
Gemma – линейка открытых моделей Google, которая существует уже несколько поколений. Gemma 4 построена на технологиях, лежащих в основе Gemini 3 – проприетарной флагманской модели компании. Проще говоря, часть того, что раньше было доступно только через платные сервисы Google, теперь можно скачать и запустить самостоятельно.
С момента появления первого поколения Gemma разработчики загрузили модели семейства более 400 миллионов раз, а сообщество создало свыше 100 000 производных вариантов. Это достаточно весомый сигнал того, что открытые модели действительно используются – не только ради эксперимента, но и в реальных проектах.
Четыре модели – четыре сценария использования
Семейство Gemma 4 включает модели разного размера, и это не просто градация «слабее – сильнее». Каждый вариант рассчитан на конкретный класс задач и оборудования.
E2B и E4B – самые компактные. Они разработаны в партнёрстве с Qualcomm и MediaTek и оптимизированы для запуска прямо на мобильных устройствах: смартфонах на Android, одноплатных компьютерах типа Raspberry Pi и подобных устройствах. Работают полностью офлайн – без подключения к интернету и без отправки данных на серверы. Оба поддерживают не только изображения и текст, но и аудиовход, то есть могут распознавать речь прямо на устройстве.
26B MoE – модель с архитектурой «смесь экспертов». Если коротко: несмотря на то что модель содержит 26 миллиардов параметров, при работе она одновременно задействует лишь около 4 миллиардов. Это позволяет ей работать быстрее и экономнее, чем можно было бы ожидать от такого размера. Для пользователя это означает меньшую нагрузку на железо при сопоставимом качестве.
31B Dense – старшая модель семейства, где все параметры активны одновременно. Именно она заняла третье место среди открытых моделей в международном рейтинге Arena AI. По данным Google, она конкурирует с системами, которые в 20 раз превосходят её по размеру.
Что умеют все четыре
Все модели семейства мультимодальны: они принимают на вход не только текст, но и изображения, видео с переменным разрешением. Компактные версии дополнительно поддерживают аудио. Это значит, что модель можно попросить описать изображение, расшифровать видеофрагмент или распознать речь – и всё это локально, без облака.
Контекстное окно – то есть объём информации, который модель может удерживать в «рабочей памяти» за один сеанс – составляет до 128 тысяч токенов у компактных версий и до 256 тысяч у старших. Для сравнения: 128 тысяч токенов – это примерно несколько сотен страниц текста.
Все четыре модели поддерживают более 140 языков, причём с учётом культурного контекста. Генерация кода, сложные логические задачи, многоэтапные рассуждения – всё это заявлено как базовые возможности, а не дополнительные надстройки.
Агентный режим – это уже не эксперимент
Отдельного внимания заслуживает то, что Gemma 4 изначально проектировалась для так называемых агентных сценариев. Это когда модель не просто отвечает на вопросы, а самостоятельно планирует последовательность действий, взаимодействует с внешними инструментами и выполняет многошаговые задачи.
В отличие от предыдущих поколений, у Gemma 4 есть встроенная поддержка вызова функций и структурированного вывода данных. Проще говоря, модель может «общаться» с другими программами и сервисами по чётко заданным правилам – это базовое требование для построения автономных ИИ-агентов.
Открытая лицензия – и это важно
Предыдущие поколения Gemma распространялись под собственной лицензией Google с рядом ограничений. Gemma 4 выходит под лицензией Apache 2.0 – одной из самых свободных в мире открытого ПО. Это означает, что модели можно использовать в коммерческих продуктах, модифицировать и распространять практически без ограничений.
Для бизнеса это в первую очередь вопрос контроля: данные не покидают инфраструктуру компании, нет зависимости от внешних API, нет абонентской платы. Для разработчиков-энтузиастов – просто возможность взять и поэкспериментировать без юридических препятствий.
Почему это интересно за пределами профессиональной среды
Запуск сильной модели прямо на смартфоне – без отправки запросов куда-либо – это не только про скорость и приватность. Это про то, что ИИ перестаёт быть исключительно облачной услугой. Сценарии, которые раньше требовали подписки на дорогой сервис, теперь могут работать локально и бесплатно.
Насколько это реально в повседневном использовании – вопрос отдельный. Компактные модели хороши, но старшие версии по-прежнему требуют нормального железа. Тем не менее сам факт того, что модель с сотнями миллионов параметров помещается на одну видеокарту и работает без интернета, – это уже показательный сдвиг в том, куда движется индустрия.