Большинство разговоров об ИИ сосредоточено на облачных сервисах: модель находится где-то в дата-центре, вы отправляете запрос, получаете ответ. Однако параллельно уже несколько лет развивается другой процесс – попытка запустить нейросеть непосредственно на телефоне, ноутбуке или небольшом компьютере, без интернета и без использования сторонних серверов. Google сделала в этом направлении заметный шаг, выпустив семейство моделей Gemma 4.
Что вообще вышло
Gemma 4 – это не одна модель, а четыре различных варианта для разных задач и устройств. Два из них, E2B и E4B, рассчитаны буквально на смартфон: они достаточно компактны, чтобы работать автономно, без подключения к сети. Два других – модели покрупнее, на 26 и 31 миллиард параметров – ориентированы на ПК и ноутбуки, но тоже могут функционировать локально, без облака.
Если коротко: впервые в линейке Gemma появились модели, которые реально помещаются на обычный телефон и при этом умеют не только отвечать на текстовые вопросы.
Что умеют эти модели
Все четыре варианта Gemma 4 мультимодальны – они понимают не только текст, но и изображения, и видео. Компактные версии (E2B и E4B) идут дальше: они также воспринимают аудио. Проще говоря, такая модель может слушать, смотреть и читать – и всё это прямо на устройстве, без отправки данных куда-либо.
Это открывает довольно конкретные сценарии: распознавание речи офлайн, анализ фотографий без загрузки в облако, помощник, который работает даже без интернета. Для тех, кому важна приватность данных или просто нет стабильного соединения, это существенно.
Отдельно стоит отметить: Gemma 4 изначально спроектирована для так называемых агентных сценариев. Это когда модель не просто отвечает на вопрос, а выполняет последовательность действий – например, находит информацию, обрабатывает её и формирует структурированный результат. Для этого в модели реализована нативная поддержка вызова внешних функций и вывода данных в структурированном формате.
Размер имеет значение – но не всегда то, что в названии
Один из интересных моментов в Gemma 4 – это то, как устроена модель на 26 миллиардов параметров. Она использует архитектуру, которую называют «смесь экспертов» (Mixture of Experts). Звучит сложно, но идея простая: модель большая, однако при каждом запросе активируется лишь небольшая её часть – около 4 миллиардов параметров из 26. Это как если бы в команде было 26 специалистов, но на каждую задачу выходят только те четверо, кто нужен прямо сейчас.
Благодаря этому модель работает быстрее и требует меньше ресурсов, чем можно было бы ожидать от её полного размера.
Старшая модель, 31B, устроена иначе – все параметры активны одновременно, – но зато показывает более высокие результаты на независимых тестах. По данным рейтинга Arena AI Text, она заняла третье место среди открытых моделей, уступая только более крупным конкурентам.
Почему это не просто очередной релиз
Gemma – открытая линейка: веса моделей опубликованы под лицензией Apache 2.0, что означает практически свободное коммерческое использование. Это важно, потому что большинство сильных моделей такого уровня либо закрыты, либо имеют ограничения на применение в продуктах.
Разработка компактных версий E2B и E4B велась совместно с Qualcomm и MediaTek – производителями процессоров, которые стоят в большинстве современных Android-смартфонов. Это значит, что модели оптимизированы под реальное железо, а не просто теоретически помещаются в нужный объём памяти.
С момента выхода первого поколения Gemma модели этой линейки были скачаны более 400 миллионов раз, а сообщество создало свыше 100 000 модификаций на их основе. Gemma 4 – это ответ на накопленный опыт: что работало, чего не хватало, какие сценарии оказались востребованными.
Что остаётся за кадром
При всей привлекательности идеи «ИИ прямо на телефоне» стоит держать в уме несколько вещей.
Во-первых, компактные модели – это всегда компромисс. E2B и E4B отлично подходят для базовых задач, но не стоит ожидать от них того же уровня рассуждений, что от 31B-версии. Google сама признаёт, что самая маленькая модель на отдельных тестах уступает предыдущей Gemma 3 на 27 миллиардов параметров.
Во-вторых, техническая документация на момент релиза ещё не была опубликована в полном объёме. Это означает, что независимая проверка возможностей моделей – дело ближайшего времени, а не свершившийся факт.
В-третьих, сам рынок локального ИИ пока только формируется. Есть конкурирующие решения – например, Qwen 3, с которым сравнивают старшие модели Gemma 4, – и сказать, что один подход окончательно победил другой, пока нельзя.
Тем не менее, направление очевидно: мощные языковые модели становятся меньше, дешевле в эксплуатации и ближе к конечному устройству. Gemma 4 – один из наиболее убедительных аргументов в пользу того, что этот путь уже вполне реален.