Опубликовано 3 апреля 2026

Gemini API: Flex и Priority режимы для экономии и скорости

Дёшево и быстро одновременно: Google меняет подход к работе с Gemini API

Google добавила в Gemini API два новых режима обработки запросов – Flex и Priority, чтобы разработчики могли самостоятельно выбирать между скоростью и стоимостью.

Продукты 3 – 5 минут чтения

Источник события: Google 3 – 5 минут чтения

Когда разрабатывают что-то с использованием языковых моделей, рано или поздно сталкиваются с одним и тем же вопросом: как не платить за скорость там, где она не нужна, и при этом не ждать по несколько секунд там, где пользователь ожидает ответа прямо сейчас? Это не теоретическая дилемма – это вполне практическая проблема, с которой сталкиваются практически все, кто создаёт продукты на основе больших языковых моделей.

Google решила дать разработчикам возможность выбирать самостоятельно. В Gemini API появились два новых режима работы: Flex и Priority. Проще говоря, теперь можно явно указать, что для вас важнее в конкретном случае – сэкономить или получить ответ как можно быстрее.

Режим Flex в Gemini API: что это и для чего нужен

Что такое Flex и зачем он нужен

Flex – это режим с более низкой стоимостью, но без жёстких гарантий по времени ответа. Запросы в этом режиме обрабатываются в периоды, когда у инфраструктуры Google есть свободные мощности. Если коротко: вы встаёте в очередь, но платите меньше.

Это не значит, что ответа придётся ждать часами. Речь скорее о том, что система не резервирует под ваш запрос ресурсы немедленно – она обрабатывает его тогда, когда это удобно с точки зрения общей загрузки. Для большинства фоновых задач это абсолютно нормально.

Какие задачи хорошо подходят для Flex? Всё, что не требует немедленного ответа пользователю:

пакетная обработка документов;
автоматическая генерация черновиков, отчётов или резюме;
анализ данных в нерабочее время;
задачи, которые запускаются по расписанию, а не по клику.

Если разработчик строит, например, систему, которая ночью обрабатывает тысячи текстов и готовит сводку к утру, – Flex именно для этого и предназначен.

Priority режим в Gemini API: когда нужна скорость ответа

Priority – когда важна скорость

Priority – это противоположность. Здесь запросы получают приоритетный доступ к вычислительным мощностям, что означает более предсказуемое и низкое время ответа. Стоит это, соответственно, дороже.

Режим Priority подходит для ситуаций, когда пользователь ждёт ответа в реальном времени: чат-боты, живые ассистенты, интерактивные интерфейсы, инструменты, которые встроены в рабочий процесс и должны реагировать без заметных задержек.

По сути, это тот же Gemini, но с гарантией, что ваш запрос не окажется в конце очереди в момент пиковой нагрузки.

Значение новых режимов Flex и Priority для разработчиков

Почему это важно именно сейчас

Дело в том, что использование мощных языковых моделей в реальных продуктах – это не бесплатно. И по мере того как модели становятся сложнее (буквально недавно Google выпустила Gemini 3.1 Pro с заметно улучшенными логическими способностями), стоимость вычислений растёт вместе с ними.

Для небольших команд и стартапов это становится реальным барьером: хочется создавать сложные системы, но бюджет не резиновый. Flex снижает этот барьер – по крайней мере, для тех задач, где задержка некритична.

Параллельно Google продолжает работу над эффективностью своих систем: например, новый алгоритм TurboQuant позволяет существенно сократить потребление памяти при работе ИИ-моделей. Введение Flex и Priority – ещё один шаг в том же направлении: сделать ИИ более доступным без потери качества там, где качество критично.

Примеры использования режимов Flex и Priority на практике

Как это работает на практике – простой пример

Представьте команду, которая создаёт сервис для автоматической обработки клиентских отзывов. Часть из них нужно обработать сразу – например, если пользователь написал жалобу и ждёт ответа в чате. Это Priority. Другая часть – собрать статистику за неделю, сгенерировать аналитическую сводку, подготовить дайджест – может подождать до ночи. Это Flex.

Раньше пришлось бы либо платить по максимальной ставке за всё, либо как-то самостоятельно выстраивать логику управления нагрузкой. Теперь это можно сделать прямо на уровне запроса к API – выбрав нужный режим.

Режимы Flex и Priority: открытые вопросы от Google

Что остаётся неизвестным

Google пока не раскрыла точных цифр: насколько Flex дешевле Priority, каковы гарантированные времена ответа в каждом режиме при разной нагрузке, и есть ли ограничения по объёму запросов в Flex в часы пик. Это важные детали для тех, кто планирует создавать продукты с конкретными SLA.

Также пока неясно, как именно будет вести себя Flex в периоды высокой общей нагрузки на инфраструктуру Google – будут ли задержки предсказуемыми или нет.

В целом появление двух явных режимов – это шаг в сторону большей прозрачности и гибкости. Разработчик теперь сам решает, за что платить, а не получает усреднённый сервис по усреднённой цене. Для индустрии, где стоимость инференса – один из ключевых факторов при выборе платформы, это ощутимое изменение.

#прикладной разбор #системный анализ #нейросети #инфраструктура #бизнес #масштабирование #оптимизация моделей #оптимизация инференса

Ссылка на публикацию: https://blog.google/innovation-and-ai/technology/developers-tools/introducing-flex-and-priority-inference/

Оригинальное название: New ways to balance cost and reliability in the Gemini API

Дата публикации: 2 апр 2026

Google blog.google Международная технологическая компания, развивающая цифровые сервисы, облачные платформы и ИИ-технологии для поиска, рекламы, продуктивности и пользовательских продуктов.

Предыдущая статья HiClaw входит в состав AgentScope: Alibaba строит общую платформу для многоагентных систем Следующая статья EXAONE 4.5: LG выпускает свою первую открытую мультимодальную языковую модель

Gemini API: Flex и Priority режимы для экономии и скорости

Режим Flex в Gemini API: что это и для чего нужен

Priority режим в Gemini API: когда нужна скорость ответа

Значение новых режимов Flex и Priority для разработчиков

Примеры использования режимов Flex и Priority на практике

Режимы Flex и Priority: открытые вопросы от Google

Связанные публикации

AMD представила Lemonade – единый API для локального ИИ

Red Hat показывает, как ИИ может сделать сети телеком-операторов умнее и автономнее

Когда ИИ-агент уже готов, но его нужно запустить по-человечески

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации