Опубликовано 3 апреля 2026

Gemini API: Flex и Priority режимы для экономии и скорости

Дёшево и быстро одновременно: Google меняет подход к работе с Gemini API

Google добавила в Gemini API два новых режима обработки запросов – Flex и Priority, чтобы разработчики могли самостоятельно выбирать между скоростью и стоимостью.

Продукты 3 – 5 минут чтения
Источник события: Google 3 – 5 минут чтения

Когда разрабатывают что-то с использованием языковых моделей, рано или поздно сталкиваются с одним и тем же вопросом: как не платить за скорость там, где она не нужна, и при этом не ждать по несколько секунд там, где пользователь ожидает ответа прямо сейчас? Это не теоретическая дилемма – это вполне практическая проблема, с которой сталкиваются практически все, кто создаёт продукты на основе больших языковых моделей.

Google решила дать разработчикам возможность выбирать самостоятельно. В Gemini API появились два новых режима работы: Flex и Priority. Проще говоря, теперь можно явно указать, что для вас важнее в конкретном случае – сэкономить или получить ответ как можно быстрее.

Режим Flex в Gemini API: что это и для чего нужен

Что такое Flex и зачем он нужен

Flex – это режим с более низкой стоимостью, но без жёстких гарантий по времени ответа. Запросы в этом режиме обрабатываются в периоды, когда у инфраструктуры Google есть свободные мощности. Если коротко: вы встаёте в очередь, но платите меньше.

Это не значит, что ответа придётся ждать часами. Речь скорее о том, что система не резервирует под ваш запрос ресурсы немедленно – она обрабатывает его тогда, когда это удобно с точки зрения общей загрузки. Для большинства фоновых задач это абсолютно нормально.

Какие задачи хорошо подходят для Flex? Всё, что не требует немедленного ответа пользователю:

  • пакетная обработка документов;
  • автоматическая генерация черновиков, отчётов или резюме;
  • анализ данных в нерабочее время;
  • задачи, которые запускаются по расписанию, а не по клику.

Если разработчик строит, например, систему, которая ночью обрабатывает тысячи текстов и готовит сводку к утру, – Flex именно для этого и предназначен.

Priority режим в Gemini API: когда нужна скорость ответа

Priority – когда важна скорость

Priority – это противоположность. Здесь запросы получают приоритетный доступ к вычислительным мощностям, что означает более предсказуемое и низкое время ответа. Стоит это, соответственно, дороже.

Режим Priority подходит для ситуаций, когда пользователь ждёт ответа в реальном времени: чат-боты, живые ассистенты, интерактивные интерфейсы, инструменты, которые встроены в рабочий процесс и должны реагировать без заметных задержек.

По сути, это тот же Gemini, но с гарантией, что ваш запрос не окажется в конце очереди в момент пиковой нагрузки.

Значение новых режимов Flex и Priority для разработчиков

Почему это важно именно сейчас

Дело в том, что использование мощных языковых моделей в реальных продуктах – это не бесплатно. И по мере того как модели становятся сложнее (буквально недавно Google выпустила Gemini 3.1 Pro с заметно улучшенными логическими способностями), стоимость вычислений растёт вместе с ними.

Для небольших команд и стартапов это становится реальным барьером: хочется создавать сложные системы, но бюджет не резиновый. Flex снижает этот барьер – по крайней мере, для тех задач, где задержка некритична.

Параллельно Google продолжает работу над эффективностью своих систем: например, новый алгоритм TurboQuant позволяет существенно сократить потребление памяти при работе ИИ-моделей. Введение Flex и Priority – ещё один шаг в том же направлении: сделать ИИ более доступным без потери качества там, где качество критично.

Примеры использования режимов Flex и Priority на практике

Как это работает на практике – простой пример

Представьте команду, которая создаёт сервис для автоматической обработки клиентских отзывов. Часть из них нужно обработать сразу – например, если пользователь написал жалобу и ждёт ответа в чате. Это Priority. Другая часть – собрать статистику за неделю, сгенерировать аналитическую сводку, подготовить дайджест – может подождать до ночи. Это Flex.

Раньше пришлось бы либо платить по максимальной ставке за всё, либо как-то самостоятельно выстраивать логику управления нагрузкой. Теперь это можно сделать прямо на уровне запроса к API – выбрав нужный режим.

Режимы Flex и Priority: открытые вопросы от Google

Что остаётся неизвестным

Google пока не раскрыла точных цифр: насколько Flex дешевле Priority, каковы гарантированные времена ответа в каждом режиме при разной нагрузке, и есть ли ограничения по объёму запросов в Flex в часы пик. Это важные детали для тех, кто планирует создавать продукты с конкретными SLA.

Также пока неясно, как именно будет вести себя Flex в периоды высокой общей нагрузки на инфраструктуру Google – будут ли задержки предсказуемыми или нет.

В целом появление двух явных режимов – это шаг в сторону большей прозрачности и гибкости. Разработчик теперь сам решает, за что платить, а не получает усреднённый сервис по усреднённой цене. Для индустрии, где стоимость инференса – один из ключевых факторов при выборе платформы, это ощутимое изменение.

Оригинальное название: New ways to balance cost and reliability in the Gemini API
Дата публикации: 2 апр 2026
Google blog.google Международная технологическая компания, развивающая цифровые сервисы, облачные платформы и ИИ-технологии для поиска, рекламы, продуктивности и пользовательских продуктов.
Предыдущая статья HiClaw входит в состав AgentScope: Alibaba строит общую платформу для многоагентных систем Следующая статья EXAONE 4.5: LG выпускает свою первую открытую мультимодальную языковую модель

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Red Hat представила свой подход к созданию телекоммуникационных сетей, способных к самопоправлению и автономному управлению с помощью искусственного интеллекта и инструментов автоматизации.

Red Hatwww.redhat.com 9 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться