Когда разрабатывают что-то с использованием языковых моделей, рано или поздно сталкиваются с одним и тем же вопросом: как не платить за скорость там, где она не нужна, и при этом не ждать по несколько секунд там, где пользователь ожидает ответа прямо сейчас? Это не теоретическая дилемма – это вполне практическая проблема, с которой сталкиваются практически все, кто создаёт продукты на основе больших языковых моделей.
Google решила дать разработчикам возможность выбирать самостоятельно. В Gemini API появились два новых режима работы: Flex и Priority. Проще говоря, теперь можно явно указать, что для вас важнее в конкретном случае – сэкономить или получить ответ как можно быстрее.
Что такое Flex и зачем он нужен
Flex – это режим с более низкой стоимостью, но без жёстких гарантий по времени ответа. Запросы в этом режиме обрабатываются в периоды, когда у инфраструктуры Google есть свободные мощности. Если коротко: вы встаёте в очередь, но платите меньше.
Это не значит, что ответа придётся ждать часами. Речь скорее о том, что система не резервирует под ваш запрос ресурсы немедленно – она обрабатывает его тогда, когда это удобно с точки зрения общей загрузки. Для большинства фоновых задач это абсолютно нормально.
Какие задачи хорошо подходят для Flex? Всё, что не требует немедленного ответа пользователю:
- пакетная обработка документов;
- автоматическая генерация черновиков, отчётов или резюме;
- анализ данных в нерабочее время;
- задачи, которые запускаются по расписанию, а не по клику.
Если разработчик строит, например, систему, которая ночью обрабатывает тысячи текстов и готовит сводку к утру, – Flex именно для этого и предназначен.
Priority – когда важна скорость
Priority – это противоположность. Здесь запросы получают приоритетный доступ к вычислительным мощностям, что означает более предсказуемое и низкое время ответа. Стоит это, соответственно, дороже.
Режим Priority подходит для ситуаций, когда пользователь ждёт ответа в реальном времени: чат-боты, живые ассистенты, интерактивные интерфейсы, инструменты, которые встроены в рабочий процесс и должны реагировать без заметных задержек.
По сути, это тот же Gemini, но с гарантией, что ваш запрос не окажется в конце очереди в момент пиковой нагрузки.
Почему это важно именно сейчас
Дело в том, что использование мощных языковых моделей в реальных продуктах – это не бесплатно. И по мере того как модели становятся сложнее (буквально недавно Google выпустила Gemini 3.1 Pro с заметно улучшенными логическими способностями), стоимость вычислений растёт вместе с ними.
Для небольших команд и стартапов это становится реальным барьером: хочется создавать сложные системы, но бюджет не резиновый. Flex снижает этот барьер – по крайней мере, для тех задач, где задержка некритична.
Параллельно Google продолжает работу над эффективностью своих систем: например, новый алгоритм TurboQuant позволяет существенно сократить потребление памяти при работе ИИ-моделей. Введение Flex и Priority – ещё один шаг в том же направлении: сделать ИИ более доступным без потери качества там, где качество критично.
Как это работает на практике – простой пример
Представьте команду, которая создаёт сервис для автоматической обработки клиентских отзывов. Часть из них нужно обработать сразу – например, если пользователь написал жалобу и ждёт ответа в чате. Это Priority. Другая часть – собрать статистику за неделю, сгенерировать аналитическую сводку, подготовить дайджест – может подождать до ночи. Это Flex.
Раньше пришлось бы либо платить по максимальной ставке за всё, либо как-то самостоятельно выстраивать логику управления нагрузкой. Теперь это можно сделать прямо на уровне запроса к API – выбрав нужный режим.
Что остаётся неизвестным
Google пока не раскрыла точных цифр: насколько Flex дешевле Priority, каковы гарантированные времена ответа в каждом режиме при разной нагрузке, и есть ли ограничения по объёму запросов в Flex в часы пик. Это важные детали для тех, кто планирует создавать продукты с конкретными SLA.
Также пока неясно, как именно будет вести себя Flex в периоды высокой общей нагрузки на инфраструктуру Google – будут ли задержки предсказуемыми или нет.
В целом появление двух явных режимов – это шаг в сторону большей прозрачности и гибкости. Разработчик теперь сам решает, за что платить, а не получает усреднённый сервис по усреднённой цене. Для индустрии, где стоимость инференса – один из ключевых факторов при выборе платформы, это ощутимое изменение.