Тематика #оптимизация инференса

ИИ: События

Дёшево и быстро одновременно: Google меняет подход к работе с Gemini API

Продукты

Google добавила в Gemini API два новых режима обработки запросов – Flex и Priority, чтобы разработчики могли самостоятельно выбирать между скоростью и стоимостью.

Googleblog.google 3 апр 2026

ИИ: События

Red Hat и NVIDIA показали рекордные результаты в тестах производительности ИИ

Инфраструктура

Red Hat и NVIDIA совместно добились лидирующих показателей в независимом тесте MLPerf Inference v6.0, охватывающем задачи распознавания изображений, речи и рассуждений.

Red Hatwww.redhat.com 3 апр 2026

ИИ: События

Когда одного GPU мало, а денег на второй нет: новый подход к запуску ИИ в продакшене

Инфраструктура

Два новых open-source проекта предлагают способ запускать несколько ИИ-моделей на одном GPU с динамическим управлением памятью и без потери производительности.

Red Hatwww.redhat.com 2 апр 2026

ИИ: События

Когда один GPU выходит из строя, а система продолжает работать: как SGLang научился переживать частичные сбои

Технический контекст • Инфраструктура

Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.

LMSYS ORGlmsys.org 26 мар 2026

ИИ: События

Mamba-3: быстрее трансформеров на практике, а не только на бумаге

Технический контекст • Исследования

Вышла Mamba-3 – открытая языковая модель, которая обгоняет трансформеры по скорости генерации текста и превосходит предыдущие версии по качеству.

Together.aiwww.together.ai 19 мар 2026

ИИ: События

Инференс: почему нельзя сравнивать ИИ-ускорители по одной цифре

Инфраструктура

AMD объясняет, почему сравнение ИИ-ускорителей по одному показателю производительности вводит в заблуждение, и предлагает многомерный подход к оценке.

AMDwww.amd.com 19 мар 2026

ИИ: События

ZenDNN 5.2: как AMD ускорила работу языковых моделей на обычных серверных процессорах

Инфраструктура

AMD выпустила ZenDNN 5.2 – обновление, которое заметно ускоряет запуск языковых моделей на серверных процессорах EPYC без использования видеокарт.

AMDwww.amd.com 13 мар 2026

ИИ: События

GPT-5.3 Instant: быстрее, понятнее, удобнее в повседневных задачах

Продукты

OpenAI выпустила GPT-5.3 Instant – облегчённую версию модели, предназначенную для скорости и удобства в обычных диалогах и рутинных задачах.

OpenAIopenai.com 7 мар 2026

ИИ: События

Ускорение инференса в 25 раз: что происходит с производительностью ИИ на новом оборудовании NVIDIA

Инфраструктура

Новый сервер NVIDIA GB300 NVL72 в связке с фреймворком SGLang показал 25-кратный прирост производительности при запуске языковых моделей.

LMSYS ORGlmsys.org 4 мар 2026