Google добавила в Gemini API два новых режима обработки запросов – Flex и Priority, чтобы разработчики могли самостоятельно выбирать между скоростью и стоимостью.
ИИ: События
Red Hat и NVIDIA показали рекордные результаты в тестах производительности ИИ
Инфраструктура
Red Hat и NVIDIA совместно добились лидирующих показателей в независимом тесте MLPerf Inference v6.0, охватывающем задачи распознавания изображений, речи и рассуждений.
ИИ: События
Когда одного GPU мало, а денег на второй нет: новый подход к запуску ИИ в продакшене
Инфраструктура
Два новых open-source проекта предлагают способ запускать несколько ИИ-моделей на одном GPU с динамическим управлением памятью и без потери производительности.
ИИ: События
Когда один GPU выходит из строя, а система продолжает работать: как SGLang научился переживать частичные сбои
Технический контекст • Инфраструктура
Разработчики SGLang представили механизм, позволяющий сохранять работоспособность системы при частичных сбоях в крупных GPU-кластерах.
ИИ: События
Mamba-3: быстрее трансформеров на практике, а не только на бумаге
Технический контекст • Исследования
Вышла Mamba-3 – открытая языковая модель, которая обгоняет трансформеры по скорости генерации текста и превосходит предыдущие версии по качеству.
AMD объясняет, почему сравнение ИИ-ускорителей по одному показателю производительности вводит в заблуждение, и предлагает многомерный подход к оценке.
ИИ: События
ZenDNN 5.2: как AMD ускорила работу языковых моделей на обычных серверных процессорах
Инфраструктура
AMD выпустила ZenDNN 5.2 – обновление, которое заметно ускоряет запуск языковых моделей на серверных процессорах EPYC без использования видеокарт.
OpenAI выпустила GPT-5.3 Instant – облегчённую версию модели, предназначенную для скорости и удобства в обычных диалогах и рутинных задачах.
ИИ: События
Ускорение инференса в 25 раз: что происходит с производительностью ИИ на новом оборудовании NVIDIA
Инфраструктура
Новый сервер NVIDIA GB300 NVL72 в связке с фреймворком SGLang показал 25-кратный прирост производительности при запуске языковых моделей.