Тематика #оптимизация инференса

ИИ: События

Higress: поддержка Gateway API и расширений для ИИ-инференса

Инфраструктура

Облачный шлюз Higress получил обновление с поддержкой стандарта Gateway API и специальными возможностями для работы с моделями искусственного интеллекта.

Alibaba Cloudwww.alibabacloud.com 14 фев 2026

ИИ: События

Как AMD и Qwen выжали максимум из видеокарт MI300X

Технический контекст • Инфраструктура

Команда Qwen оптимизировала свои модели для работы на AMD MI300X, добившись задержки отклика до 15 мс на токен и полной генерации изображения за 0,4 секунды.

LMSYS ORGlmsys.org 13 фев 2026

ИИ: События

LightOn выпустила NextPlaid – базу данных для быстрого поиска информации в ИИ-приложениях

Продукты

Французская компания представила инструмент, который помогает языковым моделям находить нужные данные точнее и быстрее, используя несколько способов представления информации.

LightOn AIwww.lighton.ai 11 фев 2026

ИИ: События

Как выжать максимум из AI-моделей: три подхода к ускорению инференса

Инфраструктура

Разбираемся, как заставить языковые модели работать быстрее и дешевле – от оптимизации рантаймов до распределённой обработки запросов.

Red Hatwww.redhat.com 8 фев 2026

ИИ: События

Как устроен поиск для ИИ: опыт Perplexity

Инфраструктура

Команда Perplexity рассказала, как создавалась их поисковая система, обрабатывающая 200 миллионов запросов в день и работающая в связке с языковыми моделями.

Perplexity AIresearch.perplexity.ai 7 фев 2026

ИИ: События

RDMA для языковых моделей: когда серверы учатся общаться напрямую

Технический контекст • Инфраструктура

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Perplexity AIresearch.perplexity.ai 7 фев 2026

ИИ: События

Как уменьшить «аппетиты» эмбеддинг-моделей на AMD Ryzen AI

Технический контекст • Разработка

AMD представила простой способ сжатия моделей эмбеддингов для локальных NPU: конвертацию весов из формата FP32 в BF16 с помощью нескольких строк кода на Python.

AMDwww.amd.com 6 фев 2026

ИИ: События

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Технический контекст • Инфраструктура

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Tencenthunyuan.tencent.com 4 фев 2026

ИИ: События

Как специализированные чипы меняют работу ИИ

Инфраструктура

Чтобы нейросети работали быстро и стабильно, им нужны особые процессоры. Это влияет на то, какие AI-сервисы мы можем получить в итоге.

Clova AIclova.ai 30 янв 2026