Облачный шлюз Higress получил обновление с поддержкой стандарта Gateway API и специальными возможностями для работы с моделями искусственного интеллекта.
ИИ: События
Как AMD и Qwen выжали максимум из видеокарт MI300X
Технический контекст • Инфраструктура
Команда Qwen оптимизировала свои модели для работы на AMD MI300X, добившись задержки отклика до 15 мс на токен и полной генерации изображения за 0,4 секунды.
ИИ: События
LightOn выпустила NextPlaid – базу данных для быстрого поиска информации в ИИ-приложениях
Продукты
Французская компания представила инструмент, который помогает языковым моделям находить нужные данные точнее и быстрее, используя несколько способов представления информации.
Разбираемся, как заставить языковые модели работать быстрее и дешевле – от оптимизации рантаймов до распределённой обработки запросов.
Команда Perplexity рассказала, как создавалась их поисковая система, обрабатывающая 200 миллионов запросов в день и работающая в связке с языковыми моделями.
ИИ: События
RDMA для языковых моделей: когда серверы учатся общаться напрямую
Технический контекст • Инфраструктура
Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.
ИИ: События
Как уменьшить «аппетиты» эмбеддинг-моделей на AMD Ryzen AI
Технический контекст • Разработка
AMD представила простой способ сжатия моделей эмбеддингов для локальных NPU: конвертацию весов из формата FP32 в BF16 с помощью нескольких строк кода на Python.
ИИ: События
Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%
Технический контекст • Инфраструктура
Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.
Чтобы нейросети работали быстро и стабильно, им нужны особые процессоры. Это влияет на то, какие AI-сервисы мы можем получить в итоге.