Интеллектуальный хаб темы

оптимизация инференса

ИИ: События

Как AMD и Qwen выжали максимум из видеокарт MI300X

Технический контекст Инфраструктура

Команда Qwen оптимизировала свои модели для работы на AMD MI300X, добившись задержки отклика до 15 мс на токен и полной генерации изображения за 0,4 секунды.

LMSYS ORGlmsys.org 13 фев 2026

Французская компания представила инструмент, который помогает языковым моделям находить нужные данные точнее и быстрее, используя несколько способов представления информации.

LightOn AIwww.lighton.ai 11 фев 2026

ИИ: События

Как устроен поиск для ИИ: опыт Perplexity

Инфраструктура

Команда Perplexity рассказала, как создавалась их поисковая система, обрабатывающая 200 миллионов запросов в день и работающая в связке с языковыми моделями.

Perplexity AIresearch.perplexity.ai 7 фев 2026

ИИ: События

RDMA для языковых моделей: когда серверы учатся общаться напрямую

Технический контекст Инфраструктура

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Perplexity AIresearch.perplexity.ai 7 фев 2026

ИИ: События

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Технический контекст Инфраструктура

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Tencenthunyuan.tencent.com 4 фев 2026

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться