Опубликовано

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Технический контекст Инфраструктура
Источник события: Tencent Время чтения: 3 – 4 минуты

Tencent выложила в открытый доступ библиотеку HPC-Ops – набор низкоуровневых операторов для инференса больших языковых моделей. По данным компании, использование этих компонентов позволяет увеличить пропускную способность систем вывода примерно на 30% по сравнению со стандартными решениями.

Что такое операторы в языковых моделях и зачем их оптимизировать

Что такое операторы и зачем их оптимизировать

Когда языковая модель генерирует текст, она выполняет множество однотипных математических операций: умножение матриц, применение функций активации, расчёт внимания между токенами. Каждая такая операция – это оператор. От того, насколько эффективно они работают на конкретном оборудовании, зависит скорость ответа модели и количество запросов, которые сервер может обработать одновременно.

В больших продакшен-системах даже небольшое ускорение каждого оператора складывается в ощутимый выигрыш: модель отвечает быстрее, нагрузка распределяется лучше, можно обслужить больше пользователей на том же оборудовании.

Библиотека HPC-Ops от Tencent для ускорения инференса LLM

Что сделала Tencent

Команда Hunyuan AI – внутреннего подразделения Tencent, работающего с искусственным интеллектом – выпустила библиотеку операторов, заточенных под специфику инференса больших языковых моделей (LLM). Это не полноценный фреймворк для развёртывания моделей, а именно набор оптимизированных вычислительных блоков, которые можно встроить в существующие системы.

Основная идея – использовать особенности современных графических процессоров (GPU) и учесть типичные паттерны работы языковых моделей. Например, операции с вниманием или обработка длинных последовательностей токенов требуют специфичной работы с памятью и параллелизмом. HPC-Ops предлагает реализации, адаптированные под эти сценарии.

Прирост производительности при использовании HPC-Ops

Насколько это быстрее

Tencent заявляет о росте пропускной способности на 30%. Проще говоря, при той же инфраструктуре система может обрабатывать больше запросов в единицу времени. Это не значит, что каждый отдельный ответ станет в полтора раза быстрее – речь скорее о том, что сервер сможет эффективнее распоряжаться ресурсами при параллельной работе с несколькими пользователями.

Конкретные цифры зависят от модели, размера батча, длины контекста и оборудования. Но для компаний, которые обслуживают тысячи запросов в секунду, даже 20-30% прироста – это серьёзная экономия на оборудовании и электроэнергии.

Зачем Tencent открыла код библиотеки HPC-Ops

Зачем это открывать

Tencent использует эту библиотеку в собственных продуктах, где развёрнуты большие языковые модели. Теперь код доступен всем – это типичная стратегия крупных технологических компаний: поделиться инструментами, которые уже обкатаны в продакшене, чтобы поднять общий уровень инфраструктуры в индустрии и, возможно, получить обратную связь от сообщества.

Для разработчиков и команд, которые занимаются развёртыванием моделей, это возможность не писать оптимизации с нуля, а взять готовое решение, протестированное на реальных нагрузках.

Кому подойдёт библиотека HPC-Ops для работы с моделями

Кому это может быть полезно

В первую очередь – тем, кто работает с инференсом на уровне инфраструктуры: инженерам ML-платформ, разработчикам систем обслуживания моделей, командам, которые оптимизируют затраты на вычисления. Если вы просто используете API от OpenAI или аналогов, HPC-Ops вам не понадобится – это инструмент для тех, кто сам разворачивает и обслуживает модели.

Библиотека может быть интересна и исследователям, которые изучают производительность моделей или разрабатывают собственные системы инференса. Возможность заглянуть в код, который используется в продакшене крупной компании, даёт неплохую точку отсчёта.

Перспективы развития библиотеки HPC-Ops

Что дальше

Пока HPC-Ops – это первый релиз. Насколько активно библиотека будет развиваться и поддерживаться, покажет время. Открытый код не гарантирует живого сообщества и регулярных обновлений, но сам факт публикации говорит о том, что Tencent рассматривает инфраструктуру для искусственного интеллекта как область, где имеет смысл делиться наработками.

Для индустрии это ещё один шаг в сторону стандартизации и доступности высокопроизводительных инструментов. Чем больше таких библиотек появляется в открытом доступе, тем проще становится строить эффективные системы без необходимости изобретать всё заново.

Ссылка на публикацию: https://mp.weixin.qq.com/s/zyDXLiRJWhol-Uvq72efOQ
Оригинальное название: 腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%
Дата публикации: 3 фев 2026
Tencenthunyuan.tencent.com Китайский технологический холдинг, развивающий ИИ для социальных платформ, игр, облака и цифровых сервисов.
Предыдущая статья Hunyuan запустил исследовательский блог: как контекст меняет подход к языковым моделям Следующая статья OpenScholar упомянут в Nature – что это значит для научного ИИ

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться