Опубликовано 13 марта 2026

ZenDNN 5.2: ускорение языковых моделей на серверных процессорах

ZenDNN 5.2: как AMD ускорила работу языковых моделей на обычных серверных процессорах

AMD выпустила ZenDNN 5.2 – обновление, которое заметно ускоряет запуск языковых моделей на серверных процессорах EPYC без использования видеокарт.

Инфраструктура 4 – 6 минут чтения
Источник события: AMD 4 – 6 минут чтения

Когда речь заходит об ускорении ИИ, первое, что приходит в голову – это видеокарты. GPU стали практически синонимом нейросетей: они быстрые, параллельные и хорошо изучены. Но серверные процессоры никуда не делись, и их потенциал в задачах ИИ всё ещё остаётся недооценённым.

AMD решила это исправить. Компания выпустила обновление своей библиотеки ZenDNN до версии 5.2 – и, судя по результатам, это обновление действительно меняет расстановку сил для тех, кто хочет запускать языковые модели на процессорах серии EPYC.

Зачем запускать ИИ на процессоре?

Зачем вообще запускать ИИ на процессоре?

Хороший вопрос. GPU – дорогое удовольствие. Не каждая компания может позволить себе целый кластер видеокарт ради, скажем, внутреннего чат-бота или системы автоматической обработки документов. Серверные CPU при этом есть практически везде: в центрах обработки данных, в корпоративной инфраструктуре, в облаке.

Если удаётся выжать из процессора достаточно производительности для работы с языковыми моделями – это открывает куда более широкий и дешёвый путь к развёртыванию ИИ. Именно в этом направлении и движется AMD с ZenDNN.

ZenDNN и vLLM: что это и как работают вместе

Что такое ZenDNN и при чём здесь vLLM?

ZenDNN – это библиотека, которую AMD разрабатывает специально для своих процессоров. Она отвечает за то, как именно нейросетевые вычисления выполняются на «железе»: какие операции ускоряются, как используется память, как задействуются ядра процессора.

vLLM – это отдельная система, которая занимается непосредственно запуском больших языковых моделей и обработкой запросов к ним. Проще говоря, vLLM – это «мотор», а ZenDNN – топливо, которое помогает этому мотору работать эффективнее именно на процессорах AMD.

В версии 5.2 эти два компонента заработали вместе заметно лучше, чем раньше.

Как несколько копий модели одновременно ускоряют обработку ИИ

Главный приём – несколько копий модели одновременно

Одно из ключевых нововведений в ZenDNN 5.2 – это поддержка так называемой многоэкземплярной конфигурации. Звучит сложно, но идея простая.

Представьте, что у вас есть мощный сервер с большим количеством процессорных ядер. Вместо того чтобы запускать одну копию языковой модели и заставлять её обрабатывать все запросы подряд, можно запустить несколько копий параллельно – каждая на своём наборе ядер. Запросы при этом распределяются между ними, и общая пропускная способность системы существенно растёт.

Именно эта конфигурация, по данным AMD, стала основным фактором прироста производительности в последних тестах. Несколько экземпляров vLLM, работающих одновременно на одном процессоре EPYC, справляются с нагрузкой значительно лучше, чем один.

Что показали тесты производительности ZenDNN 5.2

Что показали тесты

AMD провела замеры на реальных сценариях: модели получали запросы определённой длины, генерировали ответы, и замерялось, сколько таких операций система способна выполнить за единицу времени.

Результаты, по заявлению компании, демонстрируют ощутимый прирост производительности по сравнению с предыдущими версиями. Особенно заметный эффект достигается именно при многоэкземплярном запуске: суммарная пропускная способность нескольких параллельных копий модели оказывается значительно выше, чем у одного экземпляра, даже если тот использует все доступные ресурсы процессора.

Это не просто теоретический выигрыш – в реальных условиях, когда система одновременно обрабатывает сотни запросов, разница становится вполне ощутимой.

Важность процессоров для ИИ-инференса в индустрии

Почему это важно для индустрии

Большие языковые модели долгое время воспринимались как нечто, что требует видеокарты. Это создавало серьёзный барьер входа: нужно либо покупать дорогое оборудование, либо арендовать GPU-инстансы в облаке, что тоже стоит немало.

ZenDNN 5.2 – это часть более широкой тенденции: производители процессоров активно работают над тем, чтобы CPU могли закрывать хотя бы часть задач, которые раньше считались исключительной вотчиной GPU. Это особенно актуально для инференса – то есть не для обучения моделей, а для их использования, когда нужно просто получать ответы на запросы.

Инференс – это именно то, с чем сталкивается большинство компаний, которые хотят встроить ИИ в свои продукты. Им не нужно обучать модели с нуля; им нужно, чтобы уже готовая модель быстро и дёшево отвечала на вопросы пользователей.

Если процессоры EPYC с ZenDNN 5.2 способны обеспечить приемлемую скорость при разумных затратах – это открывает реальную альтернативу для многих сценариев, где GPU-сервер просто избыточен или недоступен.

Ограничения использования процессоров для языковых моделей

Ограничения, о которых стоит помнить

При всей привлекательности идеи, важно понимать контекст. Процессоры всё равно уступают видеокартам в задачах, где нужна максимальная скорость работы с очень большими моделями. Для сценариев с жёсткими требованиями к задержке или с моделями в сотни миллиардов параметров GPU по-прежнему остаются предпочтительным выбором.

Кроме того, многоэкземплярная конфигурация требует достаточного количества оперативной памяти: каждая копия модели занимает своё место, и при запуске нескольких экземпляров этот вопрос встаёт в полный рост.

Наконец, конкретные цифры прироста производительности во многом зависят от используемой модели, длины запросов и конкретной конфигурации сервера. Результаты AMD получены в контролируемых условиях, и в реальной эксплуатации картина может отличаться.

Итоги и перспективы ZenDNN 5.2

Итого

ZenDNN 5.2 – это не революция, но заметный шаг в сторону того, чтобы сделать запуск языковых моделей более доступным. AMD последовательно улучшает производительность своих процессоров в задачах ИИ, и версия 5.2 показывает, что правильная организация работы – несколько параллельных копий модели вместо одной – может дать вполне ощутимый результат даже без видеокарты.

Для компаний, у которых уже есть серверная инфраструктура на базе EPYC, это хорошая новость: те же машины теперь могут справляться с ИИ-задачами лучше, просто за счёт обновления программной части.

Оригинальное название: ZenDNN 5.2: Accelerating vLLM Inference on AMD EPYC™ CPUs
Дата публикации: 13 мар 2026
AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Управлять серверами на словах: как Red Hat научила ИИ понимать задачи администратора Следующая статья Anthropic инвестирует $100 млн в развитие партнёрской сети Claude

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Технический контекст Инфраструктура

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Tencenthunyuan.tencent.com 4 фев 2026

Компания Reka представила новую версию модели Edge – компактный ИИ с продвинутыми возможностями компьютерного зрения, способный работать локально на устройствах без подключения к облаку.

Rekareka.ai 12 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться