Опубликовано 13 февраля 2026

Генерация CUDA-ядер с помощью AI: GPT и Claude для ускорения GPU вычислений

Агент пишет CUDA-ядра: GPT и Claude научили генерировать код для GPU

Два AI-агента умеют создавать оптимизированные CUDA-ядра для ускорения операций прямо по описанию задачи. Разбираемся, что это меняет для тех, кто работает с моделями.

Разработка / Технический контекст 5 – 7 минут чтения
Источник события: Hugging Face 5 – 7 минут чтения

Обычно, если вы хотите ускорить обработку данных на GPU, вам нужно либо использовать готовые библиотеки, либо писать низкоуровневый код на CUDA самостоятельно. Второй вариант требует серьёзной квалификации: нужно понимать архитектуру видеокарты, управлять памятью, следить за синхронизацией потоков. Это отдельная профессия, и далеко не каждый разработчик моделей умеет это делать.

Теперь появился другой путь: описать задачу на естественном языке, и AI-агент сгенерирует для вас оптимизированное CUDA-ядро. Два таких агента уже работают – один использует GPT-4o, другой Claude 3.5 Sonnet. Оба встроены в экосистему Hugging Face и доступны через интерфейс Transformers.

Что такое CUDA ядро: особенности и назначение

Что такое CUDA-ядро и зачем его писать

Когда вы работаете с нейросетью, большая часть вычислений происходит на GPU. Библиотеки вроде PyTorch или cuDNN предоставляют готовые операции: умножение матриц, свёртки, активации. Они работают быстро, но универсально. Если у вас специфическая задача – например, нужно объединить несколько операций в одну или реализовать нестандартную функцию – готовые блоки могут оказаться неэффективными.

В таких случаях пишут собственное CUDA-ядро – функцию, которая выполняется напрямую на GPU и делает ровно то, что вам нужно. Это может дать заметный прирост скорости, особенно если операция повторяется часто. Но написание такого кода требует глубокого понимания железа и языка C++.

Как работают AI-агенты для генерации кода

Как работают агенты

Оба агента устроены похоже. Вы описываете операцию текстом – например, «реализуй слой LayerNorm с активацией GELU». Агент анализирует запрос, генерирует код на CUDA, компилирует его и возвращает готовую функцию, которую можно вызвать из Python.

Внутри процесс выглядит так: агент сначала формирует код ядра, затем пытается его скомпилировать. Если компиляция не проходит или результаты неверны, агент получает сообщение об ошибке и пробует исправить код. Это итеративный процесс – агент может делать несколько попыток, пока не получит работающий вариант.

В основе лежат языковые модели: GPT-4o у одного агента, Claude 3.5 Sonnet у другого. Обе модели умеют генерировать код и работать с техническими описаниями, но их подходы немного различаются. Claude показывает более стабильные результаты в задачах с матричными операциями, GPT-4o иногда быстрее справляется с нестандартными запросами.

Возможности AI-агентов по созданию CUDA-ядер

Что уже можно делать

Агенты умеют создавать ядра для базовых операций: нормализация, активации, поэлементные преобразования, простые операции с матрицами. Они справляются с типовыми задачами, которые встречаются при работе с трансформерами или свёрточными сетями.

Например, вы можете попросить реализовать кастомную функцию активации, которой нет в стандартной библиотеке, или объединить несколько операций в одну, чтобы избежать лишних обращений к памяти. Агент сгенерирует код, который делает именно это, и вы сможете использовать его как обычную функцию в PyTorch.

Важно: агенты не заменяют ручную оптимизацию. Код, который они генерируют, работает, но не всегда максимально эффективен. Если вам нужна производительность на уровне промышленных библиотек, скорее всего, потребуется доработка. Но для прототипирования, экспериментов или задач, где скорость не критична, это вполне рабочий инструмент.

Ограничения в работе AI-агентов по генерации CUDA-ядер

Какие есть ограничения

Первое – надёжность. Агент может сгенерировать код с ошибками, особенно если задача сформулирована нечётко или требует нетривиальной логики. Иногда он не может скомпилировать результат даже после нескольких попыток. В таких случаях приходится либо уточнять запрос, либо исправлять код вручную.

Второе – производительность. Агент не знает всех тонкостей архитектуры конкретной видеокарты. Он может упустить возможности для оптимизации, например, не использовать общую память эффективно или не учесть выравнивание данных. Сгенерированный код обычно работает медленнее, чем результат работы опытного CUDA-программиста.

Третье – сложность задач. Агенты справляются с относительно простыми операциями. Если вам нужно реализовать сложный алгоритм с нетривиальным управлением потоками или многоуровневой иерархией памяти, агент, скорее всего, не справится без существенной помощи.

Кому будет полезен AI для генерации CUDA-ядер

Кому это может быть полезно

В первую очередь – исследователям и разработчикам моделей, которые не специализируются на низкоуровневом программировании. Если вы работаете с PyTorch и вам нужно быстро проверить идею, которая требует нестандартной операции, агент может сэкономить время. Вместо того чтобы изучать CUDA или искать готовую реализацию, вы просто описываете задачу и получаете работающий код.

Это также полезно для обучения. Вы можете посмотреть, как агент реализует ту или иную операцию, и использовать это как отправную точку для понимания механики CUDA. Конечно, сгенерированный код не всегда идеален, но он может показать базовую структуру и логику.

Для задач, где важна максимальная производительность – например, в продакшене или при обучении крупных моделей – агенты пока не заменяют ручную работу. Но они могут ускорить прототипирование и снизить порог входа для тех, кто раньше не работал с GPU-программированием.

Значение AI-генерации кода в сфере низкоуровневого программирования

Что это значит в более широком контексте

Это ещё один пример того, как языковые модели начинают помогать в технических задачах, которые раньше требовали узкой специализации. Мы уже видели, как AI-ассистенты пишут код на Python, генерируют SQL-запросы, помогают с отладкой. Теперь они добрались и до низкоуровневого программирования.

Конечно, это не означает, что CUDA-программисты больше не нужны. Автоматически сгенерированный код пока не дотягивает до уровня профессионально написанных ядер. Но инструменты такого рода могут изменить распределение задач: рутинные операции делегируются агенту, а специалисты фокусируются на по-настоящему сложной оптимизации.

Ещё один момент – доступность. Раньше создание кастомных ядер было уделом небольшой группы разработчиков. Теперь это становится доступнее. Не факт, что результат всегда будет оптимальным, но барьер для входа снижается. Это может ускорить эксперименты и позволить большему числу людей пробовать нестандартные подходы.

Стоит ли пробовать

Если вы работаете с моделями и сталкиваетесь с ситуациями, где готовые операции не подходят, попробовать стоит. Оба агента доступны через Transformers, их легко запустить. Не ждите идеального результата с первого раза, но для быстрого прототипирования это вполне рабочий вариант.

Если вы только начинаете разбираться в GPU-программировании, агенты могут помочь понять базовые принципы. Вы увидите, как устроены CUDA-ядра, и сможете экспериментировать с разными операциями без необходимости сразу погружаться в документацию на сотни страниц.

Для задач, где критична производительность, агенты пока не заменят ручную работу. Но они могут быть полезны на этапе исследования, когда важнее скорость итераций, а не абсолютная эффективность кода.

Ссылка на публикацию: https://huggingface.co/blog/custom-cuda-kernels-agent-skills
Оригинальное название: Custom Kernels for All from Codex and Claude
Дата публикации: 13 фев 2026
Hugging Face huggingface.co Американская открытая платформа и компания для хостинга, обучения и распространения ИИ-моделей.
Предыдущая статья MiniMax представила Forge – платформу для обучения ИИ-агентов на мощных вычислительных кластерах Следующая статья Olmix: подход Allen AI к смешиванию данных на всех этапах обучения языковых моделей

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Как запустить ИИ-агента для программирования на видеокартах AMD Instinct

Технический контекст Инфраструктура

AMD показала, как развернуть OpenHands – агента для автоматизации написания кода – на своих серверных графических процессорах (GPU) с использованием движка vLLM.

AMDwww.amd.com 28 янв 2026

ИИ: События

Как GPU от AMD ускоряют визуализацию графов – и при чём здесь ИИ

Технический контекст Разработка

AMD продемонстрировала, как переносить алгоритмы раскладки графов на GPU с помощью платформы ROCm, используя ИИ в роли ассистента при написании и адаптации кода.

AMDwww.amd.com 7 фев 2026

ИИ: События

AMD представила метод разделения GPU для параллельного запуска нескольких LLM

Технический контекст Инфраструктура

AMD раскрыла метод разделения одного графического процессора на изолированные области для одновременной работы различных моделей – без потерь в безопасности и производительности.

AMDwww.amd.com 23 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться