Опубликовано 21 января 2026

TileLang — новый язык AMD для разработки под GPU

TileLang: новый язык от AMD для упрощения разработки под GPU

AMD представила TileLang – инструмент, который упрощает написание оптимизированных операторов для GPU и снижает порог входа в разработку под ROCm.

Разработка / Технический контекст 4 – 5 минут чтения

Источник события: AMD 4 – 5 минут чтения

Работа с GPU на низком уровне всегда требовала глубоких знаний архитектуры аппаратного обеспечения. Написание эффективного кода для видеокарты – это не просто знание языка программирования, это понимание того, как данные перемещаются между разными уровнями памяти, как работают вычислительные блоки и где можно добиться дополнительной производительности. Для разработчиков, работающих с AMD ROCm, эта задача была особенно непростой.

AMD решила эту проблему с помощью TileLang – нового языка программирования, который значительно упрощает разработку операторов для GPU. Проще говоря, это инструмент, который берёт на себя большую часть низкоуровневой работы и позволяет сосредоточиться на логике вычислений.

Что такое TileLang и зачем он нужен

TileLang – это предметно-ориентированный язык (DSL), встроенный в Python. Он создан специально для написания высокопроизводительных операторов на GPU AMD Instinct MI300X. Главная его цель – снизить барьер входа в разработку под ROCm.

Раньше, чтобы написать что-то вроде Flash Attention – алгоритма, который ускоряет обработку трансформеров в больших языковых моделях – нужно было вручную управлять всеми аспектами работы GPU: распределением потоков, загрузкой данных в разные типы памяти, синхронизацией. Это требовало не только времени, но и глубокого понимания архитектуры.

С TileLang разработчик описывает вычисления на более высоком уровне абстракции. Язык сам управляет тем, как данные перемещаются между глобальной памятью, разделяемой памятью и регистрами. Он автоматически оптимизирует загрузку и выгрузку данных, распределяет работу по потокам и блокам.

Применение TileLang в Flash Attention

Как это работает на примере Flash Attention

Flash Attention – это алгоритм, который позволяет эффективно вычислять механизм внимания в трансформерах без необходимости хранить в памяти огромные промежуточные матрицы. Вместо этого он разбивает вычисления на небольшие блоки (тайлы) и обрабатывает их последовательно, используя быструю память GPU.

В традиционном подходе разработчику пришлось бы:

Вручную разбить матрицы на блоки нужного размера
Написать код для загрузки этих блоков в разделяемую память
Управлять синхронизацией между потоками
Оптимизировать доступ к памяти, чтобы избежать узких мест
Реализовать все математические операции на уровне инструкций GPU

С TileLang это выглядит иначе. Разработчик описывает алгоритм в терминах операций над тайлами – небольшими блоками данных. Язык сам решает, как эти тайлы загружать, где хранить и как эффективно обрабатывать.

Например, вместо того чтобы писать десятки строк кода для загрузки матрицы из глобальной памяти в разделяемую, а затем в регистры, в TileLang достаточно указать, какой тайл нужен и какую операцию с ним выполнить. Компилятор сам подберёт оптимальную стратегию.

Производительность и результаты TileLang

Производительность и практические результаты

AMD приводит конкретные цифры для Flash Attention на GPU Instinct MI300X. При использовании TileLang удалось достичь производительности, сопоставимой с высокооптимизированными реализациями, написанными вручную. При этом код получился значительно короче и понятнее.

Это важно не только для скорости разработки, но и для поддержки. Когда код проще, его легче модифицировать, отлаживать и адаптировать под новые архитектуры GPU. Раньше такие оптимизации были доступны только узкому кругу специалистов, хорошо знакомых с архитектурой AMD. Теперь порог входа ощутимо ниже.

Значение TileLang для экосистемы ROCm

Что это значит для экосистемы ROCm

ROCm – это программная платформа AMD для высокопроизводительных вычислений и машинного обучения. Она конкурирует с CUDA от NVIDIA, но исторически уступала по размеру экосистемы и доступности инструментов.

Появление TileLang – это шаг в сторону упрощения разработки под AMD. Если раньше многие фреймворки и библиотеки поддерживали только CUDA просто потому, что писать под неё было проще, теперь у AMD есть инструмент, который может изменить ситуацию.

Для разработчиков это означает, что можно быстрее экспериментировать с новыми алгоритмами, не углубляясь в детали архитектуры GPU. Для AMD – это способ привлечь больше людей в свою экосистему и сделать ROCm более конкурентоспособной платформой.

Ограничения TileLang и открытые вопросы

Ограничения и открытые вопросы

Пока TileLang – это довольно новый инструмент, и не все его возможности раскрыты. Неясно, насколько хорошо он справляется с более сложными и нестандартными операторами, выходящими за рамки типичных задач машинного обучения.

Также важно понимать, что высокоуровневая абстракция не всегда даёт абсолютно максимальную производительность. В некоторых случаях ручная оптимизация всё ещё может дать преимущество. Вопрос в том, насколько велика эта разница и стоит ли она затраченных усилий.

Кроме того, TileLang пока ориентирован на архитектуру MI300X. Как он будет работать с другими поколениями GPU AMD и насколько легко будет переносить код между разными архитектурами – это вопросы, на которые предстоит ответить.

Но в целом направление правильное. Чем проще разработка, тем больше людей могут создавать эффективные решения, и тем быстрее растёт экосистема. Для AMD это важный шаг на пути к тому, чтобы ROCm стал не просто альтернативой CUDA, а полноценной платформой для высокопроизводительных вычислений.

#событие #технический контекст #нейросети #инженерия #компьютерные системы #инфраструктура #инструменты разработки #оптимизация gpu

Ссылка на публикацию: https://rocm.blogs.amd.com/ecosystems-and-partners/rocm-tilelang-kernel/README.html

Оригинальное название: Quickly Developing Powerful Flash Attention Using TileLang on AMD Instinct MI300X GPU – ROCm Blogs

Дата публикации: 20 янв 2026

AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.

Предыдущая статья Роботы с ИИ-агентами в магазинах: как меняется розница Следующая статья Waypoint-1: интерактивное видео в реальном времени на вашем компьютере

TileLang — новый язык AMD для разработки под GPU

Что такое TileLang и зачем он нужен

Применение TileLang в Flash Attention

Производительность и результаты TileLang

Значение TileLang для экосистемы ROCm

Ограничения TileLang и открытые вопросы

Связанные публикации

Как упростить запуск ONNX-моделей на Windows с помощью WinML

Hummingbird-XT: как AMD запустила генерацию видео на обычных видеокартах

Как научить связь распознавать сигналы без лишних вычислений: нейросеть для OFDM при -40°C

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации