Опубликовано 2 апреля 2026

Как команда Together AI ускоряет работу ИИ на GPU-чипах

Люди, которые заставляют GPU работать по-настоящему быстро: внутри команды Together AI

Как небольшая исследовательская группа превращает теоретические возможности видеочипов в реальную производительность ИИ-систем – история команды Together AI.

Инфраструктура 4 – 6 минут чтения
Источник события: Together.ai 4 – 6 минут чтения

Когда речь заходит об искусственном интеллекте, обычно говорят о самих моделях: какая умнее, какая быстрее отвечает, какая лучше пишет код. Но за кулисами этой гонки стоит совсем другая работа – кропотливая, малозаметная и при этом фундаментальная. Её выполняют люди, которые занимаются тем, что принято называть ядрами (kernels) – низкоуровневыми программными компонентами, напрямую управляющими тем, как видеочипы выполняют вычисления.

Именно этим занимается команда Together AI. И если вы слышали про FlashAttention или ThunderKittens – знайте, что это их работа.

Зачем нужны ядраkernels в ИИ и как они работают

Зачем вообще нужны «ядра»?

Проще говоря: GPU – это очень мощное оборудование, но чтобы оно работало в полную силу именно для задач ИИ, нужно писать специальный низкоуровневый код, который указывает чипу, что делать и в каком порядке. Этот код и называют ядрами.

Большинство разработчиков ИИ-систем работают на уровень или два выше: они используют готовые библиотеки и фреймворки, которые уже берут на себя всю эту «ручную» работу с оборудованием. Но кто-то должен писать и эти библиотеки. Кто-то должен следить за тем, чтобы новые архитектуры GPU использовались максимально эффективно – а не так, что половина возможностей чипа просто простаивает.

Команда Together AI занимается именно этим промежуточным слоем – между оборудованием и теми моделями, которые на этом оборудовании работают.

FlashAttention как оптимизация ускоряет работу языковых моделей

FlashAttention: когда оптимизация меняет всё

Одна из самых известных работ этой команды – FlashAttention. Если коротко: это способ значительно ускорить одну из ключевых операций в современных языковых моделях – механизм внимания (attention). Эта операция очень важна для того, чтобы модель «понимала» связи между словами и частями текста, но при этом она же является одной из самых ресурсоёмких.

FlashAttention переосмыслил то, как именно эта операция выполняется на GPU: вместо того чтобы постоянно перекладывать данные между разными видами памяти чипа (что медленно), алгоритм перестроил порядок вычислений так, чтобы данные как можно дольше оставались в быстрой памяти. Результат – ощутимое ускорение и снижение потребления памяти.

Это не просто техническая деталь. FlashAttention повлиял на то, как устроены многие современные модели, и стал одним из тех «тихих» изобретений, которые практически незаметны для конечного пользователя, но критически важны для всей индустрии.

ThunderKittens инструмент для упрощения написания ядер

ThunderKittens: инструмент, который пишет инструменты

Другой проект команды – ThunderKittens – решает более широкую задачу. Писать эффективные ядра вручную крайне сложно: нужно глубоко понимать архитектуру конкретного GPU, следить за тем, как данные перемещаются внутри чипа, учитывать десятки ограничений. Это работа, требующая узкой экспертизы и занимающая много времени.

ThunderKittens – это своего рода фреймворк, который упрощает написание таких ядер. Он предоставляет более удобные строительные блоки, при этом не жертвуя производительностью. Проще говоря: раньше написать хорошее ядро мог только очень узкий специалист с огромным опытом, а ThunderKittens снижает этот барьер.

Это важно, потому что GPU постоянно обновляются, появляются новые архитектуры – и каждый раз нужно заново адаптировать ядра под новое оборудование. Инструмент, который делает этот процесс быстрее и доступнее, имеет реальную практическую ценность для всей отрасли.

Как ядра сокращают разрыв между теорией и практикой GPU

Разрыв между теорией и практикой

Есть интересный феномен в мире GPU: производители публикуют впечатляющие цифры производительности своих чипов – и эти цифры реальны, но достигаются только при идеальных условиях. В реальных задачах ИИ оборудование нередко используется на 30–50% от своих возможностей, а иногда и меньше.

Работа команды Together AI как раз и состоит в том, чтобы сокращать этот разрыв. Каждая оптимизация, каждое улучшение ядра – это шаг к тому, чтобы реальная производительность приближалась к теоретическому максимуму. И в условиях, когда стоимость вычислений остаётся одним из главных ограничений в развитии ИИ, такая работа напрямую влияет на то, что вообще становится возможным.

Значение открытых разработок Together AI для индустрии ИИ

Почему это важно за пределами одной компании

Together AI позиционирует себя как открытую платформу: значительная часть их разработок публикуется в открытом доступе. FlashAttention и ThunderKittens доступны всем – и уже используются в исследованиях и продуктах по всему миру.

Это формирует любопытную модель: небольшая команда узких специалистов создаёт инфраструктурные решения, которыми пользуется вся индустрия. Крупные лаборатории, стартапы, академические исследователи – все они в той или иной степени опираются на работу, которая была сделана в таких командах.

Проще говоря, прогресс в ИИ зависит не только от того, кто придумывает новые архитектуры моделей или собирает наборы данных. Он зависит и от тех, кто занимается тем, чтобы всё это эффективно работало на реальном оборудовании. И команды вроде этой – важная часть этой цепочки.

Будущее оптимизации GPU и ядер в развитии ИИ

Что дальше?

По мере того как GPU становятся всё сложнее, а модели – всё больше, работа на уровне ядер только усложняется. Новые чипы приносят новые возможности – и новые ограничения, которые нужно учитывать. Одновременно растёт спрос на эффективность: обучение и запуск больших моделей остаются дорогостоящими, и любое улучшение в использовании оборудования напрямую влияет на экономику всей отрасли.

В этом смысле команды, работающие на стыке оборудования и программного обеспечения, вряд ли окажутся невостребованными. Скорее наоборот – их роль будет только расти по мере того, как ИИ-системы становятся сложнее и масштабнее.

Это та часть индустрии, которую редко видно в новостях. Но именно она во многом определяет, насколько быстро и экономично работают модели, которыми пользуются миллионы людей каждый день.

Оригинальное название: Inside the Together AI kernels team
Дата публикации: 1 апр 2026
Together.ai www.together.ai Американская платформа для запуска и масштабирования открытых ИИ-моделей.
Предыдущая статья Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя Следующая статья Alibaba выпустила Qwen3.6-Plus: модель, которая пишет код и «видит» мир

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Агент пишет CUDA-ядра: GPT и Claude научили генерировать код для GPU

Технический контекст Разработка

Два AI-агента умеют создавать оптимизированные CUDA-ядра для ускорения операций прямо по описанию задачи. Разбираемся, что это меняет для тех, кто работает с моделями.

Hugging Facehuggingface.co 13 фев 2026

ИИ: События

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Технический контекст Разработка

Новые ядра и математические оптимизации Unsloth сокращают требования к памяти на 35%, увеличивают скорость обучения в 12 раз и позволяют работать с контекстом, который в 6 раз длиннее исходного.

Unslothunsloth.ai 11 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться