Microsoft выпустила Maia 200 – новый AI-ускоритель, который компания разработала специально для инференса
. Проще говоря, это чип, предназначенный для запуска уже обученных моделей и получения от них ответов, а не для их обучения с нуля.
Зачем создавать отдельный чип для инференса?
Обычно AI-ускорители проектируют универсальными: они должны и обучать модели, и запускать их в продакшене. Но эти два процесса принципиально различаются и предъявляют разные требования к оборудованию.
Тренировка – это долгий и ресурсоёмкий процесс, требующий максимальной вычислительной мощности и большого объёма памяти. А инференс – это ситуация, когда модель уже готова, и вы просто подаёте ей запросы пользователей. Здесь важнее скорость ответа, энергоэффективность и способность одновременно обрабатывать множество запросов.
Microsoft решила пойти по пути специализации. Maia 200 оптимизирована именно под инференс, что позволяет добиться большей производительности на ватт и лучше адаптироваться к реальным нагрузкам в облаке.
Что это означает на практике?
Для тех, кто пользуется сервисами Microsoft – например, Copilot или Azure OpenAI Service – это может означать более быстрые ответы и меньшую задержку. Компания развёртывает Maia 200 в своих дата-центрах, и именно на этих чипах будут работать многие модели, с которыми взаимодействуют пользователи.
Для самой Microsoft это способ снизить зависимость от сторонних поставщиков чипов и лучше контролировать стоимость инфраструктуры. Разработка собственного оборудования – это долгосрочная ставка на то, что AI-нагрузки будут только расти, и оптимизация под свои задачи окупится.
Вторая итерация
Maia 200 – это вторая версия чипа. Первая, Maia 100, появилась раньше, и компания уже накопила опыт использования собственного оборудования в реальных условиях. Новая версия учитывает эти наработки и, судя по всему, лучше адаптирована под конкретные паттерны работы моделей в Azure.
Детали архитектуры Microsoft пока не раскрывает в полном объёме, но акцент на инференсе говорит о том, что компания видит основную нагрузку именно в обслуживании запросов, а не в обучении. Это логично: обучить большую модель нужно один раз, а запросов к ней могут быть миллионы в день.
Контекст индустрии
Microsoft не единственная, кто идёт по этому пути. Google уже несколько лет использует свои TPU, Amazon разрабатывает Trainium и Inferentia, Meta работает над собственными решениями. Все крупные облачные провайдеры понимают, что универсальные GPU от Nvidia – это мощно, но дорого и не всегда оптимально под конкретные задачи.
Специализированное оборудование позволяет выиграть в цене, энергопотреблении и плотности размещения в дата-центре. А учитывая масштабы, на которых работают эти компании, даже небольшое улучшение на уровне одного чипа превращается в серьёзную экономию на уровне всей инфраструктуры.
Что остаётся неясным?
Пока не очень понятно, насколько Maia 200 конкурентоспособна по сравнению с решениями Nvidia или AMD в задачах инференса. Microsoft не публикует подробных бенчмарков, и оценить реальную производительность сложно.
Также неизвестно, будет ли Microsoft предлагать эти чипы сторонним клиентам Azure напрямую или они останутся внутренней инфраструктурой. Пока всё указывает на второй вариант: чипы используются для собственных сервисов, а клиенты получают доступ к моделям, которые на них работают, но не к самому оборудованию.
В любом случае, появление Maia 200 – это ещё один шаг к тому, что крупные игроки строят свои собственные стеки для AI снизу вверх, включая оборудование. Это меняет расклад сил в индустрии и делает экосистему AI-ускорителей более разнообразной.