Когда говорят об обучении самых продвинутых ИИ-моделей, в голове сразу возникает образ: огромные дата-центры, тысячи видеокарт, многомиллиардные инвестиции. Именно это представление стало чем-то вроде аксиомы в индустрии: хочешь создавать сильные модели – строй большой кластер. Но команда Fireworks AI предлагает посмотреть на это иначе.
Откуда взялась идея про мегакластеры?
Основная логика последних лет выглядела примерно так: чтобы обучить модель лучше, нужно больше данных и больше вычислений. Это правило хорошо работало в эпоху так называемого предобучения, когда модели натаскивали на огромных массивах текста, и прирост качества был напрямую связан с масштабом.
Именно тогда сложилась культура мегакластеров. Крупнейшие компании начали соревноваться не только в качестве моделей, но и в размерах вычислительной инфраструктуры. Тысячи и десятки тысяч GPU стали восприниматься как необходимое условие присутствия на переднем крае.
Но ситуация меняется – и меняется именно сейчас.
Обучение с подкреплением (RL) – другой способ сделать модель умнее
Если предобучение – это когда модель читает огромные объёмы текста и учится предсказывать следующее слово, то обучение с подкреплением (RL, reinforcement learning) – это другое. Проще говоря: модель пробует что-то сделать, получает оценку – правильно или нет – и постепенно учится действовать лучше.
Именно так работают современные «думающие» модели – те, что умеют рассуждать, проверять себя, разбивать задачу на шаги. И этот подход принципиально отличается по своим вычислительным требованиям.
Ключевой момент: для RL не требуется такой же масштаб, как для предобучения. Задачи решаются итеративно – небольшими сессиями, с частыми обновлениями весов модели. Это означает, что даже относительно небольшой кластер может участвовать в обучении на переднем крае, если инфраструктура под него правильно устроена.
Но есть нюанс: инфраструктура должна быть другой
Здесь начинается самое интересное. Fireworks AI указывает на то, что стандартные большие кластеры – при всей своей мощи – не очень хорошо приспособлены для RL-обучения. Причина в архитектуре нагрузки.
При предобучении всё выглядит достаточно равномерно: данные загружаются, модель считает, веса обновляются. При RL картина другая: часть времени модель генерирует ответы (это относительно лёгкая нагрузка), часть – обновляется на основе оценок (это тяжёлая нагрузка). Эти фазы перемежаются, и если кластер не умеет гибко переключаться между ними, большую часть времени дорогостоящие GPU просто простаивают.
Проще говоря: большой кластер, купленный под предобучение, при RL-задачах будет работать с низкой эффективностью – и всё равно будет стоить как большой кластер.
Что это меняет на практике?
Если RL-обучение действительно становится основным способом развития frontier-моделей (а тренд на это указывает – достаточно посмотреть на успех моделей вроде DeepSeek R1 или серии «думающих» моделей от OpenAI), то это меняет экономику всей отрасли.
Во-первых, входной порог снижается. Команда, у которой нет ресурсов на постройку гигантского дата-центра, всё равно может обучать сильные модели – если правильно организует вычислительный процесс под RL-задачи.
Во-вторых, фокус смещается с «железа» на алгоритмы. Умение грамотно выстроить процесс обучения с подкреплением – подобрать задачи, правильно оценивать ответы модели, управлять вычислительными фазами – становится важнее, чем просто иметь много GPU.
В-третьих, это меняет то, как стоит думать об инвестициях. Строить мегакластер ради RL – не лучшая идея. Гораздо эффективнее иметь гибкую инфраструктуру, которая умеет динамически распределять нагрузку между фазами генерации и обновления.
Это не значит, что большие кластеры умерли
Важно оговориться: речь не о том, что масштаб больше не нужен. Предобучение никуда не делось, и для него большие кластеры по-прежнему имеют смысл. Да и сами RL-задачи при желании можно масштабировать.
Но тезис Fireworks AI звучит иначе: если вы хотите быть на переднем крае именно в части рассуждений и агентных возможностей – вам не обязательно строить мегакластер. Это дорогостоящее и не самое эффективное решение для данного типа задач.
Иными словами, индустрия начинает расслаиваться. Гонка за «самым большим» кластером – это одна история. Умение эффективно обучать модели с подкреплением – другая. И вторая, судя по всему, становится всё более важной.
Почему это вообще важно знать?
Если вы следите за тем, как развивается рынок ИИ, эта идея меняет несколько устоявшихся представлений.
Первое: «лучший ИИ – у того, кто потратил больше денег на железо» – это упрощение, которое перестаёт работать. Стратегия обучения и архитектура вычислений начинают играть сопоставимую роль.
Второе: небольшие и средние команды получают реальный шанс конкурировать в определённых нишах – не за счёт того, что они вдруг разбогатели, а за счёт того, что правила игры меняются.
Третье: ожидаемая «консолидация» рынка вокруг пяти крупнейших игроков с самыми большими кластерами – не такой очевидный сценарий, как казалось ещё пару лет назад.
Конечно, у этой идеи есть ограничения. Frontier RL – это всё ещё сложно и дорого, просто не настолько, как предобучение в том же масштабе. И вопрос о том, насколько далеко можно зайти без предобученного фундамента высокого качества, остаётся открытым.
Но в целом – это одна из тех идей, которые полезно иметь в виду, наблюдая за тем, как в ближайшее время будут развиваться события в ИИ-индустрии.