Компания Liquid AI, известная своим нестандартным подходом к созданию языковых моделей, выпустила новую разработку – LFM2-24B. Это крупнейшая на сегодняшний день модель в линейке LFM2, и она интересна не столько размером, сколько тем, как ей удаётся конкурировать с более крупными моделями, оставаясь при этом заметно экономнее в потреблении ресурсов.
Что такое LFM2?
Большинство современных языковых моделей основано на архитектуре трансформера – это своего рода отраслевой стандарт последних лет. Liquid AI идёт другим путём. Их модели серии LFM2 базируются на гибридной архитектуре, которая сочетает несколько разных подходов к обработке информации. Проще говоря, вместо одного механизма модель использует несколько, что позволяет ей лучше справляться с длинными текстами и меньше нагружать память.
Ранее в линейке были компактные модели на 1,3 и 3,4 миллиарда параметров. LFM2-24B – это качественный шаг вперёд: 24 миллиарда параметров с важной оговоркой. Модель относится к классу mixture of experts («смесь экспертов»): она содержит 24 миллиарда параметров в общей сложности, но при работе активирует лишь около 2 миллиардов из них. Отсюда и обозначение A2B в названии – «active 2 billion» (активные 2 миллиарда).
Это не маркетинговая хитрость, а вполне рабочий принцип: разные части модели специализируются на разных задачах, и в каждый момент задействуется только необходимая часть. Результат – меньше вычислений при сопоставимом или даже лучшем качестве.
Как она себя показывает на практике?
Liquid AI сравнивала LFM2-24B с рядом других популярных моделей среднего и крупного размера. И здесь начинается самое любопытное.
По результатам стандартных тестов модель держится наравне или опережает заметно более крупные модели – в частности, Gemma 3 27B и Mistral Small 3.1. При этом она активно использует лишь около 2 миллиардов параметров, что делает её куда менее требовательной к оборудованию.
Если говорить конкретнее, LFM2-24B хорошо справляется с:
- рассуждениями и логическими задачами;
- математикой;
- работой с кодом;
- длинными текстами – контекстное окно модели составляет 32 000 токенов, что примерно соответствует небольшой книге.
Отдельно стоит отметить скорость генерации. За счёт того, что активных параметров немного, модель работает быстрее при инференсе – то есть когда она уже обучена и просто отвечает на запросы. Это важно для реальных приложений, где скорость ответа имеет значение.
Память – главный козырь
Одна из главных проблем при работе с языковыми моделями на длинных текстах – это так называемый KV-кэш. Если совсем просто: чтобы «помнить» контекст разговора, модели нужно хранить промежуточные данные, и чем длиннее текст, тем больше памяти это занимает. У стандартных трансформеров этот объём растёт линейно с длиной контекста – и быстро становится слабым местом.
Архитектура LFM2-24B устроена иначе. По данным Liquid AI, модель потребляет в 28 раз меньше памяти для кэша по сравнению с моделями аналогичного размера на базе трансформера. Это не небольшое улучшение – это принципиально другой масштаб потребления.
На практике это означает, что модель можно запускать на значительно более скромном оборудовании, чем потребовалось бы для аналогов. Или – при том же оборудовании – обрабатывать гораздо больше запросов одновременно. Для компаний, которые строят продукты на основе языковых моделей, это напрямую влияет на стоимость эксплуатации.
Кому и зачем это нужно?
Если вы разработчик или исследователь, ищущий модель для встраивания в продукт или локального запуска – LFM2-24B выглядит как интересный вариант. Особенно там, где важно работать с длинными документами или обеспечить высокую пропускную способность без огромного бюджета на графические процессоры (GPU).
Модель доступна для скачивания на Hugging Face и выпущена под лицензией, допускающей коммерческое использование с определёнными условиями – их стоит изучить перед применением в конкретном проекте.
Liquid AI также предоставляет доступ через собственное API – для тех, кто предпочитает не разворачивать модель локально.
Это только начало масштабирования
Примечательно, что LFM2-24B – это не просто новая модель, а проверка гипотезы. Liquid AI хотела убедиться, что их архитектура сохраняет преимущества при увеличении размера. Судя по результатам, масштабирование работает: модель не теряет эффективности с ростом параметров, а в чём-то даже выигрывает.
Это важно в контексте общей дискуссии об эффективности ИИ-моделей. Индустрия давно ищет способы получить больше от меньшего – и подходы вроде того, что использует Liquid AI, становятся всё более актуальными по мере роста стоимости вычислений.
Открытым остаётся вопрос о том, насколько хорошо модель справится с более сложными, многошаговыми задачами – теми, где нужно не просто ответить на вопрос, а выстроить цепочку рассуждений или работать как агент. Это область, в которой архитектурные различия могут проявляться сильнее, и здесь у LFM2-24B пока меньше публичных данных.
Но как шаг в сторону более экономичных и при этом мощных моделей – это весомый аргумент в пользу того, что трансформер не единственный путь вперёд. 🙂