Moonshot AI обновила свою флагманскую модель Kimi. Новая версия получила индекс K2.5 и, если коротко, она стала заметно умнее в задачах, где нужно мыслить, а не просто выдавать быстрый ответ.
Что изменилось в K2.5
Основное улучшение касается способности к рассуждению. Moonshot использовала подход, который сейчас называют обучением с подкреплением (reinforcement learning) – модель учится не просто генерировать текст, а искать решение через цепочку шагов. Это похоже на то, как работают модели серии OpenAI o1 или DeepSeek R1.
В результате Kimi K2.5 показала серьёзный прирост в бенчмарках, связанных с математикой, программированием и логическими задачами. Например, на тесте AIME 2024 (это олимпиадные задачи по математике для старшеклассников) модель набрала 79,2%. Для сравнения: предыдущая версия K1.5 справлялась только с 26,7%.
На GPQA Diamond – тесте, где собраны вопросы уровня аспирантуры по физике, химии и биологии, – результат вырос с 49,5% до 65,2%. В задачах на программирование (LiveCodeBench) точность подскочила с 35,3% до 56,8%.
Длинный контекст остался, но стал удобнее
Kimi изначально была известна своей способностью работать с очень большими текстами – до миллиона токенов в одном запросе. Это примерно 750 тысяч слов на английском или несколько сотен страниц текста. В новой версии этот объём сохранился, но компания улучшила качество обработки таких документов.
Теперь модель лучше находит нужную информацию в длинных текстах и точнее отвечает на вопросы, требующие анализа нескольких фрагментов одновременно. На бенчмарке Ruler, который проверяет именно это, K2.5 показала результат 97,35% – это выше, чем у многих западных конкурентов.
Как это работает на практике
Moonshot демонстрирует несколько сценариев использования. Один из них – анализ научных статей. Можно загрузить несколько работ, и модель сама найдёт в них ключевые идеи, сравнит подходы, выделит противоречия.
Другой пример – работа с кодом. K2.5 может не только писать программы, но и разбираться в чужом коде, объяснять его структуру, находить ошибки и предлагать улучшения. Компания утверждает, что модель справляется с этим лучше, чем раньше, благодаря усиленной способности к пошаговому анализу.
Ещё один сценарий – юридические и финансовые документы. Здесь важна точность и способность учитывать контекст из разных частей текста. По словам Moonshot, K2.5 хорошо справляется с извлечением фактов и построением выводов на их основе.
Доступность и ограничения
Модель Kimi K2.5 доступна через веб-интерфейс на сайте компании и через API. Moonshot также предлагает мобильные приложения для iOS и Android. Есть бесплатный уровень доступа, но с ограничениями по количеству запросов. Для активных пользователей предусмотрены платные планы.
Важный момент: модель работает только с китайским и английским языками. Поддержка других языков пока не анонсирована. Это стандартная ситуация для моделей из Китая – они в первую очередь ориентированы на внутренний рынок и англоязычную аудиторию.
Контекст: куда движется индустрия
Выход K2.5 укладывается в общий тренд. После того как OpenAI показала o1, а DeepSeek выпустила свою R1, многие команды начали добавлять в модели механизмы рассуждения. Идея в том, что языковая модель не должна выдавать первый пришедший в голову ответ – она должна «подумать», перебрать варианты, проверить гипотезы.
Это особенно важно в задачах, где одна ошибка ломает всё решение: математика, программирование, логические головоломки. Обычные модели в таких задачах часто сбиваются, потому что генерируют текст последовательно, токен за токеном, и если допустили ошибку в начале – исправить её уже не могут.
Модели с усиленным рассуждением пытаются решить эту проблему через внутренние «раздумья» – они генерируют несколько вариантов ответа, проверяют их, выбирают лучший. Это замедляет работу, но повышает точность.
Что дальше
Moonshot не раскрывает технических деталей обучения K2.5, но, судя по результатам, компания использовала подходы, схожие с теми, что применяют OpenAI и DeepSeek. Это значит, что китайские команды не просто догоняют западных лидеров, но и активно экспериментируют с новыми архитектурами.
Остаётся открытым вопрос, насколько эти улучшения применимы к реальным задачам за пределами бенчмарков. Тесты – это хорошо, но они не всегда отражают то, как модель поведёт себя в живом диалоге или при работе с нестандартными запросами. Пока что Kimi K2.5 выглядит как серьёзный шаг вперёд, но окончательные выводы можно будет сделать только после того, как модель попробуют в деле тысячи пользователей.
В любом случае, появление таких моделей расширяет выбор. Если вам нужна система, способная работать с огромными текстами и при этом рассуждать логически, Kimi K2.5 – один из вариантов, на который стоит обратить внимание.