Опубликовано 26 февраля 2026

Как научить маленькие языковые модели думать лучше: опыт использования синтетических данных

Как научить небольшую языковую модель думать лучше: опыт AMD с синтетическими данными

AMD представила подход LuminaSFT, который позволяет дообучать небольшие языковые модели с помощью синтетических данных и достигать неожиданно высоких результатов.

Разработка 5 – 7 минут чтения

Источник события: AMD 5 – 7 минут чтения

Большие языковые модели – GPT-подобные гиганты с десятками и сотнями миллиардов параметров – давно стали точкой отсчёта в мире ИИ. Но за последние пару лет всё отчётливее звучит другой вопрос: должна ли модель быть огромной, чтобы быть полезной?

Небольшие языковые модели – их принято называть SLM (от английского small language models) – занимают всё больше места в реальных проектах. Они дешевле в работе, быстрее отвечают, могут запускаться прямо на устройстве пользователя без обращения к облаку. Проще говоря: меньше тратят, а при правильной настройке почти не уступают старшим братьям в конкретных задачах.

Именно с этим «при правильной настройке» и связана разработка, о которой пойдёт речь.

Проблема: высокая стоимость качественных данных для обучения LLM

Проблема: хорошие данные дорого стоят

Чтобы модель хорошо справлялась с конкретной задачей – например, отвечала на вопросы в определённой области или вела диалог в нужном стиле – её нужно дообучить. Этот процесс называется файн-тюнингом (fine-tuning). Для него требуются примеры: вопросы и правильные ответы, инструкции и их выполнение, диалоги – в зависимости от задачи.

Проблема в том, что хороших обучающих данных часто не хватает. Собирать их вручную – долго и дорого. Привлекать экспертов для разметки – ещё дороже. И даже если данные есть, они могут быть закрытыми, неструктурированными или недостаточно разнообразными.

Здесь и появляется идея синтетических данных: что если нужные примеры для обучения сгенерировать с помощью более крупной модели? Взять большую модель, попросить её создать обучающие пары «вопрос – ответ», отфильтровать качественные и использовать их для дообучения маленькой модели. Звучит как разумный план – и именно его реализует подход под названием LuminaSFT, описанный командой AMD.

Что такое LuminaSFT: суть методологии синтеза данных от AMD

Что такое LuminaSFT и в чём его суть

LuminaSFT – это не отдельная модель и не продукт, а методология: набор подходов к тому, как генерировать синтетические данные для дообучения небольших языковых моделей и как делать это так, чтобы результат был действительно качественным.

Ключевая идея проста: большая модель выступает в роли «учителя». Она генерирует разнообразные задачи и правильные ответы к ним – то, что потом станет обучающими примерами для маленькой модели-«ученика». Задача при этом – не просто нагенерировать побольше текста, а получить примеры, которые реально улучшат поведение модели.

В рамках LuminaSFT этот процесс выстроен в несколько шагов:

Генерация разнообразных инструкций. Большая модель создаёт широкий набор заданий – разных по типу, сложности и тематике. Это важно, чтобы маленькая модель после обучения не была «заточена» только под один сценарий.
Фильтрация и оценка качества. Не все сгенерированные примеры одинаково полезны. Часть из них слишком простые, неточные или повторяющиеся. Поэтому данные проходят через отбор: оставляют то, что реально вносит вклад в обучение.
Дообучение маленькой модели. Отфильтрованные примеры используются для файн-тюнинга. После этого небольшая модель начинает лучше справляться именно с теми задачами, под которые готовились данные.

Всё это реализовано с использованием GPU AMD и платформы ROCm – фреймворка AMD для работы с нейросетями, который является альтернативой более известной платформе NVIDIA CUDA.

Особенности работы с синтетическими данными: преимущества и риски

Почему синтетика – это не просто «сгенерировать и забыть»

Синтетические данные – тема, о которой в последнее время говорят всё чаще. И у неё есть как очевидные плюсы, так и подводные камни.

Плюс очевиден: не нужно нанимать разметчиков, искать редкие наборы данных (датасеты); можно быстро получить данные под конкретную задачу. Это особенно ценно, когда нужно дообучить модель в узкой области – например, для медицинских консультаций или технической поддержки, где открытых качественных данных почти нет.

Но есть и риски. Если большая модель генерирует примеры с ошибками, маленькая модель их усвоит. Если данные однообразны, модель станет предсказуемой и негибкой. Если в синтетике заложен какой-либо перекос, он перейдёт в дообученную модель.

Именно поэтому в LuminaSFT так много внимания уделяется разнообразию и фильтрации. Авторы подхода специально проектировали генерацию так, чтобы примеры были не похожи друг на друга по стилю и содержанию – это снижает риск того, что модель просто «заучит» шаблоны, а не научится решать задачи.

Возможности небольших моделей: почему размер не всегда имеет значение

Небольшая модель – не значит слабая

Результаты, которые демонстрирует подход, выглядят убедительно. Небольшие модели, дообученные на синтетических данных по методологии LuminaSFT, показывают результаты, сопоставимые с более крупными моделями на ряде задач – особенно там, где обучающие данные были хорошо подобраны под конкретную область.

Это важный момент. Небольшая языковая модель – это не «урезанная» копия большой, а отдельный инструмент со своими преимуществами. Если её хорошо настроить под конкретную задачу, она может работать не хуже и при этом обходиться значительно дешевле в эксплуатации.

Проще говоря: не всегда нужен спортивный автомобиль. Иногда хорошо настроенный городской хэтчбек справляется со своим маршрутом лучше – и бензина расходует меньше.

Практическая ценность LuminaSFT для разработчиков и инженеров

Кому это интересно на практике

LuminaSFT – не инструмент для конечного пользователя, а методология для тех, кто разрабатывает или настраивает языковые модели под конкретные задачи.

Если коротко – потенциально полезно:

командам, которые хотят развернуть собственную языковую модель без огромных вычислительных затрат;
разработчикам, которые работают с узкими предметными областями и не могут найти подходящий набор данных в открытом доступе;
тем, кто уже использует или рассматривает оборудование AMD для работы с ИИ – и хочет понять, что с этим оборудованием можно делать.

Последний пункт важен с точки зрения контекста. AMD активно развивает своё ИИ-направление, и публикации вроде LuminaSFT – это одновременно и демонстрация технических возможностей, и попытка привлечь разработчиков в свою экосистему. Ненавязчиво, но вполне прозрачно.

LuminaSFT: о чём стоит помнить при работе с методологией синтеза данных

Что остаётся за кадром

Методология выглядит аккуратно, но открытые вопросы всё равно есть.

Во-первых, качество синтетических данных напрямую зависит от качества модели-«учителя». Если большая модель ошибается в какой-то теме, эти ошибки попадут в обучающую выборку. Никакая фильтрация не гарантирует стопроцентной чистоты.

Во-вторых, такой подход хорошо работает, когда задача чётко определена. Чем более размытой или широкой является область применения модели, тем сложнее подобрать правильный набор синтетических примеров.

В-третьих, это всё ещё ресурсозатратный процесс. Генерация синтетических данных с помощью большой модели стоит денег и времени. Просто этот расход сдвигается – с ручной разметки на вычисления. Для кого-то это выгоднее, для кого-то – нет.

Но в целом направление понятно и логично: использовать большие модели как инструмент создания знаний для маленьких. Это не новая идея в машинном обучении – похожие подходы (иногда называемые «дистилляцией знаний») существуют давно. LuminaSFT – одна из конкретных реализаций этой логики, заточенная под современные открытые модели и аппаратную платформу AMD.

И если такие методологии станут проще и доступнее, небольшие модели будут становиться всё более серьёзной альтернативой для тех, кто не хочет или не может платить за доступ к вычислительным гигантам.

#прикладной разбор #методология #нейросети #обучение ии #инженерия #данные #оптимизация моделей #синтетические данные

Ссылка на публикацию: https://rocm.blogs.amd.com/artificial-intelligence/luminasft/README.html

Оригинальное название: LuminaSFT: Generating Synthetic Fine-Tuning Data for Small Language Models – ROCm Blogs

Дата публикации: 24 фев 2026

AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.

Предыдущая статья Кэш как ресурс: как Alibaba Cloud учит ИИ не пересчитывать одно и то же дважды Следующая статья Модульный интеллект: как ИИ учится думать по-человечески

Как научить маленькие языковые модели думать лучше: опыт использования синтетических данных

Проблема: высокая стоимость качественных данных для обучения LLM

Что такое LuminaSFT: суть методологии синтеза данных от AMD

Особенности работы с синтетическими данными: преимущества и риски

Возможности небольших моделей: почему размер не всегда имеет значение

Практическая ценность LuminaSFT для разработчиков и инженеров

LuminaSFT: о чём стоит помнить при работе с методологией синтеза данных

Связанные публикации

SyGra Studio: инструмент для генерации синтетических данных на основе графов знаний

Как обучают агентные модели после базовой тренировки

Что влияет на качество text-to-image моделей: исследование PhotoRoom о важных деталях обучения

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации