Опубликовано 26 февраля 2026

Как научить маленькие языковые модели думать лучше: опыт использования синтетических данных

Как научить небольшую языковую модель думать лучше: опыт AMD с синтетическими данными

AMD представила подход LuminaSFT, который позволяет дообучать небольшие языковые модели с помощью синтетических данных и достигать неожиданно высоких результатов.

Разработка 5 – 7 минут чтения
Источник события: AMD 5 – 7 минут чтения

Большие языковые модели – GPT-подобные гиганты с десятками и сотнями миллиардов параметров – давно стали точкой отсчёта в мире ИИ. Но за последние пару лет всё отчётливее звучит другой вопрос: должна ли модель быть огромной, чтобы быть полезной?

Небольшие языковые модели – их принято называть SLM (от английского small language models) – занимают всё больше места в реальных проектах. Они дешевле в работе, быстрее отвечают, могут запускаться прямо на устройстве пользователя без обращения к облаку. Проще говоря: меньше тратят, а при правильной настройке почти не уступают старшим братьям в конкретных задачах.

Именно с этим «при правильной настройке» и связана разработка, о которой пойдёт речь.

Проблема: высокая стоимость качественных данных для обучения LLM

Проблема: хорошие данные дорого стоят

Чтобы модель хорошо справлялась с конкретной задачей – например, отвечала на вопросы в определённой области или вела диалог в нужном стиле – её нужно дообучить. Этот процесс называется файн-тюнингом (fine-tuning). Для него требуются примеры: вопросы и правильные ответы, инструкции и их выполнение, диалоги – в зависимости от задачи.

Проблема в том, что хороших обучающих данных часто не хватает. Собирать их вручную – долго и дорого. Привлекать экспертов для разметки – ещё дороже. И даже если данные есть, они могут быть закрытыми, неструктурированными или недостаточно разнообразными.

Здесь и появляется идея синтетических данных: что если нужные примеры для обучения сгенерировать с помощью более крупной модели? Взять большую модель, попросить её создать обучающие пары «вопрос – ответ», отфильтровать качественные и использовать их для дообучения маленькой модели. Звучит как разумный план – и именно его реализует подход под названием LuminaSFT, описанный командой AMD.

Что такое LuminaSFT: суть методологии синтеза данных от AMD

Что такое LuminaSFT и в чём его суть

LuminaSFT – это не отдельная модель и не продукт, а методология: набор подходов к тому, как генерировать синтетические данные для дообучения небольших языковых моделей и как делать это так, чтобы результат был действительно качественным.

Ключевая идея проста: большая модель выступает в роли «учителя». Она генерирует разнообразные задачи и правильные ответы к ним – то, что потом станет обучающими примерами для маленькой модели-«ученика». Задача при этом – не просто нагенерировать побольше текста, а получить примеры, которые реально улучшат поведение модели.

В рамках LuminaSFT этот процесс выстроен в несколько шагов:

  • Генерация разнообразных инструкций. Большая модель создаёт широкий набор заданий – разных по типу, сложности и тематике. Это важно, чтобы маленькая модель после обучения не была «заточена» только под один сценарий.
  • Фильтрация и оценка качества. Не все сгенерированные примеры одинаково полезны. Часть из них слишком простые, неточные или повторяющиеся. Поэтому данные проходят через отбор: оставляют то, что реально вносит вклад в обучение.
  • Дообучение маленькой модели. Отфильтрованные примеры используются для файн-тюнинга. После этого небольшая модель начинает лучше справляться именно с теми задачами, под которые готовились данные.

Всё это реализовано с использованием GPU AMD и платформы ROCm – фреймворка AMD для работы с нейросетями, который является альтернативой более известной платформе NVIDIA CUDA.

Особенности работы с синтетическими данными: преимущества и риски

Почему синтетика – это не просто «сгенерировать и забыть»

Синтетические данные – тема, о которой в последнее время говорят всё чаще. И у неё есть как очевидные плюсы, так и подводные камни.

Плюс очевиден: не нужно нанимать разметчиков, искать редкие наборы данных (датасеты); можно быстро получить данные под конкретную задачу. Это особенно ценно, когда нужно дообучить модель в узкой области – например, для медицинских консультаций или технической поддержки, где открытых качественных данных почти нет.

Но есть и риски. Если большая модель генерирует примеры с ошибками, маленькая модель их усвоит. Если данные однообразны, модель станет предсказуемой и негибкой. Если в синтетике заложен какой-либо перекос, он перейдёт в дообученную модель.

Именно поэтому в LuminaSFT так много внимания уделяется разнообразию и фильтрации. Авторы подхода специально проектировали генерацию так, чтобы примеры были не похожи друг на друга по стилю и содержанию – это снижает риск того, что модель просто «заучит» шаблоны, а не научится решать задачи.

Возможности небольших моделей: почему размер не всегда имеет значение

Небольшая модель – не значит слабая

Результаты, которые демонстрирует подход, выглядят убедительно. Небольшие модели, дообученные на синтетических данных по методологии LuminaSFT, показывают результаты, сопоставимые с более крупными моделями на ряде задач – особенно там, где обучающие данные были хорошо подобраны под конкретную область.

Это важный момент. Небольшая языковая модель – это не «урезанная» копия большой, а отдельный инструмент со своими преимуществами. Если её хорошо настроить под конкретную задачу, она может работать не хуже и при этом обходиться значительно дешевле в эксплуатации.

Проще говоря: не всегда нужен спортивный автомобиль. Иногда хорошо настроенный городской хэтчбек справляется со своим маршрутом лучше – и бензина расходует меньше.

Практическая ценность LuminaSFT для разработчиков и инженеров

Кому это интересно на практике

LuminaSFT – не инструмент для конечного пользователя, а методология для тех, кто разрабатывает или настраивает языковые модели под конкретные задачи.

Если коротко – потенциально полезно:

  • командам, которые хотят развернуть собственную языковую модель без огромных вычислительных затрат;
  • разработчикам, которые работают с узкими предметными областями и не могут найти подходящий набор данных в открытом доступе;
  • тем, кто уже использует или рассматривает оборудование AMD для работы с ИИ – и хочет понять, что с этим оборудованием можно делать.

Последний пункт важен с точки зрения контекста. AMD активно развивает своё ИИ-направление, и публикации вроде LuminaSFT – это одновременно и демонстрация технических возможностей, и попытка привлечь разработчиков в свою экосистему. Ненавязчиво, но вполне прозрачно.

LuminaSFT: о чём стоит помнить при работе с методологией синтеза данных

Что остаётся за кадром

Методология выглядит аккуратно, но открытые вопросы всё равно есть.

Во-первых, качество синтетических данных напрямую зависит от качества модели-«учителя». Если большая модель ошибается в какой-то теме, эти ошибки попадут в обучающую выборку. Никакая фильтрация не гарантирует стопроцентной чистоты.

Во-вторых, такой подход хорошо работает, когда задача чётко определена. Чем более размытой или широкой является область применения модели, тем сложнее подобрать правильный набор синтетических примеров.

В-третьих, это всё ещё ресурсозатратный процесс. Генерация синтетических данных с помощью большой модели стоит денег и времени. Просто этот расход сдвигается – с ручной разметки на вычисления. Для кого-то это выгоднее, для кого-то – нет.

Но в целом направление понятно и логично: использовать большие модели как инструмент создания знаний для маленьких. Это не новая идея в машинном обучении – похожие подходы (иногда называемые «дистилляцией знаний») существуют давно. LuminaSFT – одна из конкретных реализаций этой логики, заточенная под современные открытые модели и аппаратную платформу AMD.

И если такие методологии станут проще и доступнее, небольшие модели будут становиться всё более серьёзной альтернативой для тех, кто не хочет или не может платить за доступ к вычислительным гигантам.

Оригинальное название: LuminaSFT: Generating Synthetic Fine-Tuning Data for Small Language Models – ROCm Blogs
Дата публикации: 24 фев 2026
AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Кэш как ресурс: как Alibaba Cloud учит ИИ не пересчитывать одно и то же дважды Следующая статья Модульный интеллект: как ИИ учится думать по-человечески

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Компания ServiceNow открыла доступ к платформе, которая позволяет создавать качественные датасеты на основе структурированных графов – от простых примеров до сложных логических сценариев.

Hugging Facehuggingface.co 6 фев 2026

ИИ: События

Как обучают агентные модели после базовой тренировки

Технический контекст Разработка

MiniMax рассказала о своём подходе к дообучению языковых моделей, которые умеют не только отвечать, но и выполнять сложные задачи через взаимодействие с инструментами.

MiniMaxwww.minimax.io 22 янв 2026

Команда PhotoRoom проверила, какие решения при обучении диффузионных моделей действительно помогают, а какие можно упростить без потери качества.

Hugging Facehuggingface.co 3 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться