Архитектуры и типы ИИ

Трансформеры и большие языковые модели: архитектура, изменившая масштаб возможного

Как архитектура трансформеров и механизм внимания стали основой больших языковых моделей: почему параллельный анализ контекста оказался эффективнее последовательного чтения и что происходит, когда эти системы масштабируются.

Принципы работы нейронных сетей и обработки информации

От глубоких сетей – к новому устройству

Нейронные сети обрабатывают информацию послойно. Каждый слой принимает данные, преобразует их и передаёт дальше. Чем больше слоёв, тем сложнее закономерности, которые сеть способна обнаружить. Этот принцип работает давно и доказал свою состоятельность в распознавании изображений, классификации звука и анализе сигналов.

Но с текстом всё оказалось сложнее.

Язык устроен иначе, чем пиксели на картинке. Смысл слова зависит от окружения: «ключ» означает разное в зависимости от того, идёт ли речь о замке, роднике или музыкальной тональности. Связи между словами не всегда локальны – местоимение в конце предложения может относиться к существительному из его начала. Длинный контекст, изменчивые зависимости, многозначность – всё это создавало проблемы для архитектур, которые обрабатывали текст последовательно, слово за словом.

Модели, работавшие по принципу «прочитал предыдущее слово – предсказываю следующее», справлялись с короткими фрагментами, но плохо удерживали контекст на протяжении длинного текста. Информация о начале фразы к её концу успевала «раствориться» в промежуточных вычислениях.

Именно здесь в 2017 году появилась новая идея.

Механизм внимания в архитектуре трансформеров

Внимание вместо последовательности

Статья исследователей из Google называлась «Attention Is All You Need» – «Внимание – это всё, что вам нужно». Это был намеренно провокационный заголовок: авторы предлагали отказаться от последовательной обработки текста и заменить её принципиально другим механизмом.

Идея механизма внимания формулируется просто: при обработке каждого слова модель не движется строго от начала к концу, а одновременно рассматривает все слова в тексте и оценивает, какие из них наиболее важны в данном контексте.

Попробуем объяснить на примере. Возьмём фразу: «Банк объявил о реструктуризации, хотя его директор поначалу отрицал проблемы». Чтобы понять, к чему относится слово «его», нужно удержать в поле зрения слово «банк», которое стоит в начале, далеко от местоимения. Механизм внимания позволяет модели при обработке местоимения «посмотреть» назад и определить, что именно оно замещает. Не потому, что модель «понимает» местоимения, а потому, что в процессе вычислений каждый элемент получает возможность взаимодействовать со всеми остальными.

Вся эта работа происходит не последовательно, а параллельно. Модель не ждёт, пока «дочитает» до нужного места, – она рассматривает весь фрагмент сразу и для каждого слова выстраивает взвешенные связи с остальными. Слова, которые оказываются важными для понимания текущего элемента, получают больший «вес», менее релевантные – меньший.

Это и есть трансформер в своей основе: архитектура, построенная вокруг механизма внимания, который позволяет учитывать контекст не линейно, а глобально.

Преимущества трансформеров при обработке текстовых данных

Почему это так хорошо сработало для текста

Параллельная обработка решила сразу несколько проблем.

Первая – проблема дальних зависимостей. Раньше, чтобы связать слово в начале абзаца с местоимением в его конце, информация должна была «пройти» через все промежуточные слои и шаги. При этом она неизбежно искажалась и терялась. Механизм внимания позволяет установить прямую связь между любыми двумя элементами текста независимо от расстояния между ними.

Вторая – проблема неоднозначности. Значение слова определяется контекстом. В трансформере представление каждого слова не фиксировано – оно формируется с учётом всего окружения. «Ключ» в тексте о музыке и «ключ» в тексте о замках получат разные внутренние представления, потому что окружающие слова по-разному повлияют на итоговые вычисления.

Третья – эффективность обучения. Последовательная обработка плохо масштабируется: чем длиннее текст, тем больше шагов нужно совершить и тем сложнее обучить модель. Параллельная обработка позволила задействовать современные вычислительные ускорители – GPU и TPU – в полную силу. Обучение стало быстрее, что открыло возможность работать с гораздо бо́льшими объёмами данных.

Именно сочетание этих факторов сделало трансформеры доминирующей архитектурой для работы с текстом. Не потому, что они «умнее» предыдущих подходов, а потому, что они лучше соответствуют структуре языковых данных и эффективнее используют доступные вычислительные ресурсы.

Влияние масштабирования на способности языковых моделей

Масштабирование: когда количество переходит в качество

Трансформеры оказались не просто новой архитектурой – они стали базой, которая отлично масштабируется. Это обнаружилось не сразу, но стало одним из главных открытий последующих лет.

Под масштабированием понимается одновременное увеличение трёх составляющих: количества параметров модели, объёма обучающих данных и вычислительных ресурсов, затраченных на обучение. Параметры – это числовые значения, которые настраиваются в процессе обучения и определяют поведение модели. Чем их больше, тем больше информации модель способна «закодировать» в своих весах.

Первые трансформеры работали с десятками и сотнями миллионов параметров. Это уже было много по меркам 2017–2018 годов. Но исследователи начали замечать интересную закономерность: при последовательном увеличении масштаба модели демонстрировали не просто пропорциональный прирост качества, а порой неожиданные скачки – способности, которых при меньшем масштабе не наблюдалось вовсе.

GPT-3, выпущенная в 2020 году, содержала 175 миллиардов параметров и была обучена на сотнях миллиардов слов. Модель могла выполнять задачи, которым её явно не обучали: переводить тексты, решать простые логические задачи, писать код – при условии, что задача была сформулирована в виде текста в правильном формате. Никакой отдельной настройки для каждой из этих задач не проводилось.

Это наблюдение породило понятие «emergent abilities» – эмерджентных (внезапно возникающих) способностей, проявляющихся при достижении определённого масштаба. Важно понимать: речь идёт не о появлении мышления или понимания. Речь о том, что при достаточном количестве параметров и данных модель начинает воспроизводить статистические закономерности, которые в обучающих данных присутствовали неявно. Если в триллионах слов текста встречаются примеры того, как люди рассуждают о логических задачах, модель обучается имитировать эти рассуждения.

Никакого прорыва в «интеллекте» здесь нет. Есть более точно настроенная система работы с числовыми представлениями текста.

Архитектура и масштаб – не магия, а инженерия

Большие языковые модели – GPT, Claude, Gemini, Llama и другие – это трансформеры, обученные на колоссальных объёмах текстовых данных. Их архитектура позволяет учитывать контекст при формировании каждого следующего фрагмента текста, а масштаб – кодировать огромное количество статистических закономерностей языка. О том, как именно модель строит текст шаг за шагом, мы подробнее расскажем в статье «Генеративные модели: как ИИ создает новое на основе выученных закономерностей».

Иногда результат выглядит поразительно связным, точным и даже творческим. Это следствие масштаба и качества обучения, а не наличия у модели намерений или понимания. Система преобразует числовые представления токенов через множество слоёв с механизмом внимания и выдаёт вероятностный результат. Этот результат может быть очень полезным, но за ним не стоит ни субъект, ни смысл в том значении, которое мы вкладываем в это слово применительно к человеческому мышлению.

Понимание этого разграничения – не повод недооценивать возможности таких систем. Напротив: оно позволяет точнее видеть, что именно они делают хорошо, где проходят их реальные границы и почему результат, производимый моделью, требует осмысленного отношения со стороны человека.

Архитектура трансформера и практика масштабирования стали двумя ключами, открывшими дверь к современным генеративным системам. Это инженерное достижение – значительное, практически полезное и достойное понимания именно как инженерный продукт, а не как явление иного порядка.

Предыдущая статья 15. Глубокое обучение: что меняется с увеличением количества слоёв Архитектуры и типы ИИ Следующая статья 17. Генеративные модели: как ИИ создает новое на основе выученных закономерностей Архитектуры и типы ИИ