Большие языковые модели (БЯМ) неплохо работают с литературным арабским языком, так называемым Modern Standard Arabic, который используется в новостях и официальных документах. Однако арабский язык устроен значительно сложнее: в каждом регионе существует свой диалект, и эмиратский является одним из них.
Почему диалекты – это отдельная задача
Эмиратский диалект отличается от литературного арабского не только произношением. Он имеет свою уникальную лексику, грамматические конструкции и культурные контексты. Если модель обучалась преимущественно на классическом арабском или диалектах других стран, она может испытывать трудности с пониманием текстов из ОАЭ.
До сих пор не существовало системного способа проверить, насколько хорошо модели понимают именно эмиратский диалект. Тестирование модели на общих арабских задачах не давало полного представления о её работе с конкретным региональным языком.
Что сделали исследователи
Команда из Института технологических инноваций (Technology Innovation Institute) в ОАЭ разработала набор бенчмарков под названием Alyah. Это коллекция тестовых заданий, предназначенных для оценки способности модели работать с эмиратским диалектом.
В набор вошло несколько типов задач:
- понимание текста и умение отвечать на вопросы;
- проверка знаний о культуре и истории ОАЭ;
- задачи на рассуждение и логику;
- работа с реальными примерами из повседневной жизни.
Все задания составлены на эмиратском диалекте и проверены его носителями. Это крайне важно, поскольку автоматический перевод или адаптация текстов с других диалектов могли бы исказить смысл.
Какие модели тестировали
Исследователи протестировали на бенчмарке несколько языковых моделей. Среди них были как специализированные арабские модели, так и крупные мультиязычные, включая GPT-4 и другие известные системы.
Результаты показали интересную картину. Модели, которые хорошо работают с литературным арабским, не всегда так же уверенно справляются с эмиратским диалектом. Даже крупные мультиязычные модели, обученные на огромных объёмах данных, иногда сталкивались с трудностями, связанными со специфичными для региона выражениями и культурными отсылками.
При этом специализированные арабские модели показали себя по-разному: некоторые справлялись лучше благодаря тому, что в их обучающих данных было больше диалектного материала, другие оставались на уровне общих мультиязычных решений.
Зачем это нужно
Для разработчиков это инструмент, который помогает выявить слабые места моделей. Если вы создаёте приложение для пользователей из ОАЭ – чат-бота, голосового помощника или систему обработки обращений – вам важно знать, насколько хорошо модель понимает именно тот язык, на котором говорят ваши пользователи.
Для исследователей это служит ориентиром. Наличие стандартизированного набора задач позволяет сравнивать модели между собой и отслеживать прогресс. Без таких бенчмарков сложно понять, стала ли новая версия модели действительно лучше в работе с диалектом или просто изменились какие-то общие параметры.
Что дальше
Alyah представляет собой шаг к тому, чтобы языковые модели лучше работали с региональными вариантами языка. Эмиратский диалект – не единственный, который нуждается в подобных инструментах. В арабском мире существуют десятки диалектов, и у каждого свои особенности.
Команда выложила бенчмарк в открытый доступ, так что любой разработчик или исследователь может использовать его для оценки своих моделей. Это способствует созданию более инклюзивных технологий – таких, которые работают не только с формальным языком из учебников, но и с живой речью людей.
Пока неясно, насколько быстро крупные компании будут адаптировать свои модели под результаты таких тестов. Но сам факт появления специализированных бенчмарков для региональных диалектов – уже сигнал, что индустрия начинает обращать внимание на языковое разнообразие за пределами основных мировых языков.