Когда мы говорим о работе с документами, обычно подразумеваем латиницу – английский, испанский, французский. Но что насчёт арабского или иврита? Там текст идёт справа налево, и это создаёт неожиданные проблемы для систем, которые пытаются извлечь информацию из PDF-файлов.
В чём проблема с RTL-языками
Языки с письмом справа налево (RTL – right-to-left) требуют особого подхода. Когда вы открываете PDF на арабском или иврите, структура документа может быть сложной: таблицы, колонки, врезки – всё это нужно прочитать в правильном порядке. Если система не понимает направление текста, она может смешать строки, перепутать колонки или вообще выдать бессмыслицу.
До сих пор большинство инструментов для парсинга PDF создавались с прицелом на латиницу. RTL-языки оставались на периферии, и качество обработки таких документов было заметно хуже.
Как AI21 Labs подошла к решению
Команда AI21 Labs решила не изобретать велосипед с нуля, а использовать то, что уже хорошо работает – модели для языков с письмом слева направо (LTR – left-to-right). Идея в том, чтобы взять сильные стороны существующих систем и адаптировать их для RTL.
Проще говоря, они научили модель «видеть» RTL-документ так, будто это LTR, но с учётом всех особенностей направления текста. Это позволило достичь результатов, сопоставимых с лучшими системами для английского языка.
Что именно сделали
Основной подход базируется на нескольких шагах:
- Предобработка с учётом направления. Документ анализируется с пониманием того, что текст идёт справа налево. Система определяет порядок чтения элементов на странице.
- Использование LTR-моделей. Вместо того чтобы обучать новую модель с нуля, используются уже натренированные системы для латиницы. Они применяются к RTL-тексту после специальной подготовки.
- Тестирование на реальных документах. Модель проверялась на разных типах документов – от простых текстов до сложных таблиц и многоколоночных макетов.
Результат: качество парсинга RTL-документов вышло на уровень, который раньше был доступен только для английского и других LTR-языков.
Почему это важно
Сотни миллионов людей используют арабский, иврит и другие RTL-языки. Для них работа с документами – такая же повседневная задача, как и для всех остальных. Но инструменты автоматизации часто их подводят.
Представьте банк, который хочет автоматически обрабатывать заявки на арабском. Или государственную организацию, работающую с документами на иврите. Если парсинг работает плохо, приходится всё делать вручную или мириться с ошибками.
Теперь, когда качество обработки RTL-документов сравнялось с латиницей, это открывает новые возможности для автоматизации в регионах, где раньше это было сложно реализовать.
Что дальше
Этот подход показывает, что необязательно создавать отдельные системы для каждого языка с нуля. Можно использовать уже существующие наработки и адаптировать их под новые задачи. Это экономит время и ресурсы.
Остаются, конечно, нюансы. RTL-языки разные: арабский с его связанными буквами отличается от иврита, где буквы печатные. Есть ещё персидский, урду и другие. Каждый из них может требовать своих доработок.
Но главное – показано, что разрыв в качестве можно закрыть. И это хорошая новость для всех, кто работает с документами на языках, которые долгое время оставались на вторых ролях в мире ИИ-инструментов.