Опубликовано

Как научить ИИ правильно читать арабские и еврейские PDF-файлы

AI21 Labs разработала метод, который позволяет языковым моделям точно извлекать текст из документов на языках с письмом справа налево.

Разработка
Источник события: AI21 Labs Время чтения: 3 – 4 минуты

Когда мы говорим о работе с документами, обычно подразумеваем латиницу – английский, испанский, французский. Но что насчёт арабского или иврита? Там текст идёт справа налево, и это создаёт неожиданные проблемы для систем, которые пытаются извлечь информацию из PDF-файлов.

В чём проблема с RTL-языками

Языки с письмом справа налево (RTL – right-to-left) требуют особого подхода. Когда вы открываете PDF на арабском или иврите, структура документа может быть сложной: таблицы, колонки, врезки – всё это нужно прочитать в правильном порядке. Если система не понимает направление текста, она может смешать строки, перепутать колонки или вообще выдать бессмыслицу.

До сих пор большинство инструментов для парсинга PDF создавались с прицелом на латиницу. RTL-языки оставались на периферии, и качество обработки таких документов было заметно хуже.

Как AI21 Labs подошла к решению

Команда AI21 Labs решила не изобретать велосипед с нуля, а использовать то, что уже хорошо работает – модели для языков с письмом слева направо (LTR – left-to-right). Идея в том, чтобы взять сильные стороны существующих систем и адаптировать их для RTL.

Проще говоря, они научили модель «видеть» RTL-документ так, будто это LTR, но с учётом всех особенностей направления текста. Это позволило достичь результатов, сопоставимых с лучшими системами для английского языка.

Что именно сделали

Основной подход базируется на нескольких шагах:

  • Предобработка с учётом направления. Документ анализируется с пониманием того, что текст идёт справа налево. Система определяет порядок чтения элементов на странице.
  • Использование LTR-моделей. Вместо того чтобы обучать новую модель с нуля, используются уже натренированные системы для латиницы. Они применяются к RTL-тексту после специальной подготовки.
  • Тестирование на реальных документах. Модель проверялась на разных типах документов – от простых текстов до сложных таблиц и многоколоночных макетов.

Результат: качество парсинга RTL-документов вышло на уровень, который раньше был доступен только для английского и других LTR-языков.

Почему это важно

Сотни миллионов людей используют арабский, иврит и другие RTL-языки. Для них работа с документами – такая же повседневная задача, как и для всех остальных. Но инструменты автоматизации часто их подводят.

Представьте банк, который хочет автоматически обрабатывать заявки на арабском. Или государственную организацию, работающую с документами на иврите. Если парсинг работает плохо, приходится всё делать вручную или мириться с ошибками.

Теперь, когда качество обработки RTL-документов сравнялось с латиницей, это открывает новые возможности для автоматизации в регионах, где раньше это было сложно реализовать.

Что дальше

Этот подход показывает, что необязательно создавать отдельные системы для каждого языка с нуля. Можно использовать уже существующие наработки и адаптировать их под новые задачи. Это экономит время и ресурсы.

Остаются, конечно, нюансы. RTL-языки разные: арабский с его связанными буквами отличается от иврита, где буквы печатные. Есть ещё персидский, урду и другие. Каждый из них может требовать своих доработок.

Но главное – показано, что разрыв в качестве можно закрыть. И это хорошая новость для всех, кто работает с документами на языках, которые долгое время оставались на вторых ролях в мире ИИ-инструментов.

Ссылка на публикацию: https://www.ai21.com/blog/rtl-pdf-parsing/
Оригинальное название: Closing the parsing gap: reaching SOTA RTL parsing by leveraging LTR capabilities
Дата публикации: 22 янв 2026
AI21 Labswww.ai21.com Израильская компания, создающая большие языковые модели и инструменты для работы с текстом.
Предыдущая статья Как «усыпление» данных помогает экономить при обучении ИИ Следующая статья AMD представила метод разделения GPU для параллельного запуска нескольких LLM

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться