Опубликовано 9 февраля 2026

Sarvam Vision: модель для работы с документами со знанием индийских языков

Индийский стартап выпустил компактную мультимодальную модель, способную распознавать текст на 22 языках страны – зачастую точнее, чем глобальные аналоги.

Продукты 4 – 6 минут чтения
Источник события: Sarvam 4 – 6 минут чтения

Мультимодальная модель Sarvam Vision для обработки документов

Когда знание заперто в документах

5 февраля индийская компания Sarvam AI представила Sarvam Vision – мультимодальную модель, которая умеет работать с текстом и изображениями. Ранее Sarvam выпускала решения для голоса и текста, теперь же разработчики охватили и визуальную составляющую.

Модель построена на базе архитектуры пространства состояний (state-space) и содержит три миллиарда параметров. Это не самая крупная модель на рынке – для сравнения, GPT-4 содержит, по разным оценкам, сотни миллиардов параметров, – но компактность здесь является преимуществом: модель работает быстрее и требует меньше ресурсов.

Основная задача Sarvam Vision – обработка документов. Модель умеет описывать изображения, распознавать текст на фотографиях, интерпретировать графики и разбирать сложные таблицы. Но главное – она специализирована на индийских языках.

Особенности распознавания редких индийских языков

Проблема, которую не решают глобальные модели

В Индии огромные объёмы информации до сих пор хранятся на бумаге: отсканированные архивы, исторические документы, государственные бюллетени. Чтобы эти данные стали доступны для исследований или использования в бизнесе, их необходимо оцифровать.

Проблема в том, что существующие решения для распознавания документов показывают хорошие результаты на английском, но буксуют на региональных языках Индии. Глобальные модели относятся к ним как к второстепенным, в результате чего точность распознавания падает.

В Sarvam решили эту проблему иначе: вместо того чтобы адаптировать западную модель, они обучили свою с нуля, уделив особое внимание 22 официальным языкам Индии – от хинди и бенгали до менее распространённых, таких как сантали или майтхили.

Процесс обучения и наборы данных для Sarvam Vision

Как обучали модель

Разработчики собрали обширный набор данных: синтетические и реальные пары «изображение – текст» для всех языков. В датасет вошли научные статьи, финансовые отчёты, государственные документы, исторические рукописи, учебники и газеты.

Для каждого типа документов данные готовили отдельно. Например, для графиков создавали задачи на извлечение структуры, описание и анализ. Для таблиц – на понимание связей между ячейками.

Обучение проходило в несколько этапов: сначала предварительное обучение базовой модели, затем тонкая настройка (fine-tuning) под конкретные задачи и обучение с подкреплением на основе проверяемых вознаграждений – то есть модель получала обратную связь в зависимости от того, насколько точно она выполнила задачу.

Тестирование точности распознавания текста и сравнение с конкурентами

Результаты на бенчмарках

Sarvam сравнили свою модель с конкурентами на нескольких популярных тестах. На англоязычной части olmOCR-Bench (бенчмарк для оценки распознавания текста в документах) Sarvam Vision показала результаты на уровне или выше GPT-5.2, Gemini 3 Pro и других крупных моделей. Особенно хорошо модель справилась с математическими текстами, таблицами и сканами старых документов.

Но главное – индийские языки. Поскольку стандартных бенчмарков для них не существовало, в Sarvam создали собственный: Sarvam Indic OCR Bench. В него вошло более 20 тысяч образцов документов на 22 языках: от текстов 1800-х годов до современных материалов.

На этом тесте Sarvam Vision обошла все остальные модели, включая Gemini 3 Pro и Claude Opus 4.5. Для хинди точность распознавания составила почти 96%, для бенгали – 93%, для тамильского – также 93%. Даже для менее распространённых языков, таких как одия или догри, результаты оказались заметно лучше, чем у конкурентов.

Возможности модели по анализу таблиц и графиков

Знание – это не просто текст

Разработчики подчёркивают важный момент: задача модели – не просто извлечь текст, а извлечь знание. Документы содержат не только слова, но и таблицы, графики, иллюстрации, инфографику. Чтобы полностью понять документ, нужно учитывать каждый пиксель.

Например, Sarvam Vision может:

  • распознать рукописный текст на историческом документе;
  • извлечь данные из сложной вложенной таблицы;
  • описать содержание графика на хинди или тамильском;
  • преобразовать визуальную информацию в структурированный JSON-формат.

В статье авторы привели несколько примеров. Модель корректно распознала рукописное письмо на английском 📝, отсканированный текст на тамильском из книги 1800-х годов, сложную таблицу с вложенными строками и график с данными на хинди.

Применение модели для распознавания объектов и сцен

Модель умеет больше, чем работать с документами

Хотя основной фокус направлен на обработку документов, Sarvam Vision также справляется с общими задачами компьютерного зрения. Модель может описывать сцены, распознавать текст «в естественной среде» – например, на вывесках или дорожных знаках, – и извлекать структурированную информацию из фотографий.

Разработчики продемонстрировали, как модель описывает улицу с велодорожкой на английском и каннада, распознаёт объявление на гуджарати, извлекает расписание рейсов с табло аэропорта на каннада и считывает рукописный школьный текст о Каламе.

Текущие ограничения и ошибки при работе с редкими языками

Где модель ошибается

В Sarvam честно признают: модель не идеальна. В статье приводятся два примера сбоев.

Первый – неправильный перевод названия магазина с бенгали. Модель распознала вывеску, но перевела её некорректно.

Второй – сложности с низкоресурсными языками. Когда модель попросили описать уличную сцену на языке сантали, она проигнорировала инструкцию и ответила на английском. Для редких языков качество следования инструкциям пока остаётся нестабильным.

Перспективы развития и доступ к API для разработчиков

Что дальше

Sarvam Vision доступна через API. Весь февраль 2026 года компания предоставляет бесплатный доступ к API для распознавания документов без ограничений по объёму. Это отличная возможность протестировать модель в реальных условиях.

Разработчики планируют развивать модель в сферах образования, здравоохранения и видеоаналитики. Также команда Sarvam приглашает разработчиков в свой Discord, чтобы обсуждать обновления и делиться обратной связью.

Примечательно, что компактная специализированная модель может конкурировать с гораздо более крупными универсальными решениями – особенно в тех областях, где критически важна точность работы с неанглийскими языками.

Ссылка на публикацию: https://www.sarvam.ai/blogs/Sarvam-vision
Оригинальное название: Sarvam Vision
Дата публикации: 8 фев 2026
Sarvam www.sarvam.ai Индийская ИИ-компания, разрабатывающая языковые модели и речевые технологии для локальных языков и сервисов.
Предыдущая статья Канадские клиники внедрили ИИ-ассистента Oracle для автоматизации медицинской документации Следующая статья Red Hat показывает, как ИИ может сделать сети телеком-операторов умнее и автономнее

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Индийская компания Sarvam AI представила систему для автоматического озвучивания видео на региональных языках с сохранением интонаций оригинала и синхронизацией движений губ.

Sarvamwww.sarvam.ai 8 фев 2026

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

SenseTimewww.sensetime.com 30 янв 2026

Mistral AI представила Voxtral – модель для расшифровки речи в реальном времени с точным разделением спикеров и новой интерактивной «песочницей» для работы с аудио.

Mistral AImistral.ai 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться