Опубликовано 1 апреля 2026

Falcon Perception: унифицированный трансформер для компьютерного зрения и обработки текста

Falcon Perception: один трансформер для зрения, текста и понимания документов

Команда Falcon Vision из Технологического инновационного института представила Falcon Perception – компактную модель, которая умеет находить и выделять объекты на изображениях по текстовым описаниям.

Исследования / Технический контекст 6 – 8 минут чтения
Источник события: Hugging Face 6 – 8 минут чтения

Обычно системы компьютерного зрения устроены как конвейер: один модуль «смотрит» на изображение, другой обрабатывает текст, третий совмещает результаты, четвёртый занимается постобработкой. Каждый новый сбой – новый модуль. Чем сложнее задача, тем длиннее цепочка.

Команда Falcon Vision из Технологического инновационного института (TII, Абу-Даби) решила проверить, можно ли всё это заменить одной моделью. Результатом стал Falcon Perception – единая нейросеть на 0,6 миллиарда параметров, которая понимает изображение и текст вместе, с первого слоя, без разделения на отдельные блоки.

Объединение зрения и языка в одной модели

Зачем вообще объединять зрение и язык в одну модель?

Задача, которую решает Falcon Perception, звучит просто: дать модели изображение и текстовое описание – например, «красная кружка слева от ноутбука» – и получить в ответ точную маску объекта на картинке. Проще говоря, модель должна не просто найти объект, но и обвести его по контуру.

В традиционных системах изображение сначала проходит через один энкодер, текст – через другой, потом результаты как-то совмещаются. Такой подход работает, но плохо масштабируется и накапливает ошибки на каждом переходе между компонентами.

Falcon Perception идёт другим путём: изображение разбивается на небольшие патчи (фрагменты), и эти патчи вместе с токенами текста подаются в одну общую последовательность. Трансформер обрабатывает их одновременно, в едином пространстве параметров. Это называется ранним слиянием (early fusion) – объединение происходит не после обработки, а в самом начале.

Как модель Falcon Perception обрабатывает визуальный и текстовый контент

Как модель «видит» и «читает» одновременно

Изображения и текст устроены по-разному. Пиксели существуют в двумерном пространстве и лучше воспринимаются, когда модель видит контекст со всех сторон сразу. Текст же читается последовательно: каждое слово опирается на предыдущее.

Чтобы учесть эту разницу, в Falcon Perception используется гибридная маска внимания. Визуальные токены (патчи изображения) взаимодействуют друг с другом в обоих направлениях – модель видит всю картинку целиком. Текстовые и задачные токены работают по-другому: каждый из них «видит» всё, что было до него, включая визуальный контекст, но не то, что идёт после. Это позволяет одной и той же сети одновременно работать как визуальный энкодер и как языковая модель.

Chain-of-Perception: пошаговое выделение объектов на изображении

Chain-of-Perception: сначала – где, потом – что именно

Выделение объектов на изображении – это задача с переменным количеством ответов. На одной картинке может не быть ни одного подходящего объекта, на другой – несколько сотен. Генерировать их по одному токену – слишком медленно, особенно если речь идёт о детальных масках.

Для этого разработчики предложили интерфейс Chain-of-Perception: модель описывает каждый объект в три шага – сначала предсказывает центр объекта, потом его размер, а затем генерирует специальный токен сегментации. Этот токен, взаимодействуя с визуальными признаками изображения, превращается в полноразмерную бинарную маску.

Такой порядок не случаен: сначала модель фиксирует, где находится объект, потом – насколько он большой, и только после этого рисует точный контур. Это снижает неоднозначность и делает предсказание масок более стабильным.

PBench: новый бенчмарк для тестирования систем компьютерного зрения

PBench: бенчмарк, который не прощает размытых результатов

Существующие тесты для подобных систем давно «насытились»: модели стабильно набирают на них 90% и выше. При этом непонятно, почему модель ошиблась – не смогла прочитать текст на объекте, не поняла пространственные отношения или просто запуталась в толпе похожих предметов?

Команда представила собственный диагностический бенчмарк – PBench. Он разбивает задачи по типу требуемой способности: атрибуты объектов, распознавание текста на изображении (OCR), пространственные ограничения, реляционные связи между объектами и плотные сцены с большим количеством экземпляров. Каждый пример проверяет ровно одну способность – никакого смешивания. Это позволяет получить не единую оценку, а профиль: где модель уверена, а где теряется.

Обучение Falcon Perception: три стадии и огромные данные

Как учили: три стадии и 54 миллиона изображений

Обучение Falcon Perception состоит из трёх этапов. На первом модель учится перечислять объекты на сцене и одновременно указывать их местоположение – это строит общее понимание того, что происходит на изображении. На втором запросы становятся независимыми: модель больше не видит соседние вопросы и учится отвечать на каждый отдельно, как это происходит на практике. На третьем – короткая доводка для работы с очень плотными сценами, где на одном изображении могут быть сотни объектов.

Набор данных для обучения охватывает 54 миллиона изображений, 195 миллионов позитивных примеров и 488 миллионов «трудных» отрицательных – случаев, когда объект внешне похож на запрашиваемый, но им не является. Такое соотношение важно: модель должна уметь уверенно говорить «нет», а не только рисовать маски там, где что-то нашлось.

Перед основным обучением модель инициализировалась через дистилляцию из двух учителей с разными специализациями: один силён в локальных визуальных признаках (полезно для сегментации), другой – в языковом выравнивании (полезно для понимания открытых текстовых запросов).

Результаты Falcon Perception: где модель превосходит конкурентов

Результаты: там, где трудно – разрыв растёт

На бенчмарке SA-Co, который оценивает качество масок в открытом словаре, Falcon Perception набирает 68,0 Macro-F1 против 62,3 у SAM 3. Особенно заметен отрыв на категориях с богатыми атрибутами (+8,2 пункта), еде и напитках (+12,2) и спортивном инвентаре (+4,0).

Есть и слабое место: калибровка присутствия – способность модели уверенно сказать, что искомого объекта на картинке нет. По метрике MCC Falcon Perception пока уступает SAM 3 (0,64 против 0,82). Это зафиксировано как главная точка для улучшения.

На PBench картина интереснее. На простых объектах разрыв между моделями невелик. Но как только запросы усложняются – нужно прочитать текст на предмете, учесть пространственные отношения или понять, кто с кем взаимодействует – преимущество раннего слияния становится ощутимым. В самом сложном разделе, Dense (плотные сцены), Falcon Perception с 0,6 млрд параметров показывает 72,6 балла против 8,9 у Qwen3-VL-30B – модели, которая в 50 раз крупнее по числу параметров.

Одна из причин такого отрыва на плотных сценах – архитектурная: авторегрессивный интерфейс позволяет генерировать произвольное число объектов, тогда как у систем с фиксированным числом «слотов» для объектов просто заканчиваются ресурсы, когда объектов слишком много.

Falcon OCR: распознавание текста в документах с высокой эффективностью

Falcon OCR: тот же принцип, но для документов

Параллельно с Falcon Perception команда представила Falcon OCR – модель на 0,3 млрд параметров для распознавания текста в документах. Она использует ту же архитектуру раннего слияния, но обучена с нуля под задачи OCR: разбор многоколоночных документов, математических формул, таблиц, рукописного текста и сложных макетов.

Отдельное обучение с нуля – осознанный выбор. Признаки, нужные для распознавания символов (тонкие отличия между глифами, штрихи букв), принципиально отличаются от признаков, полезных для сегментации объектов. Поэтому инициализация от «зрительных» учителей здесь не помогла бы.

На бенчмарке olmOCR Falcon OCR набирает 80,3 балла – это в пределах 1,7 пункта от лучшей системы в сравнении. При этом в категориях «многоколоночные документы» (87,1%) и «таблицы» (90,3%) модель выходит на первое место. На OmniDocBench результат – 88,64, что превышает показатели DeepSeek OCR v2, GPT 5.2 и Mistral OCR 3.

Компактность модели (0,3 млрд против типичных 0,9–3 млрд параметров у конкурентов) напрямую сказывается на скорости обработки: по измерениям на одном GPU A100-80GB при высокой нагрузке Falcon OCR обгоняет сопоставимые открытые модели по пропускной способности. Это делает её практичным вариантом для массовой обработки документов.

Главный принцип Falcon Perception: важность данных и вычислений, а не только архитектуры

Главная идея – не в деталях архитектуры

Авторы сами говорят об этом прямо, апеллируя к известному в машинном обучении тезису «горького урока»: большинство выигрышей в долгосрочной перспективе дают данные, вычисления и обучающий сигнал – а не усложнение архитектуры.

Falcon Perception намеренно устроен минималистично: один бэкбон, одна семья задач, небольшие специализированные головки только там, где выходы непрерывны и плотны. Если нужно улучшить понимание – добавь больше изображений со сложными запросами. Нужна лучше работа с языком – подмешай текстовые данные. Нужно масштабировать на плотные сцены – увеличь длину контекста. Архитектура не блокирует ни одно из этих направлений.

Оба релиза – Falcon Perception и Falcon OCR – открыты для использования и исследований.

Ссылка на публикацию: https://huggingface.co/blog/tiiuae/falcon-perception
Оригинальное название: Falcon Perception
Дата публикации: 1 апр 2026
Hugging Face huggingface.co Американская открытая платформа и компания для хостинга, обучения и распространения ИИ-моделей.
Предыдущая статья ASUS UGen300: флешка, которая работает с ИИ Следующая статья Alibaba представила Wan2.7-Image: точный цвет, живые персонажи и текст без ошибок

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться