Опубликовано 19 марта 2026

Databricks представила embedding-модель для ИИ-агентов и корпоративных данных

Databricks представила новую модель для поиска и работы с данными в ИИ-агентах

Databricks открыла публичный доступ к embedding-модели, которая улучшает точность поиска информации в ИИ-агентах и корпоративных системах на основе RAG-архитектуры.

Продукты 4 – 5 минут чтения

Источник события: Databricks 4 – 5 минут чтения

Когда ИИ-система отвечает на вопрос или выполняет задачу, она почти всегда сначала что-то ищет. Не в интернете – в базе знаний, документах, корпоративных данных. И от того, насколько точно она умеет находить нужное, зависит качество всего остального. Именно здесь в дело вступают так называемые embedding-модели – инструменты, которые превращают текст в числовые представления, пригодные для сравнения и поиска.

Databricks недавно открыла публичный доступ к своей новой embedding-модели, ориентированной на работу с ИИ-агентами и корпоративными данными. Если коротко: это модель, которая помогает системам лучше «понимать», что именно ищет пользователь, и находить действительно подходящие фрагменты из большого массива информации.

Что такое embedding и как он работает

Что такое эмбеддинг и зачем он нужен

Представьте, что у вас есть тысячи документов – инструкции, отчёты, переписка. Когда вы задаёте вопрос ИИ-ассистенту, он не читает их заново каждый раз. Вместо этого каждый документ заранее «сжимается» в набор чисел – так называемый вектор. Вопрос тоже превращается в вектор, и система ищет те документы, чьи векторы наиболее близки к вектору вопроса.

Качество этого преобразования и определяет, насколько точным будет поиск. Плохая embedding-модель может счесть два совершенно разных по смыслу текста похожими – и наоборот. Хорошая модель улавливает нюансы: контекст, профессиональную лексику, многозначность слов.

Такой подход лежит в основе RAG-систем – это когда языковая модель перед ответом сначала «подтягивает» нужную информацию из внешнего источника. Большинство корпоративных ИИ-продуктов сегодня работают именно так.

Почему корпоративным ИИ-системам нужна новая embedding-модель

Почему это важно именно сейчас

ИИ-агенты – системы, которые не просто отвечают на вопросы, но и выполняют многошаговые задачи – становятся всё более распространёнными в бизнесе. Такой агент может, например, самостоятельно найти нужный договор, извлечь из него ключевые условия и передать их дальше по цепочке. На каждом шаге ему нужно точно понимать, что искать и что считать «похожим».

Проблема в том, что большинство существующих embedding-моделей обучались на общих текстах из интернета. Они неплохо справляются с бытовыми запросами, но начинают «теряться», когда дело касается специализированной лексики – юридической, медицинской, финансовой или технической. Корпоративные документы – это отдельный мир, и модели, не знакомые с ним, работают заметно хуже.

Именно на это и делает ставку Databricks: их модель, по заявлению компании, специально оптимизирована для корпоративного контекста и задач, где требуется высокая точность поиска.

Возможности и особенности новой модели Databricks

Что конкретно предлагает новая модель

Модель получила название gte-modernbert-base и основана на архитектуре ModernBERT – одной из актуальных разработок в области текстовых представлений. Она поддерживает контекстное окно до 8192 токенов – это примерно 6 000 слов, что значительно больше, чем у многих аналогов. Проще говоря, она может «держать в памяти» гораздо более длинный текст при поиске, не теряя смысл.

Модель показывает конкурентные результаты на стандартных тестах поиска и семантического соответствия. При этом она компактнее ряда более крупных моделей – это важно для практического применения, поскольку снижает вычислительные затраты и ускоряет работу системы.

Ещё один важный момент – мультиязычность. Модель обучена на данных на множестве языков, что делает её применимой не только для англоязычных систем.

Для кого предназначена embedding-модель Databricks

Кому и для чего это пригодится

В первую очередь – командам, которые строят корпоративные ИИ-системы: чат-боты для внутренней поддержки, системы поиска по документам, автоматизированные аналитические пайплайны. Для них точность поиска – это буквально основа работы.

Но и разработчикам, которые собирают более сложные агентские системы, это тоже актуально. Когда у агента несколько шагов и на каждом он что-то ищет, ошибки накапливаются. Лучшая embedding-модель на входе – меньше «галлюцинаций» и нерелевантных ответов на выходе.

Модель доступна через платформу Databricks и, по информации компании, интегрируется в рабочие процессы на базе их инфраструктуры. Это означает, что пользователи платформы смогут подключить её без существенных изменений в своих пайплайнах.

Публичный доступ к модели Databricks и текущие нюансы

Открытый доступ – но не без нюансов

То, что модель вышла в публичный превью, означает: она доступна широкому кругу пользователей, но ещё не является финальной. Это стандартная практика – выпустить модель в рабочем состоянии, собрать обратную связь и доработать её перед полноценным релизом.

Открытым остаётся вопрос о том, насколько хорошо модель справляется с узкоспециализированными отраслевыми данными без дополнительной настройки. Универсальные бенчмарки дают общее представление о качестве, но реальная точность в конкретной предметной области всегда зависит от того, насколько данные компании похожи на те, на которых обучалась модель. Здесь, как правило, помогает дообучение – но это уже следующий шаг, который требует отдельных ресурсов.

В целом выход новой embedding-модели от Databricks – это ещё один шаг в сторону более точного и надёжного корпоративного ИИ-поиска. Не революция, но заметное развитие инструментария, которым пользуются команды, строящие серьёзные продукты на основе языковых моделей.

#событие #прикладной разбор #машинное обучение #инфраструктура #продукты #данные #интеграция ии-систем #галлюцинации моделей

Ссылка на публикацию: https://www.databricks.com/blog/sota-embedding-model-agentic-workflows-now-public-preview

Оригинальное название: SOTA Embedding Model for Agentic Workflows Now in Public Preview

Дата публикации: 17 мар 2026

Databricks www.databricks.com Американская платформа для анализа данных и машинного обучения на базе Lakehouse-архитектуры.

Предыдущая статья Как понять, насколько мы близки к истинному ИИ: Google DeepMind предлагает свою систему измерений Следующая статья Together AI расширяет возможности дообучения моделей: теперь с поддержкой инструментов, рассуждений и зрения

Databricks представила embedding-модель для ИИ-агентов и корпоративных данных

Что такое embedding и как он работает

Почему корпоративным ИИ-системам нужна новая embedding-модель

Возможности и особенности новой модели Databricks

Для кого предназначена embedding-модель Databricks

Публичный доступ к модели Databricks и текущие нюансы

Связанные публикации

LightOn выпустила NextPlaid – базу данных для быстрого поиска информации в ИИ-приложениях

SGLang поддержал новую модель NVIDIA с первого дня: что это значит для ИИ-агентов

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации