Опубликовано 19 марта 2026

Databricks представила embedding-модель для ИИ-агентов и корпоративных данных

Databricks представила новую модель для поиска и работы с данными в ИИ-агентах

Databricks открыла публичный доступ к embedding-модели, которая улучшает точность поиска информации в ИИ-агентах и корпоративных системах на основе RAG-архитектуры.

Продукты 4 – 5 минут чтения
Источник события: Databricks 4 – 5 минут чтения

Когда ИИ-система отвечает на вопрос или выполняет задачу, она почти всегда сначала что-то ищет. Не в интернете – в базе знаний, документах, корпоративных данных. И от того, насколько точно она умеет находить нужное, зависит качество всего остального. Именно здесь в дело вступают так называемые embedding-модели – инструменты, которые превращают текст в числовые представления, пригодные для сравнения и поиска.

Databricks недавно открыла публичный доступ к своей новой embedding-модели, ориентированной на работу с ИИ-агентами и корпоративными данными. Если коротко: это модель, которая помогает системам лучше «понимать», что именно ищет пользователь, и находить действительно подходящие фрагменты из большого массива информации.

Что такое embedding и как он работает

Что такое эмбеддинг и зачем он нужен

Представьте, что у вас есть тысячи документов – инструкции, отчёты, переписка. Когда вы задаёте вопрос ИИ-ассистенту, он не читает их заново каждый раз. Вместо этого каждый документ заранее «сжимается» в набор чисел – так называемый вектор. Вопрос тоже превращается в вектор, и система ищет те документы, чьи векторы наиболее близки к вектору вопроса.

Качество этого преобразования и определяет, насколько точным будет поиск. Плохая embedding-модель может счесть два совершенно разных по смыслу текста похожими – и наоборот. Хорошая модель улавливает нюансы: контекст, профессиональную лексику, многозначность слов.

Такой подход лежит в основе RAG-систем – это когда языковая модель перед ответом сначала «подтягивает» нужную информацию из внешнего источника. Большинство корпоративных ИИ-продуктов сегодня работают именно так.

Почему корпоративным ИИ-системам нужна новая embedding-модель

Почему это важно именно сейчас

ИИ-агенты – системы, которые не просто отвечают на вопросы, но и выполняют многошаговые задачи – становятся всё более распространёнными в бизнесе. Такой агент может, например, самостоятельно найти нужный договор, извлечь из него ключевые условия и передать их дальше по цепочке. На каждом шаге ему нужно точно понимать, что искать и что считать «похожим».

Проблема в том, что большинство существующих embedding-моделей обучались на общих текстах из интернета. Они неплохо справляются с бытовыми запросами, но начинают «теряться», когда дело касается специализированной лексики – юридической, медицинской, финансовой или технической. Корпоративные документы – это отдельный мир, и модели, не знакомые с ним, работают заметно хуже.

Именно на это и делает ставку Databricks: их модель, по заявлению компании, специально оптимизирована для корпоративного контекста и задач, где требуется высокая точность поиска.

Возможности и особенности новой модели Databricks

Что конкретно предлагает новая модель

Модель получила название gte-modernbert-base и основана на архитектуре ModernBERT – одной из актуальных разработок в области текстовых представлений. Она поддерживает контекстное окно до 8192 токенов – это примерно 6 000 слов, что значительно больше, чем у многих аналогов. Проще говоря, она может «держать в памяти» гораздо более длинный текст при поиске, не теряя смысл.

Модель показывает конкурентные результаты на стандартных тестах поиска и семантического соответствия. При этом она компактнее ряда более крупных моделей – это важно для практического применения, поскольку снижает вычислительные затраты и ускоряет работу системы.

Ещё один важный момент – мультиязычность. Модель обучена на данных на множестве языков, что делает её применимой не только для англоязычных систем.

Для кого предназначена embedding-модель Databricks

Кому и для чего это пригодится

В первую очередь – командам, которые строят корпоративные ИИ-системы: чат-боты для внутренней поддержки, системы поиска по документам, автоматизированные аналитические пайплайны. Для них точность поиска – это буквально основа работы.

Но и разработчикам, которые собирают более сложные агентские системы, это тоже актуально. Когда у агента несколько шагов и на каждом он что-то ищет, ошибки накапливаются. Лучшая embedding-модель на входе – меньше «галлюцинаций» и нерелевантных ответов на выходе.

Модель доступна через платформу Databricks и, по информации компании, интегрируется в рабочие процессы на базе их инфраструктуры. Это означает, что пользователи платформы смогут подключить её без существенных изменений в своих пайплайнах.

Публичный доступ к модели Databricks и текущие нюансы

Открытый доступ – но не без нюансов

То, что модель вышла в публичный превью, означает: она доступна широкому кругу пользователей, но ещё не является финальной. Это стандартная практика – выпустить модель в рабочем состоянии, собрать обратную связь и доработать её перед полноценным релизом.

Открытым остаётся вопрос о том, насколько хорошо модель справляется с узкоспециализированными отраслевыми данными без дополнительной настройки. Универсальные бенчмарки дают общее представление о качестве, но реальная точность в конкретной предметной области всегда зависит от того, насколько данные компании похожи на те, на которых обучалась модель. Здесь, как правило, помогает дообучение – но это уже следующий шаг, который требует отдельных ресурсов.

В целом выход новой embedding-модели от Databricks – это ещё один шаг в сторону более точного и надёжного корпоративного ИИ-поиска. Не революция, но заметное развитие инструментария, которым пользуются команды, строящие серьёзные продукты на основе языковых моделей.

Оригинальное название: SOTA Embedding Model for Agentic Workflows Now in Public Preview
Дата публикации: 17 мар 2026
Databricks www.databricks.com Американская платформа для анализа данных и машинного обучения на базе Lakehouse-архитектуры.
Предыдущая статья Как понять, насколько мы близки к истинному ИИ: Google DeepMind предлагает свою систему измерений Следующая статья Together AI расширяет возможности дообучения моделей: теперь с поддержкой инструментов, рассуждений и зрения

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Французская компания представила инструмент, который помогает языковым моделям находить нужные данные точнее и быстрее, используя несколько способов представления информации.

LightOn AIwww.lighton.ai 11 фев 2026

ИИ: События

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Технический контекст Инфраструктура

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Tencenthunyuan.tencent.com 4 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться