Опубликовано 19 марта 2026

Databricks представила embedding-модель для ИИ-агентов и корпоративных данных

Databricks представила новую модель для поиска и работы с данными в ИИ-агентах

Databricks открыла публичный доступ к embedding-модели, которая улучшает точность поиска информации в ИИ-агентах и корпоративных системах на основе RAG-архитектуры.

Продукты 4 – 5 минут чтения
Источник события: Databricks 4 – 5 минут чтения

Когда ИИ-система отвечает на вопрос или выполняет задачу, она почти всегда сначала что-то ищет. Не в интернете – в базе знаний, документах, корпоративных данных. И от того, насколько точно она умеет находить нужное, зависит качество всего остального. Именно здесь в дело вступают так называемые embedding-модели – инструменты, которые превращают текст в числовые представления, пригодные для сравнения и поиска.

Databricks недавно открыла публичный доступ к своей новой embedding-модели, ориентированной на работу с ИИ-агентами и корпоративными данными. Если коротко: это модель, которая помогает системам лучше «понимать», что именно ищет пользователь, и находить действительно подходящие фрагменты из большого массива информации.

Что такое embedding и как он работает

Что такое эмбеддинг и зачем он нужен

Представьте, что у вас есть тысячи документов – инструкции, отчёты, переписка. Когда вы задаёте вопрос ИИ-ассистенту, он не читает их заново каждый раз. Вместо этого каждый документ заранее «сжимается» в набор чисел – так называемый вектор. Вопрос тоже превращается в вектор, и система ищет те документы, чьи векторы наиболее близки к вектору вопроса.

Качество этого преобразования и определяет, насколько точным будет поиск. Плохая embedding-модель может счесть два совершенно разных по смыслу текста похожими – и наоборот. Хорошая модель улавливает нюансы: контекст, профессиональную лексику, многозначность слов.

Такой подход лежит в основе RAG-систем – это когда языковая модель перед ответом сначала «подтягивает» нужную информацию из внешнего источника. Большинство корпоративных ИИ-продуктов сегодня работают именно так.

Почему корпоративным ИИ-системам нужна новая embedding-модель

Почему это важно именно сейчас

ИИ-агенты – системы, которые не просто отвечают на вопросы, но и выполняют многошаговые задачи – становятся всё более распространёнными в бизнесе. Такой агент может, например, самостоятельно найти нужный договор, извлечь из него ключевые условия и передать их дальше по цепочке. На каждом шаге ему нужно точно понимать, что искать и что считать «похожим».

Проблема в том, что большинство существующих embedding-моделей обучались на общих текстах из интернета. Они неплохо справляются с бытовыми запросами, но начинают «теряться», когда дело касается специализированной лексики – юридической, медицинской, финансовой или технической. Корпоративные документы – это отдельный мир, и модели, не знакомые с ним, работают заметно хуже.

Именно на это и делает ставку Databricks: их модель, по заявлению компании, специально оптимизирована для корпоративного контекста и задач, где требуется высокая точность поиска.

Возможности и особенности новой модели Databricks

Что конкретно предлагает новая модель

Модель получила название gte-modernbert-base и основана на архитектуре ModernBERT – одной из актуальных разработок в области текстовых представлений. Она поддерживает контекстное окно до 8192 токенов – это примерно 6 000 слов, что значительно больше, чем у многих аналогов. Проще говоря, она может «держать в памяти» гораздо более длинный текст при поиске, не теряя смысл.

Модель показывает конкурентные результаты на стандартных тестах поиска и семантического соответствия. При этом она компактнее ряда более крупных моделей – это важно для практического применения, поскольку снижает вычислительные затраты и ускоряет работу системы.

Ещё один важный момент – мультиязычность. Модель обучена на данных на множестве языков, что делает её применимой не только для англоязычных систем.

Для кого предназначена embedding-модель Databricks

Кому и для чего это пригодится

В первую очередь – командам, которые строят корпоративные ИИ-системы: чат-боты для внутренней поддержки, системы поиска по документам, автоматизированные аналитические пайплайны. Для них точность поиска – это буквально основа работы.

Но и разработчикам, которые собирают более сложные агентские системы, это тоже актуально. Когда у агента несколько шагов и на каждом он что-то ищет, ошибки накапливаются. Лучшая embedding-модель на входе – меньше «галлюцинаций» и нерелевантных ответов на выходе.

Модель доступна через платформу Databricks и, по информации компании, интегрируется в рабочие процессы на базе их инфраструктуры. Это означает, что пользователи платформы смогут подключить её без существенных изменений в своих пайплайнах.

Публичный доступ к модели Databricks и текущие нюансы

Открытый доступ – но не без нюансов

То, что модель вышла в публичный превью, означает: она доступна широкому кругу пользователей, но ещё не является финальной. Это стандартная практика – выпустить модель в рабочем состоянии, собрать обратную связь и доработать её перед полноценным релизом.

Открытым остаётся вопрос о том, насколько хорошо модель справляется с узкоспециализированными отраслевыми данными без дополнительной настройки. Универсальные бенчмарки дают общее представление о качестве, но реальная точность в конкретной предметной области всегда зависит от того, насколько данные компании похожи на те, на которых обучалась модель. Здесь, как правило, помогает дообучение – но это уже следующий шаг, который требует отдельных ресурсов.

В целом выход новой embedding-модели от Databricks – это ещё один шаг в сторону более точного и надёжного корпоративного ИИ-поиска. Не революция, но заметное развитие инструментария, которым пользуются команды, строящие серьёзные продукты на основе языковых моделей.

Оригинальное название: SOTA Embedding Model for Agentic Workflows Now in Public Preview
Дата публикации: 17 мар 2026
Databricks www.databricks.com Американская платформа для анализа данных и машинного обучения на базе Lakehouse-архитектуры.
Предыдущая статья Как понять, насколько мы близки к истинному ИИ: Google DeepMind предлагает свою систему измерений Следующая статья Together AI расширяет возможности дообучения моделей: теперь с поддержкой инструментов, рассуждений и зрения

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Французская компания представила инструмент, который помогает языковым моделям находить нужные данные точнее и быстрее, используя несколько способов представления информации.

LightOn AIwww.lighton.ai 11 фев 2026

ИИ: События

Tencent открыла код библиотеки HPC-Ops: как ускорить инференс больших моделей на 30%

Технический контекст Инфраструктура

Китайская компания выпустила набор оптимизированных операторов для работы с большими языковыми моделями (LLM) – обещают заметный прирост скорости без смены архитектуры.

Tencenthunyuan.tencent.com 4 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться