Когда ИИ-система отвечает на вопрос или выполняет задачу, она почти всегда сначала что-то ищет. Не в интернете – в базе знаний, документах, корпоративных данных. И от того, насколько точно она умеет находить нужное, зависит качество всего остального. Именно здесь в дело вступают так называемые embedding-модели – инструменты, которые превращают текст в числовые представления, пригодные для сравнения и поиска.
Databricks недавно открыла публичный доступ к своей новой embedding-модели, ориентированной на работу с ИИ-агентами и корпоративными данными. Если коротко: это модель, которая помогает системам лучше «понимать», что именно ищет пользователь, и находить действительно подходящие фрагменты из большого массива информации.
Что такое эмбеддинг и зачем он нужен
Представьте, что у вас есть тысячи документов – инструкции, отчёты, переписка. Когда вы задаёте вопрос ИИ-ассистенту, он не читает их заново каждый раз. Вместо этого каждый документ заранее «сжимается» в набор чисел – так называемый вектор. Вопрос тоже превращается в вектор, и система ищет те документы, чьи векторы наиболее близки к вектору вопроса.
Качество этого преобразования и определяет, насколько точным будет поиск. Плохая embedding-модель может счесть два совершенно разных по смыслу текста похожими – и наоборот. Хорошая модель улавливает нюансы: контекст, профессиональную лексику, многозначность слов.
Такой подход лежит в основе RAG-систем – это когда языковая модель перед ответом сначала «подтягивает» нужную информацию из внешнего источника. Большинство корпоративных ИИ-продуктов сегодня работают именно так.
Почему это важно именно сейчас
ИИ-агенты – системы, которые не просто отвечают на вопросы, но и выполняют многошаговые задачи – становятся всё более распространёнными в бизнесе. Такой агент может, например, самостоятельно найти нужный договор, извлечь из него ключевые условия и передать их дальше по цепочке. На каждом шаге ему нужно точно понимать, что искать и что считать «похожим».
Проблема в том, что большинство существующих embedding-моделей обучались на общих текстах из интернета. Они неплохо справляются с бытовыми запросами, но начинают «теряться», когда дело касается специализированной лексики – юридической, медицинской, финансовой или технической. Корпоративные документы – это отдельный мир, и модели, не знакомые с ним, работают заметно хуже.
Именно на это и делает ставку Databricks: их модель, по заявлению компании, специально оптимизирована для корпоративного контекста и задач, где требуется высокая точность поиска.
Что конкретно предлагает новая модель
Модель получила название gte-modernbert-base и основана на архитектуре ModernBERT – одной из актуальных разработок в области текстовых представлений. Она поддерживает контекстное окно до 8192 токенов – это примерно 6 000 слов, что значительно больше, чем у многих аналогов. Проще говоря, она может «держать в памяти» гораздо более длинный текст при поиске, не теряя смысл.
Модель показывает конкурентные результаты на стандартных тестах поиска и семантического соответствия. При этом она компактнее ряда более крупных моделей – это важно для практического применения, поскольку снижает вычислительные затраты и ускоряет работу системы.
Ещё один важный момент – мультиязычность. Модель обучена на данных на множестве языков, что делает её применимой не только для англоязычных систем.
Кому и для чего это пригодится
В первую очередь – командам, которые строят корпоративные ИИ-системы: чат-боты для внутренней поддержки, системы поиска по документам, автоматизированные аналитические пайплайны. Для них точность поиска – это буквально основа работы.
Но и разработчикам, которые собирают более сложные агентские системы, это тоже актуально. Когда у агента несколько шагов и на каждом он что-то ищет, ошибки накапливаются. Лучшая embedding-модель на входе – меньше «галлюцинаций» и нерелевантных ответов на выходе.
Модель доступна через платформу Databricks и, по информации компании, интегрируется в рабочие процессы на базе их инфраструктуры. Это означает, что пользователи платформы смогут подключить её без существенных изменений в своих пайплайнах.
Открытый доступ – но не без нюансов
То, что модель вышла в публичный превью, означает: она доступна широкому кругу пользователей, но ещё не является финальной. Это стандартная практика – выпустить модель в рабочем состоянии, собрать обратную связь и доработать её перед полноценным релизом.
Открытым остаётся вопрос о том, насколько хорошо модель справляется с узкоспециализированными отраслевыми данными без дополнительной настройки. Универсальные бенчмарки дают общее представление о качестве, но реальная точность в конкретной предметной области всегда зависит от того, насколько данные компании похожи на те, на которых обучалась модель. Здесь, как правило, помогает дообучение – но это уже следующий шаг, который требует отдельных ресурсов.
В целом выход новой embedding-модели от Databricks – это ещё один шаг в сторону более точного и надёжного корпоративного ИИ-поиска. Не революция, но заметное развитие инструментария, которым пользуются команды, строящие серьёзные продукты на основе языковых моделей.