Опубликовано 27 февраля 2026

Perplexity выпустила две модели для поиска в больших объёмах текста

Perplexity выпустила собственные модели для поиска по огромным массивам текста

Perplexity открыла доступ к двум новым моделям для смыслового поиска – они умеют быстро и точно находить нужное в миллиардах документов.

Продукты 3 – 5 минут чтения
Источник события: Perplexity AI 3 – 5 минут чтения

Perplexity – компания, которую многие знают по одноимённому ИИ-поисковику – выпустила две собственные модели: pplx-embed-v1 и pplx-embed-context-v1. Обе предназначены для одной задачи: находить нужную информацию среди огромного количества текстов. По заявлению разработчиков, модели показывают результаты на уровне лучших решений в своём классе.

Что такое эмбеддинги и зачем они нужны

Что такое «эмбеддинги» и зачем они нужны

Прежде чем говорить о самих моделях, стоит объяснить, что вообще происходит «под капотом» – хотя бы в общих чертах.

Когда мы ищем что-то в интернете или в корпоративной базе данных, система должна понять не просто «какие слова совпадают», а какой смысл стоит за запросом. Для этого используются так называемые эмбеддинги – числовые представления текста, которые позволяют сравнивать тексты по смыслу, а не по буквам.

Проще говоря: если вы ищете «как сэкономить на поездке», система с хорошими эмбеддингами найдёт статью про «лайфхаки для путешественников», даже если в ней нет ни одного из ваших слов. Именно такие модели лежат в основе современных поисковых систем, рекомендательных сервисов и корпоративных баз знаний.

Поиск в больших объёмах данных: сложности задачи

Почему это сложная задача

Когда речь идёт о поиске в масштабах интернета, сложность резко возрастает. Нужно обрабатывать миллиарды документов, делать это быстро и при этом не терять в точности. Многие существующие решения хорошо справляются либо со скоростью, либо с качеством – но не с обоими сразу.

Дополнительная трудность – длинные тексты. Многие модели «теряются», когда документ большой: они либо обрезают его, либо хуже улавливают связи между частями. Это критично, например, при поиске по научным статьям, юридическим документам или длинным руководствам.

Две модели для разных задач: скорость и глубина понимания

Две модели – две задачи

Именно здесь становится понятно, почему Perplexity выпустила сразу две модели, а не одну.

pplx-embed-v1 – это основная модель, заточенная под скоростной поиск в больших объёмах данных. Она оптимизирована для ситуаций, когда нужно быстро найти релевантную информацию среди миллиардов документов. По словам разработчиков, эта модель показывает сильные результаты на стандартных бенчмарках для задач поиска и ранжирования.

pplx-embed-context-v1 – версия с расширенным контекстным окном. Она рассчитана на работу с длинными документами, где важно удерживать смысл на протяжении большого текста. Это полезно, когда источники – не короткие веб-страницы, а объёмные материалы.

По сути, первая модель отвечает за охват и скорость, вторая – за глубину понимания длинного контента.

Доступность моделей Perplexity для разработчиков через API

Это важно не только для Perplexity

Показательно, что эти модели – не внутренний инструмент, закрытый внутри продуктов компании. Perplexity открывает к ним доступ через API, то есть разработчики смогут встраивать их в собственные приложения и сервисы.

Это несколько меняет расклад: до сих пор качественные эмбеддинг-модели для веб-масштабного поиска были либо закрытыми (используются только внутри крупных платформ), либо уступали по качеству. Появление конкурентоспособного варианта от Perplexity – это дополнительный выбор для тех, кто строит поисковые и аналитические системы.

Причины появления новых моделей Perplexity для поиска

Почему это появилось именно сейчас

Perplexity сама использует поиск как основу своего продукта – и, судя по всему, разработала эти модели для собственных нужд, а затем решила сделать их доступными для всех. Это логичный путь: если компания вложила ресурсы в создание инструмента, который работает лучше существующих аналогов, имеет смысл монетизировать его через API.

Для рынка это интересный сигнал. Поисковые системы нового поколения – те, что понимают смысл, а не просто ключевые слова – требуют именно таких компонентов. И чем больше качественных вариантов появляется, тем ниже порог входа для разработчиков, которые хотят строить умные поисковые решения.

Perplexity Embed: что осталось за кадром при релизе моделей

Что остаётся за кадром

Пока открытых независимых оценок моделей немного – большинство результатов опирается на данные самой Perplexity. Это стандартная ситуация при релизе: внешние тесты и сравнения появляются позже, когда сообщество успевает поработать с моделями на практике.

Также пока не до конца ясно, как модели ведут себя на специализированных языках и узкопрофильных данных – например, в медицине, праве или технических науках. Это традиционно слабое место у моделей, обученных преимущественно на веб-данных.

Тем не менее выпуск двух специализированных моделей от команды, которая сама активно занимается поиском, выглядит весьма весомо. Посмотрим, как они проявят себя в реальных условиях. 🔍

Оригинальное название: pplx-embed: State-of-the-Art Embedding Models for Web-Scale Retrieval
Дата публикации: 26 фев 2026
Perplexity AI research.perplexity.ai Американская компания, разрабатывающая ИИ-поисковую систему с ответами на основе источников.
Предыдущая статья Триллион параметров на домашнем «железе»: AMD показала, как запустить гигантскую языковую модель локально Следующая статья Mercury 2: диффузионные языковые модели получили серьёзное обновление

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Компактная модель GLM-4.7-Flash теперь доступна как решение с открытым исходным кодом. Это попытка найти баланс между производительностью и возможностью запуска на обычном оборудовании.

Zhipu AIwww.zhipuai.cn 20 янв 2026

NVIDIA и LMSYS протестировали модель DeepSeek на новейшем ускорителе GB300. Результаты показали заметное улучшение по сравнению с предыдущим поколением.

LMSYS ORGlmsys.org 21 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться