Опубликовано 16 марта 2026

Исследователи Сбера представили новый бенчмарк HoTPP для оценки точности прогнозов ИИ

Сбер научился проверять, умеет ли ИИ по-настоящему заглядывать в будущее

Исследователи Сбера создали открытую платформу для объективной оценки того, насколько точно ИИ-модели способны предсказывать цепочки событий на длинных временных горизонтах.

Исследования 3 – 4 минуты чтения
Источник события: Сберлабс 3 – 4 минуты чтения

Предсказать следующий шаг не так уж сложно. Гораздо труднее предугадать, что произойдёт через неделю или месяц. Именно эта разница стала отправной точкой для исследования, которое провели учёные Центра практического искусственного интеллекта Сбера.

Разница между предсказанием следующего шага и долгосрочным прогнозированием событий

Следующий шаг – это ещё не прогноз

Каждый день люди оставляют за собой следы: оплачивают покупки, заходят на сайты, записываются к врачу. Всё это складывается в последовательности, в которых есть своя логика. Современные ИИ-системы неплохо справляются с тем, чтобы угадать одно следующее действие – например, что человек, купивший ноутбук, скоро купит мышку. Но бизнесу и медицине нужно другое: понимать не просто что произойдёт, но и когда, причём прогнозировать не одно событие, а целую цепочку.

Проблема в том, что раньше у исследователей не было единого способа проверить, насколько та или иная модель умеет строить подобные долгосрочные прогнозы. Каждая команда измеряла качество по-своему, и сравнивать результаты было почти невозможно.

Бенчмарк HoTPP и метрика T-mAP для стандартизированного тестирования моделей ИИ

Линейка, которой раньше не существовало

Чтобы это исправить, исследователи Сбера разработали бенчмарк – стандартизированный набор тестов – под названием HoTPP (Horizon Temporal Point Process). Это открытая платформа: любая команда в мире может использовать её, чтобы проверить свою модель по единым правилам.

Платформа работает с данными из разных областей: финансов, электронной коммерции, медицины. Это важно, поскольку эффективный инструмент прогнозирования не должен ограничиваться одной узкой нишей.

Вместе с бенчмарком авторы предложили новую метрику – T-mAP (Temporal mean Average Precision). Если коротко, она оценивает прогноз сразу по двум параметрам: правильно ли модель определила тип события и верно ли угадала время его наступления. Раньше эти аспекты чаще оценивались по отдельности, что давало неполную картину.

Проблемы эффективности сложных нейросетей и эффект схлопывания предсказаний в прогнозах

Сложнее – не значит лучше

Один из самых интересных результатов исследования стал своего рода предупреждением для всей индустрии. Оказалось, что сложные нейросетевые модели в задачах долгосрочного прогнозирования иногда показывают результаты не лучше, чем простые статистические методы. То есть увеличение числа параметров и усложнение архитектуры само по себе не решает задачу.

Ещё одна проблема, которую выявили исследователи, – так называемое «схлопывание» предсказаний. Сложные модели порой начинают выдавать однотипные прогнозы, игнорируя редкие, но значимые события. Это похоже на синоптика, который каждый день обещает «облачно, без осадков»: формально он будет прав в большинстве случаев, но пропустит важные погодные аномалии.

Как отметил Андрей Савченко, научный директор центра:

Наш бенчмарк и метрика позволяют объективно оценить, какая ИИ-модель действительно хорошо "видит" будущее, а какая – лишь удачно угадывает ближайший шаг. Особенно важно, что мы выявили проблему "схлопывания" предсказаний: сложные модели иногда выдают однотипные прогнозы, игнорируя редкие события. Это открытие задаёт вектор для новых исследований.

Дополнительным результатом стало значительное ускорение вычислений: оптимизация алгоритмов позволила ускорить обучение и работу моделей в десятки раз. Это важный практический бонус: исследователи смогут быстрее проводить эксперименты, а компании – оперативнее получать результаты.

Практическое применение инструментов прогнозирования в финтехе ритейле и медицине

Где это пригодится

Сферы применения подобных инструментов весьма разнообразны. Банки и финтех-компании смогут точнее прогнозировать, когда и какие транзакции совершат клиенты. Ритейлеры и логисты – эффективнее планировать запасы, понимая не только спрос, но и его временную структуру. В здравоохранении анализ последовательностей визитов к врачу поможет в ранней диагностике заболеваний.

Статья по результатам исследования принята к публикации в журнале Neurocomputing – одном из авторитетных изданий в области нейронных сетей, входящем в первый квартиль (Q1) научных журналов в своей области.

Авторы надеются, что HoTPP станет общим стандартом для исследователей по всему миру – инструментом, который позволит двигаться к созданию ИИ, способного по-настоящему понимать неопределённость и многогранность реального мира, а не просто угадывать ближайшее очевидное событие.

Ссылка на публикацию: https://sberlabs.com/news?news=6035
Оригинальное название: Исследователи Сбера представили инструмент для оценки долгосрочных прогнозов ИИ-моделей
Дата публикации: 16 мар 2026
Сберлабс sberlabs.com Российская ИИ-лаборатория Сбера, разрабатывающая модели для бизнеса и науки.
Предыдущая статья RAFFLES: как научить ИИ объяснять собственные ошибки Следующая статья Alibaba Cloud представила платформу для защиты ИИ-агентов

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

LightOn AIwww.lighton.ai 12 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться