Предсказать следующий шаг не так уж сложно. Гораздо труднее предугадать, что произойдёт через неделю или месяц. Именно эта разница стала отправной точкой для исследования, которое провели учёные Центра практического искусственного интеллекта Сбера.
Следующий шаг – это ещё не прогноз
Каждый день люди оставляют за собой следы: оплачивают покупки, заходят на сайты, записываются к врачу. Всё это складывается в последовательности, в которых есть своя логика. Современные ИИ-системы неплохо справляются с тем, чтобы угадать одно следующее действие – например, что человек, купивший ноутбук, скоро купит мышку. Но бизнесу и медицине нужно другое: понимать не просто что произойдёт, но и когда, причём прогнозировать не одно событие, а целую цепочку.
Проблема в том, что раньше у исследователей не было единого способа проверить, насколько та или иная модель умеет строить подобные долгосрочные прогнозы. Каждая команда измеряла качество по-своему, и сравнивать результаты было почти невозможно.
Линейка, которой раньше не существовало
Чтобы это исправить, исследователи Сбера разработали бенчмарк – стандартизированный набор тестов – под названием HoTPP (Horizon Temporal Point Process). Это открытая платформа: любая команда в мире может использовать её, чтобы проверить свою модель по единым правилам.
Платформа работает с данными из разных областей: финансов, электронной коммерции, медицины. Это важно, поскольку эффективный инструмент прогнозирования не должен ограничиваться одной узкой нишей.
Вместе с бенчмарком авторы предложили новую метрику – T-mAP (Temporal mean Average Precision). Если коротко, она оценивает прогноз сразу по двум параметрам: правильно ли модель определила тип события и верно ли угадала время его наступления. Раньше эти аспекты чаще оценивались по отдельности, что давало неполную картину.
Сложнее – не значит лучше
Один из самых интересных результатов исследования стал своего рода предупреждением для всей индустрии. Оказалось, что сложные нейросетевые модели в задачах долгосрочного прогнозирования иногда показывают результаты не лучше, чем простые статистические методы. То есть увеличение числа параметров и усложнение архитектуры само по себе не решает задачу.
Ещё одна проблема, которую выявили исследователи, – так называемое «схлопывание» предсказаний. Сложные модели порой начинают выдавать однотипные прогнозы, игнорируя редкие, но значимые события. Это похоже на синоптика, который каждый день обещает «облачно, без осадков»: формально он будет прав в большинстве случаев, но пропустит важные погодные аномалии.
Как отметил Андрей Савченко, научный директор центра:
Наш бенчмарк и метрика позволяют объективно оценить, какая ИИ-модель действительно хорошо "видит" будущее, а какая – лишь удачно угадывает ближайший шаг. Особенно важно, что мы выявили проблему "схлопывания" предсказаний: сложные модели иногда выдают однотипные прогнозы, игнорируя редкие события. Это открытие задаёт вектор для новых исследований.
Дополнительным результатом стало значительное ускорение вычислений: оптимизация алгоритмов позволила ускорить обучение и работу моделей в десятки раз. Это важный практический бонус: исследователи смогут быстрее проводить эксперименты, а компании – оперативнее получать результаты.
Где это пригодится
Сферы применения подобных инструментов весьма разнообразны. Банки и финтех-компании смогут точнее прогнозировать, когда и какие транзакции совершат клиенты. Ритейлеры и логисты – эффективнее планировать запасы, понимая не только спрос, но и его временную структуру. В здравоохранении анализ последовательностей визитов к врачу поможет в ранней диагностике заболеваний.
Статья по результатам исследования принята к публикации в журнале Neurocomputing – одном из авторитетных изданий в области нейронных сетей, входящем в первый квартиль (Q1) научных журналов в своей области.
Авторы надеются, что HoTPP станет общим стандартом для исследователей по всему миру – инструментом, который позволит двигаться к созданию ИИ, способного по-настоящему понимать неопределённость и многогранность реального мира, а не просто угадывать ближайшее очевидное событие.