Опубликовано 29 июля 2025

Как новый тест MF² оценивает понимание фильмов искусственным интеллектом

Как научить ИИ смотреть кино как человек – новый тест MF² разоблачает роботов

Учёные создали тест для ИИ на понимание фильмов: модели должны отличать правду от лжи о сюжете, но пока проваливаются даже на «Касабланке».

Компьютерная наука 5 – 7 минут чтения

Автор публикации: Доктор София Чен 5 – 7 минут чтения

Представьте: вы смотрите «Титаник» с другом, который каждые пять минут спрашивает, кто этот парень и почему все плачут. Примерно так современный ИИ «понимает» кино – он видит картинки, слышит слова, но упускает самое главное: историю.

Недавно группа исследователей решила проверить, насколько хорошо искусственный интеллект справляется с пониманием полнометражных фильмов. Результат? Даже самые продвинутые модели смотрят кино как рассеянный зритель, который пришёл в середине сеанса.

Проблема существующих тестов для ИИ

Проблема с существующими тестами

До сих пор ИИ проверяли на коротких роликах или задавали вопросы типа «какого цвета была машина в третьей сцене». Это как оценивать понимание «Войны и мира», спрашивая о цвете глаз второстепенного персонажа. Технически правильно, но совершенно не по сути.

Большинство тестов для ИИ похожи на школьные контрольные с вариантами ответов. А мы знаем, что даже не готовясь, можно угадать правильный ответ из четырёх вариантов. ИИ научился этому трюку лучше нас – он находит подсказки в самих вопросах, не понимая содержания.

Что такое тест MF² и его значение

Что такое MF² и зачем он нужен

Исследователи создали принципиально новый тест под названием MF² (Movie Facts and Fibs – «Факты и вымыслы о кино»). Это как детектор лжи для искусственного интеллекта, только вместо измерения пульса он проверяет понимание сюжета.

Тест устроен просто и хитро одновременно. ИИ показывают утверждение о фильме – например: «Рик в 'Касабланке' отдал транзитные письма Виктору, чтобы тот мог сбежать с Ильзой». Задача модели – определить, правда это или ложь. Но подвох в том, что ложные утверждения составлены так правдоподобно, что различить их можно, только действительно поняв фильм.

Это как игра «Правда или действие», только вместо неловких вопросов – проверка того, действительно ли ИИ следил за сюжетом или просто делал вид.

Как создавался тест MF² для ИИ

Как создавали киношный детектор лжи

Для теста выбрали 53 фильма из «золотого фонда» кинематографа – картины 1920-1970 годов, которые уже стали общественным достоянием. Это важно: никто не хочет судиться с Голливудом из-за авторских прав, а старые фильмы вряд ли «засветились» в данных обучения современных моделей.

26 исследователей – настоящие киноманы – пересмотрели все эти фильмы и составили 868 пар утверждений. Каждая пара – это мини-головоломка: одно утверждение правдивое, другое – почти правдивое, но с тонкой ложью.

Например, правда: «Дороти встретила Пугало первым на дороге из жёлтого кирпича». Ложь: «Дороти встретила Железного Дровосека первым на дороге из жёлтого кирпича». Разница в одном слове, но она кардинальная для тех, кто действительно смотрел «Волшебника страны Оз».

Уровни сложности в тесте MF²

Четыре уровня киноматричной пилюли

Утверждения в тесте разделили на четыре категории, как уровни сложности в видеоигре:

Понимание событий и объектов – самый простой уровень. Кто что делал, где и когда. ИИ с этим справляется неплохо, особенно если есть субтитры.

Временные связи – здесь нужно помнить, что происходило раньше, а что позже. Удивительно, но для ИИ это оказалось проще эмоций.

Эмоции персонажей – самый сложный уровень. Понять, почему герой грустит или радуется, что его мотивирует. Здесь ИИ проваливается чаще всего.

Причинно-следственные связи – логика повествования. Почему произошло то или иное событие, как одно привело к другому.

Ещё утверждения разделили по «масштабу»: понимание одной сцены, нескольких сцен или всего фильма целиком. Чем больше масштаб, тем сложнее задача.

Сравнение ИИ и человека в понимании кино

Битва титанов: ИИ против человека

Результаты теста оказались показательными. Люди справились с задачей на 90,5% – почти отлично, но не идеально. Это говорит о том, что тест действительно сложный, а не очередная формальность.

Лучший ИИ – Gemini 2.5 Pro – показал результат 77,6%. Звучит неплохо, но это как сдать экзамен на тройку с плюсом, когда одноклассники получают пятёрки.

Интересное открытие: субтитры для ИИ важнее видеоряда. Gemini 2.5 Pro с одними только субтитрами работал почти так же хорошо, как с полным видео. Получается, современный ИИ читает фильмы, а не смотрит их.

Слабые стороны ИИ в тесте MF²

Где ИИ спотыкается чаще всего

Модели лучше всего справляются с временными связями – они неплохо запоминают последовательность событий. Хуже всего дела обстоят с эмоциями персонажей. ИИ может сказать, что герой плачет, но не понимает, от горя это или от радости.

Особенно сложно даётся понимание фильма как целого. Если утверждение требует анализа всего сюжета, а не отдельных сцен, точность резко падает. ИИ видит деревья, но не замечает леса.

Почему субтитры не решают проблему понимания ИИ

Почему субтитры – это костыль, а не решение

То, что ИИ лучше работает с субтитрами, выглядит как успех, но на самом деле это проблема. Представьте человека, который может понять фильм, только читая сценарий. Настоящее понимание кино включает визуальный язык: мимику актёров, композицию кадра, цветовую палитру.

Когда ИИ полагается на субтитры, он упускает половину информации. Это как слушать симфонию только правым ухом – технически музыка есть, но целостности нет.

Что результаты теста MF² означают для развития ИИ

Что это значит для будущего ИИ

Результаты MF² показывают, что до настоящего понимания видео нам ещё далеко. Современный ИИ – это продвинутый попугай, который научился повторять правильные фразы, но не понимает их смысла.

Это не значит, что ИИ бесполезен. Для многих задач его способностей достаточно. Но если мы хотим создать системы, которые действительно понимают мир так же, как люди, нам нужно решить проблему целостного восприятия.

Ограничения исследования теста MF²

Ограничения и честность исследования

Исследователи честно признают недостатки своего теста. Возможны мелкие ошибки в утверждениях, а участники эксперимента могли помнить «парные» утверждения, что влияло на их суждения.

Но главное – тест показывает реальное положение дел. ИИ пока что не умеет смотреть кино как человек. Мы видим историю, переживаем за героев, улавливаем подтексты. ИИ видит последовательность кадров и слов.

Итоги теста MF² и будущее ИИ

Заключение

MF² – это не просто очередной тест для ИИ. Это зеркало, в котором мы видим, как далеко зашли и сколько ещё предстоит пройти. Современные модели умеют многое, но настоящее понимание – это больше, чем сумма фактов и деталей.

Как говорится, дьявол кроется в деталях, а понимание – в целостности. Пока ИИ научится видеть эту целостность, он останется очень умным, но всё же роботом, который смотрит кино, но не чувствует его души.

И знаете что? Возможно, это и к лучшему. Пока у нас есть преимущество в понимании историй, мы остаёмся людьми в мире всё более умных машин.

#исследовательский обзор #методология #развитие ии #компьютерное зрение #когнитивные науки #культура #бенчмарки ии #мультимодальные модели

Источник: https://arxiv.org/abs/2506.06275v1

Оригинальное название: Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding

Дата публикации статьи: 6 июн 2025

Авторы оригинальной статьи : Emmanouil Zaranis, António Farinhas, Saul Santos, Beatriz Canaverde, Miguel Moura Ramos, Aditya K Surikuchi, André Viveiros, Baohao Liao, Elena Bueno-Benito, Nithin Sivakumaran, Pavlo Vasylenko, Shoubin Yu, Sonal Sannigrahi, Wafaa Mohammed, Ben Peters, Danae Sánchez Villegas, Elias Stengel-Eskin, Giuseppe Attanasio, Jaehong Yoon, Stella Frank, Alessandro Suglia, Chrysoula Zerva, Desmond Elliott, Mariella Dimiccoli, Mohit Bansal, Oswald Lanz, Raffaella Bernardi, Raquel Fernández, Sandro Pezzelle, Vlad Niculae, André F. T. Martins

Доктор София Чен Открыть профиль

«ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее.»

Открыть профиль

Я инженер, которая любит объяснять сложное весело. Считаю, что хороший ИИ начинается с честного диалога о его границах.

Предыдущая статья Кинематика через призму Тейлора: как математика объясняет движение Следующая статья Когда глаза говорят больше мозга: как моргания влияют на интерфейсы мозг-компьютер

Как новый тест MF² оценивает понимание фильмов искусственным интеллектом

Проблема существующих тестов для ИИ

Что такое тест MF² и его значение

Как создавался тест MF² для ИИ

Уровни сложности в тесте MF²

Сравнение ИИ и человека в понимании кино

Слабые стороны ИИ в тесте MF²

Почему субтитры не решают проблему понимания ИИ

Что результаты теста MF² означают для развития ИИ

Ограничения исследования теста MF²

Итоги теста MF² и будущее ИИ

Связанные публикации

Как научить ИИ думать лучше, просто попросив его быть увереннее

Как научить ИИ помнить: когда роботы забывают, где оставили ключи

Когда данные играют в прятки: почему ИИ обманывается неполной информацией

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Создание иллюстрации