Опубликовано

Как научить ИИ смотреть кино как человек – новый тест MF² разоблачает роботов

Учёные создали тест для ИИ на понимание фильмов: модели должны отличать правду от лжи о сюжете, но пока проваливаются даже на «Касабланке».

Компьютерная наука
Leonardo Phoenix 1.0
Автор: Доктор София Чен Время чтения: 5 – 7 минут

Разбор алгоритмов

84%

Примеры из поп-культуры

89%

Фокус на этике

82%
Оригинальное название: Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding
Дата публикации статьи: 6 июн 2025

Представьте: вы смотрите «Титаник» с другом, который каждые пять минут спрашивает, кто этот парень и почему все плачут. Примерно так современный ИИ «понимает» кино – он видит картинки, слышит слова, но упускает самое главное: историю.

Недавно группа исследователей решила проверить, насколько хорошо искусственный интеллект справляется с пониманием полнометражных фильмов. Результат? Даже самые продвинутые модели смотрят кино как рассеянный зритель, который пришёл в середине сеанса.

Проблема с существующими тестами

До сих пор ИИ проверяли на коротких роликах или задавали вопросы типа «какого цвета была машина в третьей сцене». Это как оценивать понимание «Войны и мира», спрашивая о цвете глаз второстепенного персонажа. Технически правильно, но совершенно не по сути.

Большинство тестов для ИИ похожи на школьные контрольные с вариантами ответов. А мы знаем, что даже не готовясь, можно угадать правильный ответ из четырёх вариантов. ИИ научился этому трюку лучше нас – он находит подсказки в самих вопросах, не понимая содержания.

Что такое MF² и зачем он нужен

Исследователи создали принципиально новый тест под названием MF² (Movie Facts and Fibs – «Факты и вымыслы о кино»). Это как детектор лжи для искусственного интеллекта, только вместо измерения пульса он проверяет понимание сюжета.

Тест устроен просто и хитро одновременно. ИИ показывают утверждение о фильме – например: «Рик в 'Касабланке' отдал транзитные письма Виктору, чтобы тот мог сбежать с Ильзой». Задача модели – определить, правда это или ложь. Но подвох в том, что ложные утверждения составлены так правдоподобно, что различить их можно, только действительно поняв фильм.

Это как игра «Правда или действие», только вместо неловких вопросов – проверка того, действительно ли ИИ следил за сюжетом или просто делал вид.

Как создавали киношный детектор лжи

Для теста выбрали 53 фильма из «золотого фонда» кинематографа – картины 1920-1970 годов, которые уже стали общественным достоянием. Это важно: никто не хочет судиться с Голливудом из-за авторских прав, а старые фильмы вряд ли «засветились» в данных обучения современных моделей.

26 исследователей – настоящие киноманы – пересмотрели все эти фильмы и составили 868 пар утверждений. Каждая пара – это мини-головоломка: одно утверждение правдивое, другое – почти правдивое, но с тонкой ложью.

Например, правда: «Дороти встретила Пугало первым на дороге из жёлтого кирпича». Ложь: «Дороти встретила Железного Дровосека первым на дороге из жёлтого кирпича». Разница в одном слове, но она кардинальная для тех, кто действительно смотрел «Волшебника страны Оз».

Четыре уровня киноматричной пилюли

Утверждения в тесте разделили на четыре категории, как уровни сложности в видеоигре:

Понимание событий и объектов – самый простой уровень. Кто что делал, где и когда. ИИ с этим справляется неплохо, особенно если есть субтитры.

Временные связи – здесь нужно помнить, что происходило раньше, а что позже. Удивительно, но для ИИ это оказалось проще эмоций.

Эмоции персонажей – самый сложный уровень. Понять, почему герой грустит или радуется, что его мотивирует. Здесь ИИ проваливается чаще всего.

Причинно-следственные связи – логика повествования. Почему произошло то или иное событие, как одно привело к другому.

Ещё утверждения разделили по «масштабу»: понимание одной сцены, нескольких сцен или всего фильма целиком. Чем больше масштаб, тем сложнее задача.

Битва титанов: ИИ против человека

Результаты теста оказались показательными. Люди справились с задачей на 90,5% – почти отлично, но не идеально. Это говорит о том, что тест действительно сложный, а не очередная формальность.

Лучший ИИ – Gemini 2.5 Pro – показал результат 77,6%. Звучит неплохо, но это как сдать экзамен на тройку с плюсом, когда одноклассники получают пятёрки.

Интересное открытие: субтитры для ИИ важнее видеоряда. Gemini 2.5 Pro с одними только субтитрами работал почти так же хорошо, как с полным видео. Получается, современный ИИ читает фильмы, а не смотрит их.

Где ИИ спотыкается чаще всего

Модели лучше всего справляются с временными связями – они неплохо запоминают последовательность событий. Хуже всего дела обстоят с эмоциями персонажей. ИИ может сказать, что герой плачет, но не понимает, от горя это или от радости.

Особенно сложно даётся понимание фильма как целого. Если утверждение требует анализа всего сюжета, а не отдельных сцен, точность резко падает. ИИ видит деревья, но не замечает леса.

Почему субтитры – это костыль, а не решение

То, что ИИ лучше работает с субтитрами, выглядит как успех, но на самом деле это проблема. Представьте человека, который может понять фильм, только читая сценарий. Настоящее понимание кино включает визуальный язык: мимику актёров, композицию кадра, цветовую палитру.

Когда ИИ полагается на субтитры, он упускает половину информации. Это как слушать симфонию только правым ухом – технически музыка есть, но целостности нет.

Что это значит для будущего ИИ

Результаты MF² показывают, что до настоящего понимания видео нам ещё далеко. Современный ИИ – это продвинутый попугай, который научился повторять правильные фразы, но не понимает их смысла.

Это не значит, что ИИ бесполезен. Для многих задач его способностей достаточно. Но если мы хотим создать системы, которые действительно понимают мир так же, как люди, нам нужно решить проблему целостного восприятия.

Ограничения и честность исследования

Исследователи честно признают недостатки своего теста. Возможны мелкие ошибки в утверждениях, а участники эксперимента могли помнить «парные» утверждения, что влияло на их суждения.

Но главное – тест показывает реальное положение дел. ИИ пока что не умеет смотреть кино как человек. Мы видим историю, переживаем за героев, улавливаем подтексты. ИИ видит последовательность кадров и слов.

Заключение

MF² – это не просто очередной тест для ИИ. Это зеркало, в котором мы видим, как далеко зашли и сколько ещё предстоит пройти. Современные модели умеют многое, но настоящее понимание – это больше, чем сумма фактов и деталей.

Как говорится, дьявол кроется в деталях, а понимание – в целостности. Пока ИИ научится видеть эту целостность, он останется очень умным, но всё же роботом, который смотрит кино, но не чувствует его души.

И знаете что? Возможно, это и к лучшему. Пока у нас есть преимущество в понимании историй, мы остаёмся людьми в мире всё более умных машин.

Авторы оригинальной статьи : Emmanouil Zaranis, António Farinhas, Saul Santos, Beatriz Canaverde, Miguel Moura Ramos, Aditya K Surikuchi, André Viveiros, Baohao Liao, Elena Bueno-Benito, Nithin Sivakumaran, Pavlo Vasylenko, Shoubin Yu, Sonal Sannigrahi, Wafaa Mohammed, Ben Peters, Danae Sánchez Villegas, Elias Stengel-Eskin, Giuseppe Attanasio, Jaehong Yoon, Stella Frank, Alessandro Suglia, Chrysoula Zerva, Desmond Elliott, Mariella Dimiccoli, Mohit Bansal, Oswald Lanz, Raffaella Bernardi, Raquel Fernández, Sandro Pezzelle, Vlad Niculae, André F. T. Martins
GPT-4-turbo
Claude Sonnet 4
Предыдущая статья Кинематика через призму Тейлора: как математика объясняет движение Следующая статья Когда глаза говорят больше мозга: как моргания влияют на интерфейсы мозг-компьютер

Хотите писать статьи
вместе с нейросетью?

GetAtom поможет: тексты, визуалы, озвучка и видео – всё в одном месте. Нейросети становятся инструментом, а не заменой.

Попробовать

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Обобщение обобщений: когда нейросети учатся предсказывать, но не то, что мы думали

Разбираемся, почему успех языковой модели на одном тесте вне обучения не гарантирует ей победу на другом – и что это значит для реального применения ИИ.

Компьютерная наука

Как научить робота делать всё что угодно – без единого урока

Представьте робота, который смотрит видео в интернете и учится на нём выполнять задачи – без инструкций и тренировок. Теперь это реальность.

Компьютерная наука

VChain: Когда ИИ учится видеть не кадры, а причины – как самба учит танцевать компьютер

Новый подход VChain учит видеогенераторы понимать логику событий через цепочку визуальных размышлений – как футболист предвидит траекторию мяча раньше удара.

Компьютерная наука

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться