RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 245–253 (Mi danma682)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Предсказание будущего графа сцены с применением нейросетевых методов

А. М. Труноваa, Д. А. Юдинab

a Московский физико-технический институт, Центр когнитивного моделирования, Долгопрудный, Россия
b Институт искусственного интеллекта AIRI, Москва, Россия

Аннотация: Предсказание будущего состояния сцены – важная задача компьютерного зрения, необходимая для построения систем, способных к проективному восприятию и принятию решений в изменяющихся средах. В данной работе рассматривается задача предсказания будущих графов сцены, где требуется на основе видео и последовательности предыдущих графов спрогнозировать объекты и их отношения в последующих кадрах. В отличие от существующих подходов, ограниченных статическим восприятием, разработанный метод GraphCast учитывает семантические визуально-языковые признаки объектов и их временную динамику. Предлагается архитектура модели, основанная на объектно-центричном кодировании фундаментальной трансформерной моделью, моделировании взаимодействий с помощью биаффинной головы классификации отношений, а также на специализированном классификаторе присутствия объектов. Дополнительно используется модуль временных сверток для извлечения признаков и повышения устойчивости к шуму. Эксперименты на датасетах STAR и Action Genome демонстрируют превосходство предложенной архитектуры над существующими базовыми моделями.

Ключевые слова: предсказание графа сцены, понимание видео, пространственно-временные отношения, нейронная сеть.

УДК: 004.89

Поступило: 20.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070203



Реферативные базы данных:


© МИАН, 2026