Аннотация:
Предсказание будущего состояния сцены – важная задача компьютерного зрения, необходимая для построения систем, способных к проективному восприятию и принятию решений в изменяющихся средах. В данной работе рассматривается задача предсказания будущих графов сцены, где требуется на основе видео и последовательности предыдущих графов спрогнозировать объекты и их отношения в последующих кадрах. В отличие от существующих подходов, ограниченных статическим восприятием, разработанный метод GraphCast учитывает семантические визуально-языковые признаки объектов и их временную динамику. Предлагается архитектура модели, основанная на объектно-центричном кодировании фундаментальной трансформерной моделью, моделировании взаимодействий с помощью биаффинной головы классификации отношений, а также на специализированном классификаторе присутствия объектов. Дополнительно используется модуль временных сверток для извлечения признаков и повышения устойчивости к шуму. Эксперименты на датасетах STAR и Action Genome демонстрируют превосходство предложенной архитектуры над существующими базовыми моделями.