Аннотация:
Использование мультимодальных данных в системах распознавания эмоций имеет огромный потенциал для приложений в различных областях: здравоохранение, человеко-машинные интерфейсы, контроль состояния операторов, маркетинг. До недавнего времени развитие систем распознавания эмоций на основе мультимодальных данных сдерживалось недостаточной мощностью вычислительной техники. Однако с появлением высокопроизводительных систем на основе графических процессоров и разработкой эффективных архитектур глубоких нейронных сетей произошел всплеск исследований, направленных на использование нескольких модальностей, таких как аудио, видео и физиологические сигналы, для точного определения человеческих эмоций. Помимо этого, немаловажную роль стали играть физиологические данные, полученные с помощью носимых устройств, благодаря относительной простоте их сбора и точности, которую они позволяют достигать. В данной статье рассмотрены архитектуры и методы применения глубоких нейронных сетей для анализа мультимодальных данных с целью повышения точности и надежности систем распознавания эмоций, представлены современные подходы к реализации таких алгоритмов и существующие открытые наборы мультимодальных данных.