RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2024, том 520, номер 2, страницы 131–140 (Mi danma595)

Эта публикация цитируется в 4 статьях

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Построение мультимодальных 3D-карт для интеллектуальных роботов с применением нейросетевых методов

Д. А. Юдинabc

a Московский физико-технический институт, Научно-образовательный центр когнитивного моделирования, Долгопрудный, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия
c Институт искусственного интеллекта AIRI, Москва, Россия

Аннотация: Для систем навигации роботов все большую значимость набирают методы построения мультимодальных трехмерных карт. В таких картах каждая 3D-точка или объект содержат помимо информации о цвете и семантической категории, еще и сжатые векторные представления текстового описания или звука. Это позволяет решать задачи движения до объектов по сформулированным на естественном языке запросам, даже не содержащим упоминание объекта в явном виде. В настоящей статье предложена оригинальная таксономия методов, позволяющих строить мультимодальные 3D-карты с применением нейросетевых методов. Показано, что разреженные методы, использующие представление сцены в виде графа объектов и большие языковые модели для поиска ответа на сложные пространственные и семантические запросы, демонстрируют наиболее многообещающие результаты на существующих открытых бенчмарках. На основе проведенного анализа выявлены ограничения по выбору тех или иных методов для решения практических задач интеллектуальной робототехники.

Ключевые слова: трехмерная карта, мультимодальный метод, нейронная сеть, большая языковая модель, сегментация изображений, интеллектуальная робототехника.

УДК: 004.8

Поступило: 20.08.2024
Принято к публикации: 02.10.2024

DOI: 10.31857/S2686954324700450


 Англоязычная версия: Doklady Mathematics, 2024, 110:suppl. 1, S117–S125

Реферативные базы данных:


© МИАН, 2026