RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 262–269 (Mi danma684)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

RE:FRAME – извлечение опыта из ассоциативной памяти

Д. В. Зелезецкийab, Е. К. Черепановab, А. К. Ковалёвab, А. И. Пановab

a Московский физико-технический институт (национальный исследовательский университет), Долгопрудный, Россия
b Институт искусственного интеллекта AIRI, Москва, Россия

Аннотация: Автономное ОП нередко вынуждено опираться на субоптимальные данные, поскольку сбор крупных экспертных траекторий либо невозможен, либо экономически нецелесообразен. В таких условиях агенту трудно развивать навыки обобщения и достигать высоких вознаграждений, так как обучение ведется в основном на несовершенных траекториях. Центральная задача в рамках этой статьи – наилучшим образом совместить дефицитные экспертные демонстрации с доступными по объему, но менее качественными данными. Мы показываем, что даже очень небольшой объем экспертного опыта способен заметно повысить результативность. Мы представляем Re:Frame (Retrieving Experience From Associative Memory) – подключаемый модуль, дополняющий стандартную автономную стратегию компактным внешним Буфером Ассоциативной Памяти (БАП), сформированным из экспертных траекторий отдельного набора данных. При обучении на низкокачественных данных стратегия учится по текущему состоянию извлекать из БАП схожий релевантный экспертный опыт и интегрировать его в процесс принятия решений, при этом тот же БАП запрашивается и на этапе оценки. Метод не требует взаимодействия со средой и не изменяет архитектуру базовой модели. На задачах D4RL MuJoCo использование всего 60 экспертных траекторий (0.1% от 6000) стабильно улучшает базовые показатели Decision Transformer модели в трех из четырех задач, достигая прироста до +10.7 нормированных пунктов. Тем самым Re:Frame предоставляет простой и эффективный путь инъекции редких экспертных знаний в автономное ОП на низкокачественных датасетах.

Ключевые слова: обучение с подкреплением (ОП), глубокое обучение, ассоциативная память.

УДК: 004.8

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070227



Реферативные базы данных:


© МИАН, 2026