Аннотация:
В статье описан биологически правдоподобный гибридный алгоритм навигации для автономного мобильного агента в нераспознанной динамической среде. Алгоритм основан на методе дискретной оптимизации и расширен инкрементальным дескриптором. Инкрементальный дескриптор – это модуль статистической памяти, реализующий пошаговое (инкрементальное) накопление и обновление информации о связях между состояниями и действиями. Он выполняет роль вероятностного приближения функции переходов среды, что повышает устойчивость обучения и позволяет реализовать баланс между исследованием и эксплуатацией без явного моделирования динамики; выступает вероятностной памятью и аккумулирует статистику пар “состояние – действие”.
Следовательно, повышается устойчивость обучения, а также обеспечивается баланс между “исследованием” и “эксплуатацией” без явного моделирования переходов в среде.
Ключевые слова:
обучение с подкреплением, дискретная оптимизация, байесовский дескриптор, потенциальные поля, навигация роботов, когнитивные агенты.