А. С. Юмаганов, А. А. Агафонов, В. В. Мясников, “Адаптивное управление сигналами светофоров на основе обучения с подкреплением, инвариантное к конфигурации светофорного объекта”, Компьютерные исследования и моделирование, 2024, том 16, выпуск 5,страницы 1253

МОДЕЛИ В ФИЗИКЕ И ТЕХНОЛОГИИ

Адаптивное управление сигналами светофоров на основе обучения с подкреплением, инвариантное к конфигурации светофорного объекта

А. С. Юмаганов, А. А. Агафонов, В. В. Мясников

Самарский национальный исследовательский университет им. академика С. П. Королёва, Россия, 443086, г. Самара, Московское шоссе, д. 34

Аннотация: В работе представлен метод адаптивного управления сигналами светофоров, инвариантный к конфигурации светофорного объекта. Предложенный метод использует одну модель нейронной сети для управления светофорами различных конфигураций, отличающихся как по числу контролируемых полос движения, так и по используемому набору фаз. Для описания пространства состояний используется как динамическая информация о состоянии транспортного потока, так и статические данные о конфигурации контролируемого перекрестка. Для повышения скорости обучения модели предлагается использовать эксперта, предоставляющего дополнительные данные для обучения модели. В качестве эксперта используется метод адаптивного управления, основанный на максимизации взвешенного потока транспортных средств через перекресток. Экспериментальные исследования разработанного метода, проведенные в системе микроскопического моделирования движения транспортных средств, подтвердили его работоспособность и эффективность. Была показана возможность применения разработанного метода в сценарии моделирования, не используемом в процессе обучения. Представлено сравнение предложенного метода с другими известными решениями задачи управления светофорным объектом, в том числе с методом, используемым в качестве эксперта. В большинстве сценариев разработанный метод показал лучший результат по критериям среднего времени движения и среднего времени ожидания. Преимущество над методом, используемым в качестве эксперта, в зависимости от исследуемого сценария составило от 2% до 12% по критерию среднего времени ожидания транспортных средств и от 1% до 7% по критерию среднего времени движения.

Ключевые слова: управление сигналами светофоров, обучение с подкреплением, подключенные транспортные средства, имитационное моделирование

УДК: 004.89

Поступила в редакцию: 15.04.2024
Исправленный вариант: 22.07.2024
Принята в печать: 09.08.2024

DOI: 10.20537/2076-7633-2024-16-5-1253-1269