RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Информатика и автоматизация, 2026, выпуск 25, том 1, страницы 234–261 (Mi trspy1417)

Искусственный интеллект, инженерия данных и знаний

Research on reinforcement learning algorithms for network latency reduction in edge computing

[Исследование алгоритмов обучения с подкреплением для снижения сетевой задержки в граничных вычислениях]

I. Filianina, A. Kapitonovb, A. Timoshchuk-Bondara

a ITMO University
b New Uzbekistan University

Аннотация: Современные исследования алгоритмов принятия решений в системах multi-access edge computing (MEC) для задач распределения ресурсов зачастую основываются на упрощенных абстракциях сетевой топологии, что ограничивает применимость полученных результатов в реальных условиях эксплуатации мобильных сетей. Целью данной работы является разработка реалистичной модели сети сотовой связи с использованием методов стохастической геометрии и комплексная оценка эффективности современных алгоритмов обучения с подкреплением в задачах минимизации сетевых задержек в граничных вычислениях. Метод. Для создания математически обоснованной модели сетевой среды использовались методы стохастической геометрии в сочетании с реальными статистическими данными распределения пользователей сотовых сетей. Применение стохастической геометрии обеспечило корректное моделирование пространственного размещения базовых станций и расчет межузловых расстояний, критически важных для определения сетевых задержек. Экспериментальная оценка проводилась на базе доработанной платформы LWMECPS с расширенным Gymnasium API, поддерживающим алгоритмы PPO, TD3 и SAC. Основные результаты. Разработана модель сети связи, учитывающая реалистичное пространственное распределение сетевых элементов и временную динамику пользовательской нагрузки. На основе данной модели создано виртуализированное тестовое окружение в LWMECPS, позволяющее проводить воспроизводимые эксперименты с контролируемыми параметрами. Результаты экспериментов показали различия в характеристиках производительности различных алгоритмов: PPO обеспечил стабильное сокращение задержки до 20% со стабильной конвергенцией; SAC продемонстрировал наибольшее абсолютное улучшение (сокращение задержки на 38%), но проявил нестабильность при инициализации; TD3 показал умеренную эффективность (улучшение до 11%), но высокую чувствительность к настройке гиперпараметров. Обсуждение. Проведенный сравнительный анализ алгоритмов машинного обучения с подкреплением выявил ключевые особенности их применения в MEC-системах. Установлено, что дискретный характер задач размещения сервисов делает алгоритм PPO наиболее подходящим для практического внедрения в системы принятия решений благодаря его стабильности сходимости и естественной поддержке дискретных пространств действий. Полученные результаты предоставляют научно обоснованные рекомендации для разработчиков MEC-платформ по выбору оптимальных алгоритмических решений.

Ключевые слова: обучение с подкреплением, граничные вычисления с множественным доступом (Multi-Access Edge Computing), оптимизация политики по приближению (Proximal Policy Optimization), Soft Actor-Critic, алгоритм TD3 (Twin Delayed Deep Deterministic Policy Gradient), LWMECPS, Weights & Biases (WandB).

УДК: 006.72

Поступила в редакцию: 10.08.2025

Язык публикации: английский

DOI: 10.15622/ia.25.1.8



© МИАН, 2026