RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Информатика, телекоммуникации и управление, 2022, том 15, выпуск 4, страницы 86–97 (Mi ntitu334)

Fixing 1-bit Adam and 1-bit LAMB algorithms

[Решение проблем алгоритмов 1-bit Adam и 1-bit LAMB]

D. A. Tarasova, V. A. Ershovb

a National Research University "Higher School of Economics", St. Petersburg Branch
b Company "Yandex"

Аннотация: На сегодняшний день различные нейросетевые модели учат с помощью распределенного обучения, чтобы снизить затрачиваемое время. Самым распространенным способом распределенного обучения является подход, при котором данные разбиваются на части и вместе с моделью отправляются на разные устройства, каждое устройство вычисляет обновления для модели, затем обновления аггрегируются на сервере, сервер обновляет веса модели и передает их новую версию на устройства. Медленное сетевое взаимодействие, связывающее устройства, на которых происходит обучение, может значительно снизить эффективность распределения. Недавние исследования предлагают однобитные версии алгоритмов Adam и LAMB, позволяющие сократить объём передаваемой информации в несколько раз, вследствие чего масштабируемость обучения улучшается. Однако на практике оказалось, что данные алгоритмы расходятся на некоторых архитектурах нейронных сетей. Цель статьи – эмпирическое исследование указанных алгоритмов, решение обнаруженной проблемы расходимости, а также рассмотрение новых аспектов для тестирования алгоритмов градиентного спуска.

Ключевые слова: машинное обучение, глубинное обучение, градиентный спуск, распределенное обучение, оптимизация.

УДК: 004.852

Поступила в редакцию: 29.11.2022

Язык публикации: английский

DOI: 10.18721/JCSTCS.15407



© МИАН, 2026