А. А. Куталев, А. А. Лапина, “Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры”, Компьютерные исследования и моделирование, 2023, том 15, выпуск 1,страницы 45

ЧИСЛЕННЫЕ МЕТОДЫ И ОСНОВЫ ИХ РЕАЛИЗАЦИИ

Современные методы преодоления катастрофической забывчивости нейронных сетей и экспериментальная проверка вопросов их структуры

А. А. Куталев^a, А. А. Лапина^b

^a ПАО «Сбербанк», Россия, 121170, г. Москва, Кутузовский пр-т, д. 32
^b MY.GAMES, Россия, 125167, г. Москва, Ленинградский пр-т, 39, стр. 79

Аннотация: В данной работе представлены результаты экспериментальной проверки некоторых вопросов, касающихся практического использования методов преодоления катастрофической забывчивости нейронных сетей. Проведено сравнение двух таких современных методов: метода эластичного закрепления весов (EWC, Elastic Weight Consolidation) и метода ослабления скоростей весов (WVA, Weight Velocity Attenuation). Разобраны их преимущества и недостатки в сравнении друг с другом. Показано, что метод эластичного закрепления весов (EWC) лучше применять в задачах, где требуется полностью сохранять выученные навыки на всех задачах в очереди обучения, а метод ослабления скоростей весов (WVA) больше подходит для задач последовательного обучения с сильно ограниченными вычислительными ресурсами или же когда требуется не точное сохранение всех навыков, а переиспользование репрезентаций и ускорение обучения от задачи к задаче. Проверено и подтверждено интуитивное предположение, что ослабление метода WVA необходимо применять к оптимизационному шагу, то есть к приращениям весов нейронной сети, а не к самому градиенту функции потерь, и это справедливо для любого градиентного оптимизационного метода, кроме простейшего стохастического градиентного спуска (SGD), для которого оптимизационный шаг и градиент функции потерь пропорциональны. Рассмотрен выбор оптимальной функции ослабления скоростей весов между гиперболической функцией и экспонентой. Показано, что гиперболическое убывание более предпочтительно, так как, несмотря на сравнимое качество при оптимальных значениях гиперпараметра метода WVA, оно более устойчиво к отклонениям гиперпараметра от оптимального значения (данный гиперпараметр в методе WVA обеспечивает баланс между сохранением старых навыков и обучением новой задаче). Приведены эмпирические наблюдения, которые подтверждают гипотезу о том, что оптимальное значение гиперпараметра не зависит от числа задач в очереди последовательного обучения. Следовательно, данный гиперпараметр может подбираться на небольшом числе задач, а использоваться — на более длинных последовательностях.

Ключевые слова: катастрофическая забывчивость, эластичное закрепление весов, EWC, ослабление скоростей весов, WVA, нейронные сети, последовательное обучение, машинное обучение, искусственный интеллект.

УДК: 004.853

Поступила в редакцию: 12.10.2022
Исправленный вариант: 14.12.2022
Принята в печать: 24.12.2022

DOI: 10.20537/2076-7633-2023-15-1-45-56