RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 217–228 (Mi danma680)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Семплирование полуортогональных матриц для алгоритма Muon

Е. Д. Петровab, Г. В. Евсеевa, А. В. Антоновab, А. С. Веприковacd, Н. А. Бушковab, С. В. Моисеевb, А. Н. Безносиковacd

a Московский физико-технический институт, Москва, Россия
b Т-Технологии, Москва, Россия
c Институт системного программирования РАН, Москва, Россия
d Университет Иннополис

Аннотация: Дообучение больших языковых моделей (LLM fine-tuning) обширно используется в современной эксплуатации и разработке LLM, позволяя адаптировать предобученные модели под специфичные задачи с ограниченными размеченными данными. Традиционные методы стохастической оптимизации первого порядка, такие как SGD и Adam, хотя и широко используются на практике, не всегда обеспечивают оптимальную сходимость. В настоящее время активно развиваются матрично-ориентированные алгоритмы оптимизации, превосходящие классические методы, поскольку они лучше учитывают внутреннюю структуру параметров модели. Одним из таких методов является Muon, который отображает градиенты на пространство полуортотональных матриц, обеспечивая стабильную и быструю сходимость при меньшей чувствительности к гиперпараметрам. Для дальнейшего снижения требований к памяти рассматриваются алгоритмы нулевого порядка, оценивающие градиенты только по прямым проходам (forward pass), без использования алгоритма обратного распространения ошибки. Данная работа посвящена исследованию методов семплирования полуортотональных матриц для алгоритма Muon в рамках оптимизации нулевого порядка при дообучении LLM. Проводится сравнение различных стратегий семплирования, оценивается их влияние на качество процессов fine-tuning и вычислительную эффективность. Результаты работы могут быть использованы в дальнейших исследованиях методов оптимизации нулевого порядка в контексте LLM fine-tuning.

Ключевые слова: большие языковые модели, fine-tuning, оптимизация нулевого порядка, матричная оптимизация.

УДК: 004.8

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070185



Реферативные базы данных:


© МИАН, 2026