Аннотация:
Дообучение больших языковых моделей (LLM fine-tuning) обширно используется в современной эксплуатации и разработке LLM, позволяя адаптировать предобученные модели под специфичные задачи с ограниченными размеченными данными. Традиционные методы стохастической оптимизации первого порядка, такие как SGD и Adam, хотя и широко используются на практике, не всегда обеспечивают оптимальную сходимость. В настоящее время активно развиваются матрично-ориентированные алгоритмы оптимизации, превосходящие классические методы, поскольку они лучше учитывают внутреннюю структуру параметров модели. Одним из таких методов является Muon, который отображает градиенты на пространство полуортотональных матриц, обеспечивая стабильную и быструю сходимость при меньшей чувствительности к гиперпараметрам. Для дальнейшего снижения требований к памяти рассматриваются алгоритмы нулевого порядка, оценивающие градиенты только по прямым проходам (forward pass), без использования алгоритма обратного распространения ошибки. Данная работа посвящена исследованию методов семплирования полуортотональных матриц для алгоритма Muon в рамках оптимизации нулевого порядка при дообучении LLM. Проводится сравнение различных стратегий семплирования, оценивается их влияние на качество процессов fine-tuning и вычислительную эффективность. Результаты работы могут быть использованы в дальнейших исследованиях методов оптимизации нулевого порядка в контексте LLM fine-tuning.