Аннотация:
Одной из ключевых проблем линейного регрессионного анализа является обеспечение робастного оценивания параметров модели в условиях стохастической неоднородности данных. В подобных случаях оценки классического метода наименьших квадратов теряют устойчивость. Данная проблема особенно актуальна при распределениях ошибок с более вытянутыми хвостами по сравнению с нормальным распределением. В качестве одного из подходов к повышению робастности регрессионных моделей рассматривается замена квадратичной функции потерь на выпукло-вогнутую, однако непосредственное применение таких функций приводит к многоэкстремальности целевой функции, что существенно усложняет решение задачи.
Целью настоящего исследования является анализ свойств метода вариационно-взвешенных квадратических и абсолютных приближений для невыпуклых функций потерь. В работе предложен подход, основанный на замене исходной невыпуклой задачи регрессионного оценивания на итеративное применение взвешенных методов наименьших квадратов и наименьших модулей. Фактически реализуется метод вариационно-взвешенных квадратических и абсолютных приближений для невыпуклых функций потерь. На каждой итерации взвешенного метода наименьших модулей использовались алгоритмы спуска по узловым прямым.
Исследование итерационных алгоритмов проведено методом статистических испытаний Монте–Карло для различных функций потерь. Установлено, что взвешенный метод наименьших модулей превосходит метод наименьших квадратов по быстродействию при сопоставимой точности оценивания. В условиях одновременного нарушения нескольких предпосылок регрессионного анализа для достижения приемлемой точности предпочтительным является использование либо взвешенного метода наименьших модулей, либо обобщенного метода наименьших модулей, реализованного в виде алгоритма обобщенного спуска. Получены оценки вычислительной сложности алгоритмов и времени их выполнения в зависимости от объема выборки и количества параметров регрессионной модели.
Ключевые слова:
линейная регрессия, робастное оценивание, стохастическая неоднородность данных, взвешенный метод наименьших модулей, метод наименьших квадратов, невыпуклые функции потерь, итерационные алгоритмы, устойчивость регрессионных моделей