Аннотация:
Решающие деревья широко применяются в машинном обучении, статистике и анализе данных. Предиктивные модели, основанные на решающих деревьях, показывают отличные результаты в терминах точности и времени обучения, особенно на гетерогенных табличных датасетах. Производительность, простота и надежность делают это семейство алгоритмов одним из наиболее популярных в машинном обучении и науке о данных.
Одним из важных гиперпараметров алгоритмов, основанных на решающих деревьях, является максимальная глубина.
В данной работе получен теоретический результат, который показывает как ограничение на максимальную глубину решающих деревьев влияет на выразительные возможности всего ансамбля. Этот результат применим к таким алгоритмам, как одиночное решающее дерево (Decision Tree), случайный лес (Random Forest), градиентный бустинг (GBDT) и другие.
Ключевые слова:
машинное обучение, наука о данных, решающее дерево, случайный лес, градиентный бустинг.