Аннотация:
В статье приведены результаты исследования влияния дискретизации и бинаризации исходных признаков на точность классификации данных. Рассмотрены 3 задачи классификации данных из областей технического зрения и медицинской диагностики. Для построения моделей классификации применялись популярные алгоритмы: наивный байесовский классификатор; логистическая регрессия; многослойная нейросеть, использующая алгоритм обратного распространения ошибки; машина опорных векторов; метод ближайших соседей; деревья решений и случайный лес. Во всех трех представленных задачах дискретизация данных с последующей
бинаризацией привела к повышению точности моделей классификации. Это повышение точности выявлено только для случая бинаризации с накоплением. Результаты проведенного эксперимента могут быть полезны исследователям и разработчикам моделей машинного обучения.
Ключевые слова:
машинное обучение, дискретизация и бинаризация количественных признаков, точность моделей классификации.