Аннотация:
Обработка пропусков в табличных данных остаётся важной задачей при построении надёжных моделей машинного обучения. В данной работе рассматривается новый подход к заполнению пропущенных значений, основанный на идее унарной классификации. Предложенный метод использует ансамбль персептронов, обучаемых отдельно для каждого класса, для оценки правдоподобия восстанавливаемых значений относительно эмпирического носителя класса. В качестве фона используется равномерное распределение на ограниченной области признакового пространства. Это позволяет интерпретировать выход модели как аппроксимацию апостериорной вероятности принадлежности объекта к классу и использовать её в процессе итеративного заполнения пропусков и обучения классификатора. Теоретически обоснована состоятельность построенной оценки. Проведены эксперименты на синтетических двумерных выборках с пропусками, распределёнными по механизму MCAR. Полученные результаты демонстрируют преимущества предложенного подхода по сравнению с классическими методами заполнения, особенно при высокой доле пропусков и сложной геометрии классов.