Аннотация:
Задача генерации высококачественных синтетических данных имеет ключевое значение для многих задач, связанных с наукой о данных. Сгенерированный набор данных может сократить затраты на дополнение существующих данных дополнительными, например в физике, или помочь с защитой конфиденциальности, например в банковской сфере. Однако генерация табличных данных является сложной задачей, поскольку данные содержат как числовые, так и категориальные признаки. В этой статье мы исследуем современные подходы к генерации табличных данных, оцениваем несколько модификаций современной модели и то, влияют ли они на качество синтезируемых данных. Модификации включают использование моделей гауссовой диффузии как для генерации числовых, так и для генерации категориальных признаков, а также гауссовского шума для регуляризации во время обучения. Комплексные эксперименты и оценка показателей качества генерации табличных данных на пяти общедоступных наборах данных доказывают, что предложенная модифицированная модель сохраняет аналогичное качество синтезированных данных по сравнению с исходной моделью, но требуя при этом меньше времени для генерации синтетических данных.