RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 388–399 (Mi danma696)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Диффузионные модели для генерации синтетических табличных данных

Э. Д. Телешева, М. И. Гущин

Национальный исследовательский университет "Высшая школа экономики", Москва, Россия

Аннотация: Задача генерации высококачественных синтетических данных имеет ключевое значение для многих задач, связанных с наукой о данных. Сгенерированный набор данных может сократить затраты на дополнение существующих данных дополнительными, например в физике, или помочь с защитой конфиденциальности, например в банковской сфере. Однако генерация табличных данных является сложной задачей, поскольку данные содержат как числовые, так и категориальные признаки. В этой статье мы исследуем современные подходы к генерации табличных данных, оцениваем несколько модификаций современной модели и то, влияют ли они на качество синтезируемых данных. Модификации включают использование моделей гауссовой диффузии как для генерации числовых, так и для генерации категориальных признаков, а также гауссовского шума для регуляризации во время обучения. Комплексные эксперименты и оценка показателей качества генерации табличных данных на пяти общедоступных наборах данных доказывают, что предложенная модифицированная модель сохраняет аналогичное качество синтезированных данных по сравнению с исходной моделью, но требуя при этом меньше времени для генерации синтетических данных.

Ключевые слова: искусственный интеллект, генеративные модели, диффузионные модели, табличные данные.

УДК: 004.8

Поступило: 20.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070343



Реферативные базы данных:


© МИАН, 2026