RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 192–205 (Mi danma678)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Теоретически обоснованные контрастивные методы самообучения для непрерывных зависимых данных

А. Э. Марусов, А. А. Зайцев

Сколковский институт науки и технологий, Москва, Россия

Аннотация: Задача получения информативных представлений объектов заключается в обучении модели, называемой кодировщиком, которая строит информативные сжатые представления подаваемых ей на вход сигналов. Один из способов решения этой задачи заключается в применении методов самообучения (Self-supervised learning, SSL). Преимущество этих методов заключается в использовании только неразмеченных данных, число которых кратно больше размеченных. Среди методов самообучения особенно выделяются контрастивные подходы, основанные на приближении представлений семантически близких объектов (положительных пар) и отдалении представлений разных сигналов (негативных пар). Многие современные контрастивные методы самообучения, применяемые для получения представлений зависимых данных, в которых элементы выборки семантически связаны друг с другом, используют функцию потерь, изначально разработанную для независимых данных. В текущей работе предлагается теоретически обоснованный подход к выбору функции потерь для случая непрерывных зависимых данных, т. е. таких данных, в которых близлежащие элементы выборки могут считаться положительной парой. В представленном в работе анализе предлагаются различные способы моделирования близости между объектами и соответствующие функции потерь, представленные в явном виде и учитывающие корреляции между объектами. Для экспериментальной проверки эффективности разработанных целевых функций были выбраны задачи прогнозирования температуры и засухи, которые можно отнести к классу непрерывных зависимых данных. Эмпирические результаты показывают, что наша модель в сочетании с предложенной функцией потерь превосходит подход, основанный на предположении о семантической независимости между данными, т. е. когда все элементы выборки семантически не связаны между собой. Полученные результаты подтверждают необходимость учета таких зависимостей для создания кодировщиков высокого качества.

Ключевые слова: методы самообучения, пространственно-временные данные, зависимые данные.

УДК: 004.9

Поступило: 25.07.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070161



Реферативные базы данных:


© МИАН, 2026