Аннотация:
Рассматриваются вопросы модернизации механизма самовнимания в блоках трансформеров на основе двух подходов. Первый реализует внесение мультипликативной стохастической составляющей для весовых коэффициентов самовнимания, обеспечивающее структурную регуляризацию весов путем их сглаживания и предотвращения неконтролируемого роста. Второй подход основан на добавлении обучаемой матрицы масштабирования скалярных произведений запросов и ключей, что позволяет регулировать вычисляемые веса самовнимания, несмотря на возможность возникновения насыщения стандартной активационной функции softmax. Для подтверждения положительного эффекта от применения предлагаемых модернизаций представлены результаты решения задачи классификации изображений с использованием стандартной архитектуры Vision Transformer, а также задачи повышения качества изображений в присутствии внешних искажений и шумов. В последнем случае использована оригинальная архитектура трансформера, позволившая не только продемонстрировать указанные эффекты, но и улучшить результаты по сравнению с известными прототипами.
Ключевые слова:
нейронные сети, трансформеры, механизм самовнимания, регуляризация, обработка изображений.