Iu. Lezhenin, N. Bogach, “An input-synchronous blockwise decoding algorithm for CTC-AED speech recognition”, Информатика и автоматизация, 2026, выпуск 25, том 1,страницы 153

Искусственный интеллект, инженерия данных и знаний

An input-synchronous blockwise decoding algorithm for CTC-AED speech recognition

[Блочный алгоритм декодирования с синхронизацией по входу для CTC-AED систем распознавания речи]

Iu. Lezhenin, N. Bogach

Peter the Great St. Petersburg Polytechnic University (SPbPU)

Аннотация: Для работы в реальных условиях от систем автоматического распознавания речи требуется обеспечивать стабильную точность распознавания при обработке входного аудиопотока произвольной длины в условиях ограниченных вычислительных ресурсов. Объединенная модель из коннекционисткой темпоральной классификации (connectionist temporal classification, CTC) и кодировщик-декодировщика с механизмом внимания (attention-based encoder-decoder, AED) обеспечивают высокое качество распознавания, но исходная версия модели не удовлетворяет данным требованиям. В данной статье предлагается алгоритм блочного декодирования с синхронизацией по входу для совместной модели CTC-AED. Алгоритм обрабатывает перекрывающиеся блоки аудио синхронно относительно входной последовательности признаков, используя CTC-выравнивание для определения соответствующего контекста на перекрывающемся участке для AED декодировщика. Фиксированная длина блока обеспечивает предсказуемое и ограниченное потребление ресурсов и позволяет избежать проблем с обобщением на длинных речевых сегментах, в то время как перекрытие блоков снижает ухудшение качества распознавания, вызванное краевыми эффектами на границах блоков. В отличие от других алгоритмов декодирования для CTC-AED, предложенный алгоритм не требует ни модификации архитектуры модели, ни специальной процедуры обучения, и, в то же время, поддерживает перекрытие блоков. В работе также исследуется производительность предложенного алгоритма с точки зрения доли словесных ошибок (word error rate, WER) в зависимости от размера блока и размера перекрытия.

Ключевые слова: потоковое распознавание речи, блочное декодирование, сквозные модели, AED, CTC.

УДК: 004.934

Поступила в редакцию: 15.09.2025

Язык публикации: английский

DOI: 10.15622/ia.25.1.5