Аннотация:
Для работы в реальных условиях от систем автоматического распознавания речи требуется обеспечивать стабильную точность распознавания при обработке входного аудиопотока произвольной длины в условиях ограниченных вычислительных ресурсов. Объединенная модель из коннекционисткой темпоральной классификации (connectionist temporal classification, CTC) и кодировщик-декодировщика с механизмом внимания (attention-based encoder-decoder, AED) обеспечивают высокое качество распознавания, но исходная версия модели не удовлетворяет данным требованиям. В данной статье предлагается алгоритм блочного декодирования с синхронизацией по входу для совместной модели CTC-AED. Алгоритм обрабатывает перекрывающиеся блоки аудио синхронно относительно входной последовательности признаков, используя CTC-выравнивание для определения соответствующего контекста на перекрывающемся участке для AED декодировщика. Фиксированная длина блока обеспечивает предсказуемое и ограниченное потребление ресурсов и позволяет избежать проблем с обобщением на длинных речевых сегментах, в то время как перекрытие блоков снижает ухудшение качества распознавания, вызванное краевыми эффектами на границах блоков. В отличие от других алгоритмов декодирования для CTC-AED, предложенный алгоритм не требует ни модификации архитектуры модели, ни специальной процедуры обучения, и, в то же время, поддерживает перекрытие блоков. В работе также исследуется производительность предложенного алгоритма с точки зрения доли словесных ошибок (word error rate, WER) в зависимости от размера блока и размера перекрытия.