RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Информатика и автоматизация, 2026, выпуск 25, том 1, страницы 176–199 (Mi trspy1415)

Искусственный интеллект, инженерия данных и знаний

Оценка влияния битности чисел с плавающей запятой на точность распознавания дикторов

Н. П. Колмаковa, А. Н. Голубинскийb

a Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
b Российский научный фонд

Аннотация: В статье проводится анализ изменения точности распознавания личности по голосу при выделении разного количества бит на число с плавающей запятой (квантование) выходного тензора нейронной сети. Тензор характеризирует скрытое пространство нейронной сети, которое содержит скрытые признаки, используемые при решении задачи распознавания дикторов. Обычно, на каждое число выходного пространства выделяется тридцать два бита (выходной тензор, исследуемых методов содержит 512 чисел), поэтому для поддержки постоянно актуализируемой базы данных требуется большое количество памяти. Из-за этого, особый интерес представляет тип чисел с плавающей запятой – minifloat, позволяющий работать с численным представлениями, на которые выделяются восемь, шесть или четыре бита. Для обеспечения полноты результатов исследования, выбраны три нейросетевых решения, показывающие лучшие результаты распознавания на тестовой выборке: CAM++, WavLM, ReDimNet. Модели обладают уникальными архитектурными особенностями, что позволяет оценить изменение точности распознавания дикторов при уменьшении битности в зависимости от используемого типа архитектуры нейронной сети. Точность распознавания оценивается с помощью точки пересечения ошибок первого и второго рода. При проведении оценки точности распознавания используется англоязычный набор данных VoxCeleb-1, по характеристикам содержащихся аудиозаписей соответствует небольшой базе данных биометрической системы. Актуальность представленного материала обусловлена возрастающим количеством научных работ, которые предлагают использовать голос в качестве верификационного ключа. Поэтому, при работе с большим набором биометрических данных необходимо выделять большие объёмы памяти как на жёстких дисках, так и ОЗУ. Современные базы данных постоянно актуализируются и расширяются, что приводит к увеличению необходимых ресурсов на её поддержку. Одним из возможных методов решения может являться применение операции квантования к выходному тензору нейронной сети. Однако, преждевременное уменьшение количества выделяемых бит на число в выходном тензоре может привести к значительному ухудшению качества распознавания, относительно базовой версии сети. Основным направлением исследования является минимизация ресурсов для поддержки биометрической системы без дополнительного обучения нейронной сети.

Ключевые слова: распознавание дикторов, нейронные сети, числа с плавающей запятой, квантование.

УДК: 004.008

Поступила в редакцию: 29.06.2025

DOI: 10.15622/ia.25.1.6



© МИАН, 2026