ResNet-SV: Быстрая и точная верификация спикера с использованием многоуровневого каскадного механизма внимания
Одной из самых сложных проблем быстрого развития голосовой биометрии является необходимость разработки методов, способных сочетать скорость и точность. Традиционные решения, как правило, выбирают компромисс между этими двумя аспектами, что приводит либо к усложнению процесса верификации спикеров, либо к снижению точности, особенно в реальных условиях, когда фоновый шум и колебания речи являются существенными препятствиями. В данной статье рассматриваются современные подходы и их архитектурные особенности. Основой для разработки архитектуры послужила ResNet, изначально предназначенная для задач компьютерного зрения, которая была модифицирована и адаптирована для оптимальной работы в области обработки речи. Подробно описывается предложенный метод модификации на основе многослойного каскадного механизма внимания для извлечения признаков из сверточных блоков. Такая модификация позволяет использовать меньшее количество слоев для извлечения признаков, тем самым увеличивая скорость работы модели, а также позволяет более эффективно бороться с возникшими шумами в аудиосигнале. В заключении статьи представлены параметры модели, использованные в процессе обучения, а также ключевые метрики, такие как EER и minDCF, рассчитанные на выборке данных VoxCeleb1. Результаты сравниваются с решениями, построенными на других архитектурах. В ходе экспериментов авторам удалось достичь высокого уровня точности при меньшем количестве параметров модели нейронной сети. Эта работа приближает нас к более широкому применению систем голосовой биометрии в различных сценариях.