Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

НЕЙРОМЕРЕЖЕВА АДАПТАЦІЯ PLDA ДЛЯ ВИКОРИСТАННЯ У АВТОМАТИЗОВАНІЙ СИСТЕМІ РОЗПІЗНАВАННЯ МОВЦЯ КРИТИЧНОГО ЗАСТОСУВАННЯ

NEURAL NETWORK ADAPTATION OF PLDA FOR THE AUTOMATIC SPEAKER RECOGNITION SYSTEM OF CRITICAL USE

Сторінки: 172-177. Номер: №1, 2019 (269)
Автори:
А.Д. ГАФУРОВА, В.В. КОВТУН
Вінницький національний технічний університет
A.D. HAFUROVA, V.V. KOVTUN
Vinnytsia National Technical University
DOI: https://www.doi.org/10.31891/2307-5732-2019-269-1-172-177
Рецензія/Peer review : 16.10.2019 р.
Надрукована/Printed : 16.02.2019 р.

Анотація мовою оригіналу

Автори пропонують актуальні системи розпізнавання мовців, де застосовується i-векторне/PLDA моделювання для опису фонограм, синтезують узагальнену PLDA модель із усередненими параметрами по всій базі фонограм без їх сегрегації за рівнем шумів. В результаті такі системи забезпечують прийнятний рівень надійності лише за наявності великої навчальної вибірки як за кількістю, так і за тривалістю фонограм. У роботі автори синтезували окремі PLDA моделі для опису фонограм із детермінованими рівнями відношення сигнал/шум (ВСШ), в результаті чого фактори, які характеризують індивідуальність мовців, зосереджено у найбільш мінливих областях і-векторного простору. Автори запропоновували використовувати нейромережу для прецизійного детектування діапазонів рівнів ВСШ вхідних фонограм із подальшим використанням одержаних даних при синтезі універсальних фонових моделей, які оптимально описують вплив сторонніх акустичних шумів у фонограмах, що дозволяє як підвищити якісні показники роботи автоматизованої системи розпізнавання мовців критичного застосування так і встановлювати факт непридатності для подальшої обробки запропонованої системі в якості вхідних даних фонограми, що також підвищує надійність роботи системи загалом.
Ключові слова: автоматизована система розпізнавання мовців критичного застосування, і-вектори, нейромережа, суміш PLDA

Розширена анотація англійською мовою

.Authors offer speaker recognition systems that use i-vector/PLDA modelling to describe phonograms synthesize a generalized PLDA model with averaged parameters throughout the phonogram database without their noise segregation. As a result, such systems provide an acceptable level of reliability only in the presence of a large training sample, both in quantity and duration of phonograms. The authors synthesized individual PLDA models for describing phonograms with deterministic levels of signal-to-noise ratio (SNR), resulting in factors that characterize the individuality of speakers, concentrated in the most volatile regions of the i-vector space. Authors proposed to use a neural network for precise detection of ranges of SNR levels of incoming phonograms with subsequent use of the data obtained in the synthesis of universal background models that optimally describe the influence of extraneous acoustic noises in phonograms, which allows not only to improve the performance of the automatic speaker recognition system of critical use, but also to establish the fact of unfitness for further processing of the input phonogram, which also increases the reliability of the system at all. The authors proposed an improved method for the adaptation of mixtures of PLDA-models to the presence of speech signals in phonograms, on which ACCRM performs voice recognition, dynamic level of VSS. The method based on the use of GNM for training UFM, namely, the GNM in the learning process changes the weight of interneuronal bonds to optimally determine the ranges of changes in the level of BCS in the i-vectors extracted from educational phonograms.
Keywords: automatic speaker recognition system of critical use, i-vectors, neural network, PLDA mixture.

References

  1. Kovtun V.V. Pidvyshchennia shumostiikosti avtomatyzovanoi systemy rozpiznavannia movtsia krytychnoho zastosuvannia / T.V. Hryshchuk, V.V. Kovtun // Visnyk Vinnytskoho politekhnichnoho instytutu. – 2018. – № 1. – S. 98–111.
  2. Reynolds D. A. Speaker verification using adapted Gaussian mixture models / D. A. Reynolds, T. F. Quatieri, R. B. Dunn // Digital Signal Processing. – 2000. – Vol. 10. – № 1. – R. 19–41.
  3. Shao Y. Robust speaker identification using auditory features and computational auditory scene analysis / Y. Shao, D. Wang // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). – 2008. – R. 1589–1592.
  4. Elder J.H. Probabilistic linear discriminant analysis for inferences about identity / S.J.D. Prince, J.H. Elder // ICCV. – 2007. – R. 1–8.
  5. Yaman S. Bottleneck features for speaker recognition / S. Yaman, J.W. Pelecanos, R. Sarikaya // Odyssey. – 2012. – Vol. 12. – R. 105–108.
  6. Ghahabi O. Deep belief networks for i-vector based speaker recognition / O. Ghahabi, J. Hernando // ICASSP. – 2014. – R. 1700–1704.
  7. Variani E. Deep neural networks for small footprint text-dependent speaker verification / E. Variani, X. Lei, E. McDermott, I. Lopez M., J. Gonzalez-Dominguez // ICASSP. – 2014. – R. 4052–4056.
  8. Zhao X.J. Deep neural networks for cochannel speaker identification / X.J. Zhao, Y.X. Wang, D.L. Wang / ICASSP. – 2015. – R. 4824–4828.
  9. Garcia-Romero D. Multicondition training of Gaussian PLDA models in i-vector space for noise and reverberation robust speaker recognition / D. Garcia-Romero, X. Zhou, C.Y. Espy-Wilson // ICASSP. – 2012. – R. 4257–4260.
  10. McLachlan G. Mixtures of factor analyzers / G. McLachlan, D. Peel // Finite Mixture Models. – 2000. – R. 238–256.
  11. Ghahramani Z. The EM algorithm for mixtures of factor analyzers / Z. Ghahramani, G.E. Hinton // Technical Report CRGTR-96-1, University of Toronto. – 1996.
  12. Garcia-Romero D. Analysis of i-vector length normalization in speaker recognition systems / D. Garcia-Romero, C.Y. Espy-Wilson // Interspeech. – 2011. – R. 249–252.
  13. Kovtun V.V. Optymizatsiia alfavitu informatyvnykh oznak dlia avtomatyzovanoi systemy rozpiznavannia movtsiv krytychnoho zastosuvannia / A.O. Bereza, M.M. Bykov, A.D. Hafurova, V.V. Kovtun // Herald of Khmelnytskyi National University. – 2017. – № 3(249). – S. 222–228.
  14. Kovtun V.V. Vykorystannia mnozhyny mikrofoniv u avtomatyzovanii systemi rozpiznavannia movtsia krytychnoho zastosuvannia / M.M. Bykov, V.V. Kovtun // Visnyk Vinnytskoho politekhnichnoho instytutu, Vinnytsia. – 2017. – № 3. – S. 84–91.
  15. Hatch A. Within-class covariance normalization for SVM-based speaker recognition / A. Hatch, S. Kajarekar, A. Stolcke // ISCSLP, Pittsburgh. – 2006. – R. 1471–1474.
  16. Bengio Y. Learning deep architectures for AI / Y. Bengio // Foundations and trends R in Machine Learning. – 2009. – Vol. 2. – № 1. – R. 1–127.

 

Post Author: npetliaks

Translate