Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016


МУЛЬТИМОДАЛЬНЕ РОЗПІЗНАВАННЯ МОВЛЕННЯ НА ОСНОВІ ЗВУКОВИХ І ТЕКСТОВИХ ДАНИХ
MULTIMODAL SPEECH RECOGNITION BASED ON AUDIO AND TEXT DATA

Сторінки: 22-25. Номер: №5, 2022 (313)  
DOI: https://www.doi.org/10.31891/2307-5732-2022-313-5-22-25
Автори: БАСИСТЮК Олег
Національний університет «Львівська політехніка»
https://orcid.org/0000-0003-0064-6584
e-mail: oleh.a.basystiuk@lpnu.com
МЕЛЬНИКОВА Наталія
Національний університет «Львівська політехніка»
https://orcid.org/0000-0002-2114-3436
e-mail: nataliia.i.melnykova@lpnu.ua
BASYSTIUK Oleh, MELNYKOVA Nataliia
Lviv Polytechnic National University

Анотація мовою оригіналу

Глибоке навчання повністю змінило підхід до машинного перекладу. Дослідники в галузі глибокого навчання створили прості рішення на основі машинного навчання, які перевершують найкращі експертні системи. У цій роботі розглянуто основні особливості машинного перекладу на основі рекурентних нейронних мереж. У статті також висвітлено переваги систем на основі RNN, що використовують модель послідовності до послідовності, порівняно зі статистичними системами трансляції. Дві системи машинного перекладу, засновані на моделі послідовності до послідовності, були створені з використанням бібліотек машинного навчання Keras і PyTorch. На основі отриманих результатів проведено аналіз бібліотек та порівняння їх продуктивності.
Ключові слова: машинний переклад, глибоке навчання, рекурентні нейронні мережі, продуктивність, keras, pytorch, sequence-to-sequence.

Розширена анотація англійською  мовою

Systems of machine translation of texts from one language to another simulate the work of a human translator. Their performance depends on the ability to understand the grammar rules of the language. In translation, the basic units are not individual words, but word combinations or phraseological units that express different concepts. Only by using them, more complex ideas can be expressed through the translated text.
The main feature of machine translation is different length for input and output. The ability to work with different lengths of input and output provides us with the approach of recurrent neural networks.
A recurrent neural network (RNN) is a class of artificial neural network that has connections between nodes. In this case, a connection refers to a connection from a more distant node to a less distant node. The presence of connections allows the RNN to remember and reproduce the entire sequence of reactions to one stimulus. From the point of view of programming, such networks are analogous to cyclic execution, and from the point of view of the system, such networks are equivalent to a state machine. RNNs are commonly used to process word sequences in natural language processing. Usually, a hidden Markov model (HMM) and an N-program language model are used to process a sequence of words.
Deep learning has completely changed the approach to machine translation. Researchers in the deep learning field has created simple solutions based on machine learning that outperform the best expert systems. In this paper was reviewed the main features of machine translation based on recurrent neural networks. The advantages of systems based on RNN using the sequence-to-sequence model against statistical translation systems are also highlighted in the article. Two machine translation systems based on the sequence-to-sequence model were constructed using Keras and PyTorch machine learning libraries. Based on the obtained results, libraries analysis was done, and their performance comparison.
Keywords: machine translation, deep learning, recurrent neural networks, performance, keras, pytorch, sequence-to-sequence.

References

  1. Yu D., Deng L. Automatic Speech Recognition: A Deep Learning Approach. Springer-Verlag Longon, 2015. DOI: 10.1007/978-1-4471-5779-3.
  2. Dey N. Intelligent Speech Signal Processing Academic Press, 2019. DOI: 10.1016/C2018-0-03271-5.
  3. Shakhovska N., Basystiuk O., Shakhovska K. Development of the speech-to-text chatbot interface based on Google API. In: CEUR Workshop Proceedings, 2019, vol. 2386, pp. 212–221.
  4. Melnykova N. Semantic search personalized data as special method of processing medical information. Advances in Intelligent Systems and Computing, 2017: 315-325.
  5. Basystiuk O., Shakhovska N., Bilynska V., Syvokon O., Shamuratov O., Kuchkovskiy V. The Developing of the System for Autimatic Audio to Text Conversion. IT&AS’2021: Symposium on Information Technologies & Applied Sciences, March 5–6, 2021, Bratislava, Slovak Republic.
  6. Buss E., Leibold L. J., Porter H. L., Grose J. H. Speech recognition in one- and two-talker maskers in school-age children and adults: Development of perceptual masking and glimpsing. The Journal of the Acoustical Society of America, 2017. DOI: 10.1121/1.4979936.
  7. Nataliya Boyko, Lesya Mochurad, Uliana Parpan, Oleh Basystiuk. Usage of Machine-based Translation Methods for Analyzing Open Data in Legal Cases. In: Proc. of the Intl Workshop on Cyber Hygiene (CybHyg-2019) co-located with 1st International Conference on Cyber Hygiene and Conflict Management in Global Information Networks (CyberConf, 2019), Kyiv, Ukraine, November 30, 2019, pp. 328–338. CEUR-WS.org, online CEUR-WS.org/Vol-2654/paper26.pdf.
  8. Melnykova N., Shakhovska N., Gregušml M., & Melnykov V. (2019). Using big data for formalization the patient’s personalized data. Paper presented at the Procedia Computer Science, 155 624-629.
  9. Zoryana Rybchak, Oleh Basystiuk. (2017). Analysis of methods and means of text mining. ECONTECHMOD. AN INTERNATIONAL QUARTERLY JOURNAL, 6(2), 73-78.
  10. GitHub Repository “Speech recognition algorithms”. https://github.com/obasys/speech-recognition-algorithms. (accessed Aug. 15, 2022)

Post Author: Горященко Сергій

Translate