Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ТЕХНОЛОГІЯ АУДІОГЕНЕРАЦІЇ СИСТЕМИ СИНТЕЗУ ТА АНАЛІЗУ МУЗИЧНИХ КОМПОЗИЦІЙ

AUDIO GENERATION TECHNOLOGY OF A SYSTEM OF SYNTHESIS AND ANALYSIS OF MUSIC COMPOSITIONS

Сторінки: 64-67. Номер: №1, 2022 (305
 Автори:
ВОЙТКО В. В.
https://orcid.org/0000-0002-3329-7256
e-mail: defakfki@i.ua
БЕВЗ С. В.
https://orcid.org/0000-0001-5561-9036
e-mail: bevz@vntu.edu.ua
БУРБЕЛО С. М.
https://orcid.org/0000-0002-8554-2292
e-mail: burbelo@vntu.edu.ua
СТАВИЦЬКИЙ П. В.
https://orcid.org/0000-0002-9139-6076
e-mail: morfly3000@gmail.com
Вінницький національний технічний універсистет
Viktoriia VOITKO, Svitlana BEVZ, Sergii BURBELO, Pavlo STAVYTSKYI
Vinnytsia National Technical University
DOI: https://www.doi.org/10.31891/2307-5732-2022-305-1-64-67

Анотація мовою оригіналу

Розглянуто технологію та способи аудіогенерації в системі синтезу та аналізу музичних композицій. Серед них є функціонал награвання музичних композицій за допомогою голосу. Крім того, вхідні дані можуть бути використані як шаблон, на основі якого буде згенеровано подібну музичну композицію. Редагування відбувається за допомогою використання двовимірної площини, що визначає залежність висоти ноти від часу і має вигляд секвенсера. Для реалізації аудіосинтезу на основі шаблону використовується архітектура глибинного навчання з варіаційним аудіокодувальником, що дозволяє тренувати нейронну мережу й відтворювати дані, схожі до вхідних. Під час використання такого підходу важливим кроком є перетворення вхідних даних, які подані у вигляді необробленого аудіоформату, в спектрограму, що є зображенням, на основі якого відбувається процес тренування нейронної мережі та аудіогенерація. В результаті операцій створення музичних композицій користувач додатково може використовувати режим ручного редагування для отримання бажаної вихідної музичної композиції.
Ключові слова: аудіосинтез, спектрограма, варіаційний аудіокодувальник.

Розширена анотація англійською  мовою

System of audio synthesis and analysis of music compositions is considered. It consists of two primary parts, the audio analysis component, and the music synthesis component. An audio generation component implements various ways of creating audio sequences. One of them is aimed to record melodies played with voice and transform them into sequences played with selected musical instruments. In addition, an audio input created with a human voice can be utilized as a seed, that is used to generate similar music sequences using artificial intelligence. Finally, a manual approach for music generation and editing is available. After automatic mechanisms for composition generation are used, the results of their work are presented on a two-dimensional plane which represents the dependence of music note pitches on time. It is possible to manually adjust the result of audio generation or create new music sequences with this approach. A creation process could be used iteratively to create multiple parallel music sequences that are to be played as a single audio composition. To implement a seed-based audio synthesis, a deep learning architecture based on a variational autoencoder is used to train a neural network that can reproduce input-like data. When using such an approach an additional important step must be considered. All the input data must be converted from a raw audio format to spectrograms which are represented as grayscale images. Moreover, the result of a sound generation is also represented in a spectrogram and therefore, must be converted back to an output audio format that can be played using speakers. This is required as using spectrograms helps to discard redundant data that raw audio format contains and thus significantly reduces resources consumption and increases overall synthesis speed.
Keywords: audio synthesis, spectrogram, variational audio encoder.

Література

 Van Den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A.W. and Kavukcuoglu, K., 2016. WaveNet: A generative model for raw audio. SSW, 125, p.2.

  1. Dhariwal, P., Jun, H., Payne, C., Kim, J.W., Radford, A. and Sutskever, I., 2020. Jukebox: A generative model for music. arXiv preprint arXiv:2005.00341.
  2. Nistal, Javier, Stefan Lattner, and Gael Richard. “DrumGAN: Synthesis of drum sounds with timbral feature conditioning using Generative Adversarial Networks.” arXiv preprint arXiv:2008.12073 (2020).
  3. Viktoriia V. Voitko, Svitlana V. Bevz, Sergii M. Burbelo, Pavlo V. Stavytskyi, Bogdan Pinaiev, Zbigniew Omiotek, Doszhon Baitussupov, and Aigul Bazarbayeva “Automated system of audio components analysis and synthesis”, Proc. SPIE 11045, Optical Fibers and Their Applications 2018, 110450V (15 March 2019); https://doi.org/10.1117/12.2522313
  4. Viktoriia V. Voitko, Svitlana V. Bevz, Sergii M. Burbelo, Pavlo V. Stavytskyi, Oleksandr M. Khoshaba, Natalia O. Rysynets, Olena Yu. Teplova, Andrzej Smolarz, Saule Smailova, Assel Mussabekova, and Bakhyt Yeraliyeva “Analysis of the development approaches of the system of audio synthesis and recognition with the option of using photonic processors”, Proc. SPIE 12040, Photonics Applications in Astronomy, Communications, Industry, and High Energy Physics Experiments 2021, 120400N (3 November 2021); https://doi.org/10.1117/12.2611464
  5. Foster, David. Generative deep learning: teaching machines to paint, write, compose, and play. Sebastopol, CA: O’Reilly Media, 2019. Print.

 

Post Author: Горященко Сергій

Translate