Архітектура системи машинного навчання для створення паралельних двомовних корпусів текстів – Вісник Хмельницького національного університету

АРХІТЕКТУРА СИСТЕМИ МАШИННОГО НАВЧАННЯ ДЛЯ СТВОРЕННЯ ПАРАЛЕЛЬНИХ ДВОМОВНИХ КОРПУСІВ ТЕКСТІВ

ARCHITECTURE OF A MACHINE LEARNING SYSTEM FOR TEXT ALIGNMENT

Сторінки: 314-319. Номер: №3, 2023 (321)
Автори:
ФАНТ М. О.
Державний університет «Житомирська політехніка»
ORCID ID: 0000-0002-4994-8009
e-mail: fantkolja@gmail.com
FANT MYKOLA O.
State University «Zhytomyrska Politekhnika»
DOI: https://www.doi.org/10.31891/2307-5732-2023-321-3-314-319

Анотація мовою оригіналу

Паралельні двомовні корпуси текстів – одна з основних частин будь-якого інструменту автоматизованого перекладу (CAT), а також важливі для інших завдань, пов’язаних із будь-яким типом перетворення тексту з однієї мови на іншу. У цій статті пропонується унікальна архітектура сервісу вирівнювання тексту, який базується на технологіях машинного навчання. Запропонована архітектура враховує новітні підходи до побудови систем мікросервісів, беручи до уваги легке розгортання і обслуговування таких систем. У статті детально розглядаються вимоги до системи створення паралельних корпусів текстів як вирішальної передумови розробки архітектури. Встановлені вимоги враховують обидві сторони системи: систему як застосунок машинного навчання та систему як CAT-сервіс. Запропонована архітектура дає можливість побудувати універсальну систему з декількома точками входу для кінцевих споживачів, системних адміністраторів і дата-інженерів. Вона також дозволяє різні варіанти використання системи: із власних користувацьких інтерфейсів або за допомогою викликів REST API зі стороннього сервера. Система містить три різні користувацькі інтерфейси, призначені для звичайних користувачів, системних адміністраторів, а також дата-інженерів. Такий гетерогенний підхід UX має вирішальне значення для безпечного, але гнучкого обслуговування системи. Система, побудована на запропонованій архітектурі, може охоплювати різні користувацькі сценарії: використовувати загальну модель для прогнозування власних двомовних текстових корпусів клієнтів, навчати власну модель або просто використовувати сервіс як сховище вирівняних двомовних текстів. Щоб досягти такої універсальності використання, велика увага приділяється підтримці керування версіями моделі, оскільки система повинна керувати різними паралельними версіями моделей прогнозування. Сервіс планується як система мікросервісної архітектури з оркестратором як центральним компонентом. Важливою частиною системи є служба моніторингу, яка буде оцінювати ефективність моделей, а також отримувати відгуки користувачів на основі дій користувачів після прогнозування моделі. У статті пропонується стек технологій, необхідний для легкої та безпечної розробки, розгортання та доставки продукту з нульовим часом простою за допомогою синьо-зеленої моделі розгортання.
Ключові слова: машинне навчання, модель, архітектура, двомовний корпус, інструмент САТ.

Розширена анотація англійською мовою

The text alignment service is one of the essential parts of any Computer Aided Translation (CAT) tools and also important for other tasks, related to any kind of text transformation from one language to another. This article proposes a unique architecture of a text alignment service, which is based on machine learning technologies. The suggested architecture considers the newest approaches to constructing micro-services systems considering both easy deployment and maintenance of such systems. The article elaborates on requirements for the text alignment system as a crucial precondition of developing the architecture. The established requirements take into account both sides of the system: the system as a machine learning application and the system as a CAT service. The suggested architecture gives the possibility to build a universal system with several entry points for end customers, system administrators, and data scientists. It also preserves different options of the system usage: e.g. from the own user interfaces or with REST API calls from a third-party server. The system contains three different user interfaces designed for ordinary users, system administrators as well as data-scientists. That heterogenous UX approach is crucial for secure yet flexible system maintenance. The service built on the proposed architecture will be able to cover different user scenarios: using a general model for predicting customers’ own bilingual text corpora, training their own model, or just using the service as a storage of aligned bilingual texts. To achieve such usage universality a great emphasis is given to model versioning support since the system should manage different parallel versions of the predicting models. The system is planned as a microservice architecture system with an orchestrator as its central component. An important part of the system is the monitoring service which will estimate the efficiency of trained models as well as get user feedback based on user actions after model predictions. The article suggests the technology stack needed for easy and secure development, deployment, and delivery of the product with zero downtime using the blue-green model of the deployment.
Keywords: machine learning, model, architecture, text alignment, CAT-tool.

Post Author: Горященко Сергій