Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ОЦІНКА АДЕКВАТНОСТІ КОНТЕНТУ ЗА КОНТЕКСТОМ МЕТОДАМИ АНСАМБЛІВ МОДЕЛЕЙ BERT

ASSESSMENT OF ADEQUACY OF CONTENT BY CONTEXT USING BERT MODEL ENSEMBLE METHODS

Сторінки: 118-122. Номер: №4, 2023 (323) 
Автори:
ДУПЛЯК СТЕПАН.
Національний університет «Львівська політехніка»
ORCID: 0000-0002-9240-404X
e-mail: stepan.dupliak.knm.2019@lpnu.ua
ШАХОВСЬКА НАТАЛІЯ.
Національний університет «Львівська політехніка»
ORCID: 0000-0002-6875-8534
e-mail: Nataliya.b.shakhovska@lpnu.ua
DUPLIAK STEPAN, SHAKHOVSKA NATALIA
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-323-4-118-122

Анотація мовою оригіналу

Розроблений у роботі ансамбль моделей машинного навчання для аналізу емоційності новин натренований на різних контекстах та незалежних наборах даних. Здійснено голосування по кожній моделі з ансамблю за особистий варіант правди згідно з локальним контекстом тієї моделі. Розроблено бінарний класифікатор адекватності/нормальності повідомлень на базі технології ансамблів. Можна спостерігати вибраний нами набір методів, які є оптимальними за параметрами часу виконання, часу тренування, обсягом оперативної пам’яті та відповідно точністю. Зокрема це такі методи, як Catboost XGBoost для класифікації та екстракції особливостей та контексту було обрано BERT та його підвид RoBERTa. Аналіз результатів показав, що точність алгоритму коливається від 80% до 85 % в ансамблі та від 65% до 93% окремими методами за окремими наборами даних.
Ключові слова: нейронні мережі, BERT, RoBERTa, Catboost, XGBoost.

Розширена анотація англійською  мовою

Over the past 20 years, text has dominated the Internet as a means of communicating information. Every day, new people are born and every day, new people sign up for social media. Due to lack of education and attention, people use social media to express their thoughts and virtualize themselves, sometimes forgetting that there is another person on the other side of the monitor. Such processes in human life lead to the reckless or sometimes intentional generation of content that may violate the rules of the communities where this content is produced. One of the primitive and non-scalable examples of dealing with the problem of uncontrolled generation of social content is physical moderation. This method makes sense in private, closed channels of communication with the audience, where the bandwidth of a person as a moderator is sufficient to effectively control the information space. Despite the reliability of humans in terms of information and moderation, humans are lifelong learners, and they are what they read or see. Therefore, there is a possibility that human moderation is biased from the point of view of all people who are in the same information space. The topic of assessing the adequacy and ethics of a text is gaining popularity even as the amount of information generated in social networks increases. The problem is that modern methods of text evaluation are not able to work with differently contextualized data, i.e. a model trained on one data set is tied to the context of the data environment in which this set was collected. The method developed in this paper allows a model to be trained on different contexts and independent datasets, and to directly vote each model in the ensemble for its own version of the truth according to the local context of that model. We will develop a binary message adequacy/normality classifier based on ensemble technology. You can observe the set of methods I have chosen that are
optimal in terms of execution time, training time, RAM, and, accordingly, accuracy. In particular, these are methods such as Catboost XGBoost for classification and extraction of features and context, BERT and its sub-type RoBERTa were chosen. I will conduct a corresponding analysis and experiment on these methods to verify that this method is really effective.
Keywords: neural networks, BERT, RoBERTa, Catboost, XGBoost

Post Author: Горященко Сергій

Translate