METHODS OF CLASSIFICATION OF MACHINE LEARNING FOR CONSTRUCTION OF MATHEMATICAL MODELS ON MULTIMODAL DATA
МЕТОДИ КЛАСИФІКАЦІЇ МАШИННОГО НАВЧАННЯ ДЛЯ ПОБУДОВИ МАТЕМАТИЧНИХ МОДЕЛЕЙ НА МУЛЬТИМОДАЛЬНИХ ДАНИХ
Сторінки: 25-32. Номер: №2, 2022 (307)
Автори:
BOYKO N.І.
Lviv Polytechnic National University
ORCID ID: 0000-0002-6962-9363
e-mail: Nataliya.i.boyko@lpnu.ua
PETROVSKYI O.S.
Lviv Polytechnic National University
ORCID ID: 0000-0002-5729-544X
e-mail: oleksandr.petrovskyi.knm.2018@lpnu.ua
Бойко Н.І., Петровський О.С.
Національний університет “Львівська політехніка”
DOI: https://www.doi.org/10.31891/2307-5732-2022-307-2-25-32
Анотація мовою оригіналу
This article is dedicated to topic modeling as an unsupervised machine learning technique. It is analyzed how it seems possible to determine the topics of documents in order to categorize them further with the help of topic modeling methods. Such methods as latent semantic analysis, probabilistic latent semantic analysis and latent Dirichlet allocation are considered. An approach that allows the construction of effective topic models of text document collections in Ukrainian and other synthetic languages based on peculiarities of this linguistic language type is proposed, and its main stages are described. The proposed approach consists of a custom input data preprocessing pipeline, which covers file loading, text extraction, removal of improper symbols, tokenization, removal of stop-words, stemming of each token and a newly introduced model pruning stage, which makes any of the modern topic modeling methods applicable for synthetic language topic modeling. The approach was implemented in Python programming language and used to obtain the topic model of the collection of Ukrainian-language scientific publications on civic identity and related topics. An expert in political psychology, who studies the phenomenon of civic identity, was involved in the research for the topic model quality evaluation. As a result of expert evaluation of the topics singled out during the modeling, it was proposed to clarify the formulation of cluster names based on the semantics of the sets of words that form them. In general, according to the expert, the topics singled out represent the concept of the civic identity of an individual and will allow researchers to simplify the work with literature sources on this issue when used to categorize documents. This demonstrates the efficiency of the proposed approach.
Keywords: topic modeling, natural language processing, text preprocessing, latent Dirichlet allocation, latent semantic analysis, pachinko allocation, synthetic language.
Розширена анотація
Стаття присвячена тематичному моделюванню як техніці машинного навчання без вчителя. Аналізується можливість визначення тем текстових документів методами тематичного моделювання з метою їх подальшої категоризації. Розглядаються такі методи, як латентно-семантичний аналіз, ймовірнісний латентно-семантичний аналіз та латентне розміщення Діріхле. Запропоновано підхід, який робить можливим ефективну побудову тематичних моделей колекцій текстових документів українською та іншими синтетичними мовами, заснований на особливостях мов цього лінгвістичного типу, та описано його головні етапи. Авторський підхід полягає у особливому конвеєрі попередньої обробки вхідних даних, що охоплює завантаження файлів, видобування тексту, видалення зайвих символів, токенізацію, видалення стоп-слів, стеммінг кожного токену, і нововведений етап прунінгу, що разом дозволяє застосовувати будь-які сучасні методи тематичного моделювання для колекцій документів синтетичними мовами. Описаний підхід був реалізований мовою Python і використаний для побудови тематичної моделі колекції україномовних наукових публікацій з проблематики громадянської ідентичності та суміжних тем. Експерт з політичної психології, який вивчає феномен громадянської ідентичності, був залучений до дослідження за темою оцінки якості моделі. У результаті експертної оцінки виділених під час побудови моделі тем було запропоновано уточнити формулювання назв кластерів на основі семантики наборів слів, що їх утворюють. Загалом, на думку експерта, виділені теми відображають поняття громадянської ідентичності особистості та дозволять дослідникам спростити роботу з літературними джерелами з цього питання при категоризації документів. Це свідчить про ефективність запропонованого підходу.
Ключові слова: тематичне моделювання, обробка природніх мов, попередня обробка тексту, латентне розміщення Діріхле, латентно-семантичний аналіз, розміщення пачінко, синтетична мова.
References
- Tkalenko O. Intelligent technologies and artificial intelligence systems to support decision making / O. Tkalenko, A. Makarenko, O. Polonevych // Telecommunication and information technologies. – 2019. – Vol. 2. – P. 53–59.
- Daud A. Knowledge discovery through directed probabilistic topic models: a survey / A. Daud, J. Li, L. Zhou, et al. // Front. Comput. Sci. China. – 2010. – Vol. 4. – 280–301.
- Vorontsov K. Probabilistic topic modeling. – 2013. URL:machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
- Jain A. Data Clustering: A Review / A. Jain, M. Murty, P. Flynn // ACM Computing Surveys. – 1999. – Vol. 31, No. 3. – P. 264–323.
- Vorontsov K. Regularization, robustness and sparsity of probabilistic topic models / K. Vorontsov, A. Potapenko // Computer Research and Modeling. – 2012. – Vol. 4, No. 4. – P. 693–706.
- Argyrou A. Topic modelling on Instagram hashtags: An alternative way to Automatic Image Annotation? / A. Argyrou, S. Giannoulakis, N. Tsapatsoulis. – URL: https://ieeexplore.ieee.org/abstract/document/8501887.
- Kirill Y. Propaganda Identification Using Topic Modelling / Y. Kirill, I. Mihail, M. Sanzhar, M. Rustam, F. Olga, M. Ravil // Procedia Computer Science. – 2020. – Vol. 178. – P. 205–212.
- Huang T. Automatic meeting summarization and topic detection system / T. Huang, C. Hsieh, H. Wang // Data Technologies and Applications. – 2018. – Vol. 52, No. 3. – P.351–365.
- Venkatesh A. On Evaluating and Comparing Open Domain Dialog Systems / A.Venkatesh, C. Khatri, A. Ram, F. Guo, F., et al. – 2018. URL: https://arxiv.org/pdf/1801.03625.pdf
- Ma J. A Message Topic Model for Multi-Grain SMS Spam Filtering. / J. Ma, Y. Zhang, Z. Wang, K. Yu // International Journal of Technology and Human Interaction. – 2016. – Vol. 12, No. 2. – P. 83–95.
- Spina D. Learning similarity functions for topic detection in online reputation monitoring / D. Spina, J. Gonzalo, E. Amigó // Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval. – 2014. URL: https://dl.acm.org/doi/10.1145/2600428.2609621
- Tutubalina E. Exploring convolutional neural networks and topic models for user profiling from drug reviews / E. Tutubalina, S. Nikolenko // Multimedia Tools and Applications. – 2017. https://doi.org/10.1007/s11042-017-5336-z
- Peters N. Task Boundary Inference via Topic Modeling to Predict Interruption Timings for Human-Machine Teaming / N. Peters, G. Bradley, T. Marshall-Bradley // Advances in Intelligent Systems and Computing. – 2019. – P. 783–788.
- Schneider N. Chemical Topic Modeling: Exploring Molecular Data Sets Using a Common Text-Mining Approach / N. Schneider, N. Fechner, G. Landrum, N. Stiefl // Journal of Chemical Information and Modeling. – 2017. – Vol. 57, No. 8. – P. 1816–1831.
- Asmussen C. Smart literature review: a practical topic modelling approach to exploratory literature review / C. Asmussen, C. Møller // Journal of Big Data. – 2019. – Vol. 6, No. 1. https://doi.org/10.1186/s40537-019-0255-7
- Hofmann Probabilistic Latent Semantic Analysis / T. Hofmann. – 1992. URL: https://www.iro.umontreal.ca/~nie/IFT6255/Hofmann-UAI99.pdf
- Blei D. Latent Dirichlet Allocation / D. Blei, M. Jordan // Journal of Machine Learning Research. – 2003. – Vol. 3. – P. 993–1022.
- Günther E. Word Counts and Topic Models / E. Günther, T. Quandt // Digital Journalism. – 2016. – Vol. 4, No. 1. – P. 75–88.
- Blei D. Correlated topic models / D. Blei, J. Lafferty //Advances in neural information processing systems. – 2006. – Vol. 18. URL: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.958.2484&rep=rep1&type=pdf
- Li W. Nonparametric Bayes Pachinko Allocation / W. Li, D. Blei, A. McCallum. – 2007. URL: https://arxiv.org/ftp/arxiv/papers/1206/1206.5270.pdf
- Petrovska I. Psychological Model of Civic Identity Formation / I. Petrovska // Journal of Education Culture and Society. – 2021. – Vol. 12, No. 2. – P. 167–178.
- Petrovska I. Civic identity development: ontogenetic aspect / I. Petrovska // Social Welfare: Interdisciplinary Approach. – 2019. – Vol. 9, No. 2. – P. 29–43.