Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ПОРІВНЯЛЬНИЙ АНАЛІЗ МЕТОДІВ ТЕМАТИЧНОГО МОДЕЛЮВАННЯ ДЛЯ АНАЛІЗУ ВІДГУКІВ В ІНТЕРНЕТ МАГАЗИНІ ЦИФРОВИХ ТОВАРІВ

COMPARATIVE ANALYSIS OF THEMATIC MODELING METHODS FOR ANALYSIS OF REVIEWS IN THE ONLINE STORE OF DIGITAL GOODS

Сторінки: 37-41. Номер: №2, 2022 (307)  
 Автори:
Бердник Д.
Національний університет “Львівська Політехніка”
ORCID ID: 0000-0002-8092-9228
e-mail: danylo.berdnyk.knm.2018@lpnu.ua
Бойчук А.
Національний університет “Львівська Політехніка”
ORCID ID: 0000-0002-0563-5748
e-mail: andrii.r.boichuk@lpnu.ua
BERDNYK D., BOICHUK A.
Lviv Polytechnic National University
  DOI: https://www.doi.org/10.31891/2307-5732-2022-307-2-37-41

Анотація мовою оригіналу

В цьому дослідженні проводиться порівняльний аналіз методів тематичного моделювання для використання на текстових документах взятих з відгуків до цифрових товарів у інтернет магазині. Тематичне моделювання – це техніка машинного навчання без спостерігача, яка дозволяє розкрити, дослідити та анотувати колекцію документів. Три з найбільш популярних моделей тематичного моделювання, які представлені у цій роботі, для дослідження документів є прихований семантичний аналіз LSA, ймовірнісний прихований семантичний аналіз PLSA та приховане розміщення Діріхле LDA. Порівняльний аналіз проводиться за допомогою таких числових метрик як когерентність та перплексія та метрики оцінки “на людське око” за допомогою візуалізації результатів за допомогою хмари слів для різних параметрів цих методів. На додачу було проведено порівняння методів за продуктивністю.
Ключові слова: тематичне моделювання, порівняльний аналіз, та приховане розміщення Діріхле, прихований семантичний аналіз, перплексія, когерентність

 Розширена анотація англійською  мовою

Nowadays, people often use online services for their daily tasks. The Internet has increased the demand for applications and services to provide a better customer experience. However, nowadays the Internet is full of information that can make it difficult to understand customer needs and confuse users when searching for the information they need. Therefore, there is a need to use effective methods and tools that can help in identifying and analyzing information from a large number of sources stored as online text. For such tasks, it is convenient to use natural language processing – an industry that combines the capabilities of computational linguistics, computer science and artificial intelligence to allow computer to understand and analyze meaning of human speech. One of the fundamental tasks of natural language processing is the definition of keywords. Identified keywords are used to determine the needs of users of the product when it comes to analyzing product reviews, and quickly find information about the product by the average user. Topic modeling methods are often used to determine keywords in the text
This study provides a comparative analysis of topic modeling methods for use in text documents taken from reviews of digital products in the online store. Topic modeling is an unsupervised machine learning technique that allows you to analyse collection of documents and divide them into different topics. Three of the most popular topic modeling methods presented in this paper for document research are latent semantic analysis LSA, probabilistic latent semantic analysis PLSA, and latent Dirichlet allocation LDA.  Comparative analysis is performed using numerical metrics such as coherence, perplexity and “human eye” evaluation metrics using word cloud visualization of results for different parameters of these methods. In addition, a comparison of performance methods was performed.
Keywords:  topic modelling, comparative analysis, latent semantic analysis, latent Dirichlet allocation, coherence, perplexity

References

  1. Blei D. M. Latent dirichlet allocation / D. M. Blei, A. Y. Ng, M. I. Jordan // Journal of Machine Learning Research. — 2003. — Vol. 3, No. Jan. — P. 993–1022.
  2. Hofmann T. Probabilistic latent semantic analysis / T. Hofmann // arXiv:1301.6705 [cs, stat]. — 2013.
  3. Bindra A. SocialLDA:scalable topic modeling in social networks / A. Bindra // P. 58.
  4. Landauer T. K. An introduction to latent semantic analysis / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. — 1998. — Vol. 25, No. 2–3. — P. 259–284.

Post Author: Горященко Сергій

Translate