МЕТОД АВТОМАТИЗОВАНОГО ВИЯВЛЕННЯ ТЕРМІНІВ СТАТЕЙ ЗА ДОПОМОГОЮ ДЕРЕВА ДЛЯ ПРИЙНЯТТЯ РІШЕНЬ
METHOD OF AUTOMATED DETECTION OF ARTICLE TERMS USING A DECISION TREE
Сторінки: 338-343. Номер: №2, 2023 (319)
Автори:
СИНЬКО АННА
Національний університет «Львівська політехніка»
https://orcid.org/0000-0002-8355-461X
e-mail: anna.i.synko@lpnu.ua
ЖЕЖНИЧ ПАВЛО
Національний університет «Львівська політехніка»
https://orcid.org/0000-0002-2044-5408
e-mail: pavlo.i.zhezhnych@lpnu.ua
SYNKO ANNA, ZHEZHNYCH PAVLO
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-319-1-338-343
Анотація мовою оригіналу
З кожним днем все більше зростає кількість користувачів віртуальних спільнот, а отже і даних, що виникають під час комунікації між ними. Розміщені дані можуть містити цінне інформаційне наповнення, адже містять не тільки думку виробника, але і споживацький досвід про певний продукт. Але через те, що віртуальні спільноти мають слабку структурованість щодо подачі інформації, є більш орієнтовані на розважальний контент – можуть містити дані, які не несуть смислового навантаження, а також при розміщенні даних не всі користувачі передбачають техніки, що допоможуть збільшити релевантність пошуку цих даних. Тому пошук цільових даних потребує значних часових витрат. Для покращення пошуку даних у статі запропоновано метод, що дозволяє проаналізувати зміст розміщених дописів та виявити ключові слова з певної предметної області. Даний метод є автоматизованим та працює на основі попередньо розробленого словнику ключових фраз або регулярних виразів з ваговими коефіцієнтами приналежності до того чи іншого терміну. В результаті чого для кожного терміну будується дерево прийняття рішень, що визначає вагу терміну до змісту допису, статті. В роботі представлено обчислення ваги для одного терміну з частини допису спільноти CodeProject.
Ключові слова: віртуальна спільнота, дерево прийняття рішень, ІТ-галузь, обробка великих даних, аналіз вмісту дописів.
Розширена анотація англійською мовою
Every day, the number of users of virtual communities is increasing, and therefore the data that occurs during communication between them. The posted data can contain valuable information because they contain not only the manufacturer’s opinion, but also consumer experience about a certain product. But, due to the fact that virtual communities have a weak structure in terms of providing information, they are more focused on entertaining content – they may contain data that do not carry a meaningful load, and also, when placing data, not all users foresee techniques that will help increase the relevance of the search for this data. Therefore, the search for target data requires significant time costs. To improve the search for data in the article, a method is proposed that allows you to analyze the content of posted posts and identify keywords from a certain subject area. This method is automated and works on the basis of a previously developed dictionary of key phrases or regular expressions with weighting coefficients of belonging to one or another term. As a result, a decision-making tree is built for each term, which determines the weight of the term to the content of the post, article.
At the same time, the level of location of the post in the discussion is taken into account, because the discussion contains a set of chronologically ordered posts. Posts placed at higher levels have a higher coefficient in the calculation. While posts are placed at lower levels – lower weighting factors. Identified key phrases before the specified term are ordered in descending order of weight. At each level of the tree, the total weight of key phrases must be equal to one. To process the data from the virtual communities, they were downloaded using the data consolidation technique. As a result, the concept of consolidated data storage was introduced, which allows collecting data from disparate sources. The paper presents the weight calculation for one term from part of the CodeProject community post.
Keywords: virtual community, decision tree, IT industry, big data processing, analysis of the content of posts.