ОЦІНКА ЕФЕКТИВНОСТІ РЕКУРСИВНОГО ПРОЦЕСУ РОЗПОДІЛУ НАБОРУ ДАНИХ З ВИКОРИСТАННЯМ АЛГОРИТМУ CART
EVALUATION OF THE EFFICIENCY OF THE RECURSIVE DATA SET DISTRIBUTION PROCESS USING THE CART ALGORITHM
Сторінки: 25-35. Номер: №4, 2023 (323)
Автори:
БОЙКО Н. І.
Національний університет «Львівська політехніка»
ORCID ID: 0000-0002-6962-9363
e-mail: Nataliya.i.boyko@lpnu.ua
МИХАЙЛИШИН В. Ю.
Національний університет «Львівська політехніка»
ORCID ID: 0000-0003-1889-9053
e-mail: vladyslavmykhailyshyn@gmail.com
BOYKO NATALIYA I.
Lviv Polytechnic National University
MYKHAILYSHYN VLADYSLAV YU.
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-323-4-25-35
Анотація мовою оригіналу
В роботі наведено результати досліджень та порівняння результатів зарубіжних і вітчизняних праць, які показали високу ефективність моделі CART у прогнозуванні ефективності рекламних кампаній, що збігається з висновками інших дослідників. Наведене порівняння, що дозволяє підтвердити переваги і стабільність алгоритму у контексті оцінки рекламних кампаній. Наведено алгоритм збору, обробки та аналізу даних для застосування методу CART. Розглянуто процес ділення вузлів, який здійснюється до досягнення заданої кількості вузлів або до досягнення певного рівня глибини дерева. Наведена оціночна функція, що використовується для ділення вузлів та базується на Gini-індексі, який оцінює нечистоту у вузлі. Чим менше нечистота вузла, тим більше вважається його вагомим для подальшого ділення. Розроблено модель оцінки ефективності рекламних кампаній використовуючи алгоритм CART. Наводиться методика перевірки точності розробленої моделі. Порівнюються результати роботи моделі з реальними даними. Новизною дослідження є використання алгоритму CART для оцінки ефективності рекламних кампаній. Аналізується метод, який дозволяє швидко та точно аналізувати великі обсяги даних та визначати найважливіші чинники, які впливають на ефективність рекламних кампаній. Обґрунтовується практичне значення дослідження, яке полягає в тому, що розроблений алгоритм дозволяє раціонально використовувати бюджет на маркетингові заходи та оптимізувати рекламні кампанії з метою досягнення найкращих результатів.
Ключові слова: алгоритм, Classification and Regression Tree, Gini-індекс, Receiver Operating Characteristic, Area Under the Curve.
Розширена анотація англійською мовою
The paper presents the results of research and a comparison of the results of foreign and domestic works, which showed the high efficiency of the CART model in predicting the effectiveness of advertising campaigns, which coincides with the conclusions of other researchers. The given comparison allows to confirm the advantages and stability of the algorithm in the context of evaluating advertising campaigns. The algorithm of data collection, processing and analysis for the application of the CART method is given. The process of dividing nodes, which is carried out before reaching a given number of nodes or until reaching a certain level of tree depth, is considered. The evaluation function used for node division and based on the Gini-index, which estimates the impurity in the node, is given. The lower the impurity of the node, the more it is considered important for further division. A model for evaluating the effectiveness of advertising campaigns using the CART algorithm has been developed. The method of checking the accuracy of the developed model is given. The results of the model are compared with real data. The use of GridSearchCV to perform searches in the depth range from 1 to 10 is analyzed. The F1 score is given as an evaluation metric. The cv parameter in question specifies the number of convolutions to use in the cross-validation process. The novelty of the study is the use of the CART algorithm to evaluate the effectiveness of advertising campaigns. A method is analyzed that allows you to quickly and accurately analyze large volumes of data and determine the most important factors that affect the effectiveness of advertising campaigns. The practical value of the research is substantiated, which is that the developed algorithm allows rational use of the budget for marketing activities and optimization of advertising campaigns in order to achieve the best results.
Keywords: algorithm, Classification and Regression Tree, Gini index, Receiver Operating Characteristic, Area Under the Curve.