Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ЗАСТОСУВАННЯ НЕЙРОМЕРЕЖЕВИХ ПІДХОДІВ  ДО ВИРІШЕННЯ ЗАДАЧІ ПРО БАГАТОРУКОГО БАНДИТА

APPLICATION OF NEURAL NETWORK APPROACHES TO SOLVE THE MULTI-ARMED BANDIT PROBLEM

Сторінки:132-138 . Номер: №5,т.2 2023 (327) 
Автори:
Хавалко Віктор
Національний університет “Львівська політехніка”
ORCID ID: 0000-0002-9585-3078
e-mail: viktor.m.khavalko@lpnu.ua
ДОХНЯК БОГДАН-ОЛЕКСАНДР
Національний університет “Львівська політехніка”
ORCID ID: 0000-0003-4911-8950
e-mail: bohdan-oleksandr.o.dokhniak@lpnu.ua
СЛАВА ЛЮБОМИР
Національний університет “Львівська політехніка”
e-mail: liubomyr.slava.mknssh.2022@lpnu.ua
Khavalko Viktor, Dokhniak Bohdan-Oleksandr, Slava Liubomyr
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-327-5-132-138

Анотація мовою оригіналу

Основна проблема більшості людей – незнання того, як зробити перший крок в сфері інвестування власних коштів на фінансовому.  Люди, які хочуть почати займатись інвестуванням зазвичай не знають з чого почати та акції яких компаній можна вигідно перепродати. В статті проведено аналіз та порівняння восьми базових алгоритмів для вирішення задачі про багаторукого бандита. Для цього було спроектовано та розроблено відповідне середовище для досліджень, яке дозволило спостерігати за поведінкою алгоритмів впродовж семи років. Середовище, максимально наближене до реального і це дало можливість проаналізувати поведінку агентів в симуляції та зробити відповідні висновки щодо їхньої ефективності.
Створена нова модифікація жадібного агента, який замість власних оцінок використовує передбачення, сформовані рекурентними нейронними мережами (запропоновано підхід, який поєднує в собі можливості штучного інтелекту та традиційних алгоритмів для вирішення задачі про багаторукого бандита). Проаналізовано ефективність використання кожного з алгоритмів та доцільність їхнього використання для визначення інвестиційної привабливості. Результати експериментів представлені в чіткому та зрозумілому аналітичному вигляді.
Ключові слова: рекурентна нейронна мережа, багаторукий бандит, прогнозування, ефективність алгоритму.
 

Розширена анотація англійською  мовою

The primary challenge for many individuals is the lack of knowledge on how to take the first step into the realm of investing their finances. People aspiring to delve into investing typically lack guidance on where to begin and which stocks of companies can be lucratively traded. This article conducts an analysis and comparison of eight fundamental algorithms for solving the multi-armed bandit problem. To achieve this, a corresponding research environment was designed and developed, allowing observation of algorithm behavior over a simulated period of seven years. The environment closely resembles real-world conditions, enabling the analysis of agent behavior in the simulation and drawing pertinent conclusions regarding their effectiveness.
A new modification of the greedy agent was created, which, instead of using its own evaluations, utilizes predictions formed by recurrent neural networks. The proposed approach combines the capabilities of artificial intelligence and traditional algorithms to address the multi-armed bandit problem. The effectiveness of each algorithm and the appropriateness of their use in determining investment attractiveness were analyzed. The results of the experiments are presented in a clear and understandable analytical format.
Two best algorithms from each domain were chosen: UCB and the greedy agent, whose evaluations are formed by a recurrent neural network based on GRU. The results of using other algorithms, which do not require prior knowledge of the environment while providing a decent profit, were also analyzed.
The best results were obtained when using UCB and the greedy agent, whose evaluations are formed by a recurrent neural network based on GRU. Although the profit obtained using UCB was three times greater than the profit obtained by the GRU agent, it is worth noting that the probability of the correct selection of the trust parameter in UCB is very low. Therefore, depending on the needs of potential users, one of these approaches can be chosen, keeping in mind the risk of using UCB.
Keywords: recurrent neural network, multi-armed bandit, prediction, algorithm effectiveness.

Post Author: Горященко Сергій

Translate