Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

КОНТРОЛЬ  ДОДАТКІВ ІНТЕРНЕТ-ТРАФІКА КОМП’ЮТЕРНИХ МЕРЕЖ МЕТОДАМИ МАШИННОГО НАВЧАННЯ

CONTROL OF APPLICATIONS OF INTERNET TRAFFIC OF COMPUTER NETWORKS METHODS OF MACHINE LEARNING

 Сторінки: 22-26. Номер: №5, 2021 (301)
 Автори:
ДЖУЛІЙ В.М.
Хмельницький національний університет
ORCID http://orcid.org/0000-0003-1878-4301
e-mail:dg2303@ukr.net
КЛЬОЦ Ю.П.
Хмельницький національний університет
ORCID https://orcid.org/0000-0002-3914-0989
e-mail:sprklyots@gmail.com
МУЛЯР І.В.
Хмельницький національний університет
ORCID http://orcid.org/0000-0002-6659-605X
e-mail:iga2000@yahoo.com
ЖИЛЕВИЧ М.Л.
Хмельницький національний університет
e-mail:dg2303@ukr.net
ДЖУЛІЙ А.В.
Університет економіки і підприємництва, м.Хмельницький
ORCID ID: 0000-0001-5011-3052
e-mail: kksmkhnu@gmail.com
Dzhuliy Volodymyr M., Klyots Yurii P., Mulyar Ihor V.,  Zhilevich Mykhailo L.
Khmelnytskyi National University
Dzhuliy Andrii V.
University of Economics and Entrepreneurship, Khmelnytsky, Ukraine
DOI: https://www.doi.org/10.31891/2307-5732-2021-301-5-22-26
Рецензія/Peer review : 17.09.2021р.
Надрукована/Printed : 10.10.2021 р.

Анотація мовою оригіналу

Розглянуто актуальне завдання контролю доступу до Інтернет-ресурсів має важливе прикладне значення: блокування доступу до нелегальної, екстремістської, антисоціальної інформації, запобігання розголошенню конфіденційної інформації через Інтернет та ін. Для вирішення подібних завдань широкого поширення набули методи машинного навчання. Одним з найбільш часто використовуваних і ефективних для класифікації мережевого трафіка методів машинного навчання є «випадковий ліс» (Random Forest), що представляє собою ансамблевий метод, який діє шляхом побудови множини вирішальних дерев. Для оцінки ефективності роботи алгоритму Random Forest при класифікації мережевого трафіка за типами прикладних протоколів, що працюють в мережі Інтернет, був здійснений збір трафіка в мережі. Досліджувалися додатки, які генерують пакети, що відносяться до різних протоколів прикладного рівня: BitTorrent, DNS, HTTP, SSL, Skype, Steam. Після відбору інформаційних ознак і попередньої обробки даних сформовані навчальна і тестова вибірки, одна з яких містила фоновий трафік. В результаті застосування алгоритму класифікації Random Forest до отриманих даних знайдені оцінки ефективності роботи даного алгоритму в умовах наявності і відсутності фонового мережевого трафіку.
Ключові слова: моделі, ефективність, алгоритми, мережевий трафік, вирішальні дерева, машинне навчання, фоновий трафік.

 Розширена анотація англійською мовою

The considered actual problem of controlling access to Internet resources has an important applied value: blocking access to illegal, extremist, antisocial information, preventing the disclosure of confidential information via the Internet, etc. For the development of a wide range of enterprises, the methods of machine technology have been developed. One of the most frequently victorious and effective methods for the classification of hedgehog traffic is the Random Forest, an ensemble method, which is a kind of tree path to inspire a multitude of virgins. To assess the effectiveness of the Random Forest algorithm in the classification of network traffic by types of application protocols operating on the Internet, the collection of network traffic was performed. Applications that generate packets related to different application layer protocols were studied: BitTorrent, DNS, HTTP, SSL, Skype, Steam. After selection of information features and preliminary data processing, training and test samples were formed, one of which contained background traffic. As a result of applying the Random Forest classification algorithm to the obtained data, estimates of the efficiency of this algorithm in the presence and absence of background network traffic were found. The presence of background traffic belonging to classes that did not participate in the training of the algorithm significantly impairs the accuracy of classification. It is shown that the number of attributes for traffic classification is not as important as the choice of classification algorithms. The results of the classification at the testing stage showed that the machine learning algorithms using the “decision trees” Random Forest and C4.5 are best suited for classification with a large number of classes. Classification accuracy indicators using AdaBoost and Bagging suggest that in most cases, combining multiple classifiers into an ensemble and making a decision based on “voting” can improve the results of the classification. To achieve classification accuracy, it is sufficient to calculate the classification attributes for a sample containing 5 …. 10 consecutive packets. Accuracy can be improved to 99% and higher if the statistics were calculated on the basis of 35 consecutive packets.
Keywords: models, efficiency, algorithms, network traffic, decision trees, machine learning, background traffic.

References

  1. Sheluhin O.I. Setevye anomalii. Obnaruzhenie, lokalizaciya, prognozirovanie / O.I. Sheluhin. – M. : Goryachaya liniya -Telekom, 2019. – 448 s.
  2. Sheluhin O.I. Klassifikaciya IP-trafika metodami mashinnogo obucheniya / O.I. Sheluhin, S.D. Erohin. – M. : Goryachaya liniya -Telekom, 2018. – 284 s.
  3. Baturin Yu.M. Kompyuternaya prestupnost i kompyuternaya bezopasnost / Yu.M. Baturin, A.M. Zhodzinskij. – M. : Yuridicheskaya literatura, 2006. – 160 s.
  4. Nesterov S.A. Osnovy informacionnoj bezopasnosti : uchebnik / S. A. Nesterov. – SPb : Lan, 2017. – 423 s.
  5. Olifer V.G. Bezopasnost kompyuternyh setej / V. G. Olifer, N. A. Olifer. – M. : Goryachaya liniya-Telekom, 2017. – 644 s.

Post Author: npetliaks

Translate