ВИКОРИСТАННЯ МІКРОСЕРВІСНОГО ПІДХОДУ В ПРОЦЕСІ ВЕБ-СКРАПІНГУ ВЕЛИКИХ ОБСЯГІВ ДАНИХ ДЛЯ ВЕБ-САЙТІВ ІЗ ДИНАМІЧНИМ ВМІСТОМ
USING A MICROSERVICE APPROACH IN THE PROCESS OF WEB SCRAPING OF LARGE VOLUMES OF DATA FOR WEBSITES WITH DYNAMIC CONTENT
Сторінки: 243-248 . Номер: №5,т.2 2023 (327)
Автори:
СУШИНСЬКИЙ ОРЕСТ
Приватний вищий навчальний заклад «Європейський університет»
https://orcid.org/0000-0002-2661-6458
e-mail: orest.sushynskyi@e-u.edu.ua
КОЦУН ВОЛОДИМИР
Приватний вищий навчальний заклад «Європейський університет»
https://orcid.org/0000-0003-2363-8157
e-mail: volodumur.kotsun@e-u.edu.ua
СКЛЯРЕНКО ОЛЕНА
Приватний вищий навчальний заклад «Європейський університет»
https://orcid.org/0000-0001-6555-1223
e-mail: olena.skliarenko@e-u.edu.ua
ЛИТВИНЕНКО ЛЕОНІД
Приватний вищий навчальний заклад «Європейський університет»
https://orcid.org/0000-0002-0828-383X
e-mail: leonid.lytvynenko@e-u.edu.ua
SUSHYNSKYI OREST , KOTSUN VOLODYMYR, SKLIARENKO OLENA, LYTVYNENKO LEONID
Private higher education institution “European University”
DOI: https://www.doi.org/10.31891/2307-5732-2023-327-5-243-248
Анотація мовою оригіналу
Проблема веб-скрапінгу виникає у зв’язку зі зростанням складності веб-сторінок, які використовують динамічний вміст, згенерований за допомогою JavaScript. Це ускладнює процес збору даних, оскільки стандартні методи HTTP-запитів не можуть отримати повний вміст сторінки. Мікросервісна архітектура може бути використана для вирішення цієї проблеми, оскільки дозволяє розподілити завдання між невеликими, незалежними сервісами. Аналіз досліджень та публікацій показує, що методи сканування веб-сторінок, які зазвичай використовуються, можуть займати багато часу при скануванні великих обсягів даних. Для вирішення цієї проблеми використовуються різні підходи, такі як швидкий двигун XPath селектора. Метою статті є дослідження особливостей використання мікросервісного підходу в процесі веб-скрапінгу та розгляд основних переваг мікросервісної архітектури. У статті будуть досліджені особливості використання різних підходів у доступі до елементів веб-сайту, зокрема увага буде приділена методам CSS селектори, Regex та XPath. Дослідження показало, що мікросервісна архітектура може покращити продуктивність системи, але може призвести до збільшення часу виконання завдань. Вимірювання показників ефективності показали, що метод Regex має найменше використання CPU і пам’яті порівняно з іншими методами, а метод XPath забезпечує вищу надійність та стійкість.
Ключові слова: мікросервіс, веб-скрапінг, дані
Розширена анотація англійською мовою
One of the main challenges of web scraping is handling dynamic content. Modern websites often use technologies such as AJAX and JavaScript to dynamically update content without reloading the page. The problem of web scraping arises from the increasing complexity of web pages that use dynamic content generated by JavaScript. This complicates the data collection process, as standard HTTP request methods cannot retrieve the full content of the page. Microservice architecture can solve this problem because it allows tasks to be distributed among small, independent services. Research and publications analysis shows that commonly used web scraping techniques can be time-consuming when scanning large amounts of data. Various approaches are used to solve this problem, such as the fast XPath selector engine. The average reliability and resilience of XPath is 96% of successful requests and increases to 98% when using microservices. XPath provides higher reliability and resilience than other methods. The CSS Selector method is the smallest in terms of bandwidth usage compared to other methods. Using microservice processing methods can provide higher reliability and resilience when parsing large amounts of data, but will require an increase in execution time. The article aims to study the features of the microservice approach in the process of web scraping and consider the main advantages of microservice architecture. The article will explore the peculiarities of using different approaches in accessing website elements, in particular, attention will be paid to the methods of CSS selectors, Regex, and XPath. The study found that microservice architecture can improve system performance but can lead to longer turnaround times. Performance measurements have shown that the Regex method has the lowest CPU and memory usage compared to other methods, and the XPath method provides higher reliability and resilience.
Keywords: microservice, web scraping, data