ПОРІВНЯЛЬНИЙ АНАЛІЗ ЕФЕКТИВНОСТІ НАДБУДОВ SELENIUM ТА BEAUTIFULSOUP
COMPARATIVE ANALYSIS OF SELENIUM AND BEAUTIFULSOUP EFFICIENCY
Сторінки: 50-52. Номер: №1, 2022 (305)
Автори:
КРИВЕНЧУК Ю. П.
https://orcid.org/0000-0002-2504-5833
e-mail: Yurii.P.Kryvenchuk@lpnu.ua
БУРАК М. Т.
https://orcid.org/0000-0002-8979-3347
e-mail: burakmarko@gmail.com
Національний університет “Львівська політехніка”
Yurii KRYVENCHUK, Marko BURAK
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2022-305-1-50-52
Анотація мовою оригіналу
На сьогодні кількість цифрової інформації у всесвітній мережі збільшується експоненціально з кожним роком. Тому зріс попит на аналіз даних з вебресурсів. Проте для проведення операцій з даними їх потрібно спочатку отримати з джерела. Існує дуже багато інструментів, написаних під мову python для роботи з видобутком інформації, з яких selenium та beautifulSoup вважаються найпопулярнішими. Попри те, що обидві надбудови працюють досить добре, розробники прикладного програмного забезпечення намагаються обрати найбільш оптимальну з них. Тому виникла необхідність перевірки цих двох пакетів на ефективність. У роботі розглянуто тривалість роботи парсерів для пошуку тегів на вебсторінці за допомогою різних методів та платформ. Дослідження проведено на основі онлайн-платформ для продажу товарів. Результати показали, які саме інструменти та функції найкраще використовувати для знаходження товару на інтернет-магазинах.
Ключові слова: парсер, selenium, beautifulSoup, python, інтернет-магазин, тег, вебсторінка, пошук.
Розширена анотація англійською мовою
Nowadays, the amount of digital information on the World Wide Web is growing exponentially every year. Therefore, the demand for data analysis from web resources has increased. However, to perform data operations, information must first be obtained from the source. Today almost every popular programming language has at least one library that can perform web scraping operations and extract data from websites, although some of them are hard to use or not compatible with the language of the projects, that this data is intended. Therefore, a lot of developers use python as the main tool for such projects. It can be used to build almost any platform and communicate with the parsers within a project. Also, this language is easy to use and has a huge community. There are many python-based tools for working with data mining, of which selenium and beautifulSoup are considered the most popular. Despite the fact that both add-ons work quite well, the developers strive to choose the most optimal one. Thus, there is a need to test these two packages for effectiveness.
The paper considers the duration of parsers to search for tags on a web page using different methods and platforms. The study was conducted on the basis of online platforms for the sale of goods. The results showed which tools and functions are the best choices to find products on online stores. The object of analysis was the website “Rozetka”, which is the biggest and the most popular online store in Ukraine. This article has described the advantages and disadvantages of using these libraries especially for scraping data from online stores. To analyze these add-ons, there was a special program created which can open the website on a browser, find the search bar, and enter the name of the desired product, afterward using various methods of these libraries perform a product search. For each search time was recorded. The results showed that beautifulSoup can find tags faster than selenium in general, however, for searching and web scraping online stores selenium can perform better and is more suitable.
Keywords: web scraper, selenium, beautifulSoup, python, online store, tag, web page, search.
Література
- Порівняння між Selenium та BeautifulSoup: який найкращий? Limeproxiess. Порівняння між Selenium та BeautifulSoup: який найкращий? Limeproxies. URL: https://limeproxies.netlify.com/blog/selenium-vs-beautifulsoup
- Андраде Ф. Веб-парсинг за допомогою beautifulSoup, Selenium чи Scrapy? Medium. 2021. URL: https://towardsdatascience.com/web-scraping-with-beautiful-soup-selenium-or-scrapy-62c6f3545de7
- Бхатачарія С. Парсинг сайтів електронної комерції за допомогою Selenium та Python. Analytics Vidhya. 2020. URL: https://medium.com/analytics-vidhya/web-scraping-e-commerce-sites-using-selenium-python-55fd980fe2fc
- Інтернет-магазин ROZETKATM: офіційний сайт найпопулярнішого онлайн-гіпермаркету в Україні. URL: https://rozetka.com.ua/ua/
- Кхдер МА. Парсинг або веб-сканування: Сучасний стан, техніки, підходи та застосування. International Journal of Advances in Soft Computing and its Applications. 2021; 13(3):144–68.
- Томас ДМ, Матур С. Дата аналіз для парсингу з використанням python. 2019. с. 450–4.
- МакХенлі Р. Навчання: Текстова аналітика для моделювання за допомогою python. 2021. с. 68–82.
References
- Comparison Between Selenium vs BeautifulSoup: Which Is the Best One? Limeproxiess. Comparison Between Selenium vs BeautifulSoup: Which Is the Best One? Limeproxies. URL: https://limeproxies.netlify.com/blog/selenium-vs-beautifulsoup
- Andrade F. Web Scraping with Beautiful Soup, Selenium or Scrapy? Medium. 2021: URL https://towardsdatascience.com/web-scraping-with-beautiful-soup-selenium-or-scrapy-62c6f3545de7
- Bhattacharya C. Web Scraping E-commerce sites using Selenium & Python. Analytics Vidhya. 2020. URL: https://medium.com/analytics-vidhya/web-scraping-e-commerce-sites-using-selenium-python-55fd980fe2fc
- Online store ROZETKA: the official site of the most popular online hypermarket in Ukraine. URL: https://rozetka.com.ua/ua/
- Khder MA. Web scraping or web crawling: State of art, techniques, approaches and application. International Journal of Advances in Soft Computing and its Applications. 2021; 13(3):144–68.
- Thomas DM, Mathur S. Data Analysis by Web Scraping using Python. 2019. p. 450–4.
- McHaney R. Tutorial: Text analytics for simulation with python. 2021. p. 68–82.