Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ РЕКУРСИВНОГО ПОШУКУ КЛЮЧОВИХ ТЕРМІНІВ У ЦИФРОВИХ ТЕКСТАХ

INFORMATION TECHNOLOGY FOR RECURSIONAL DEFINITION OF KEY TERMS IN DIGITAL TEXTS

Сторінки: 188-196. Номер: №3, 2019 (273)
Автори:
О.В. МАЗУРЕЦЬ, О.О. КОВАЛЬ
Хмельницький національний університет
O. MAZURETS, O. KOVAL
Khmelnytskyi National University
DOI: https://www.doi.org/10.31891/2307-5732-2019-273-3-188-196
Рецензія/Peer review : 23.03.2019 р.
Надрукована/Printed : 01.06.2019 р.

Анотація мовою оригіналу

В статті розглянуто інформаційну технологію рекурсивного пошуку ключових термінів у цифрових текстах, яка проводить аналіз текстового контенту із використанням методу дисперсійної оцінки та без використання лексичних баз даних корпусів слів. Характерною рисою запропонованої інформаційної технології є використання рекурсивних складових при пошуку ключових термінів. Процес автоматизованого аналізу цифрового тексту шляхом рекурсивного пошуку ключових термінів із використанням методу дисперсійного оцінювання складається з ряду етапів перетворення інформації, які у сукупності формують інформаційну технологію рекурсивного пошуку ключових термінів. Розроблена інформаційна технологія рекурсивного пошуку ключових термінів була реалізована в тестовому програмному продукті. Вхідними даними для системи є електронний документ із цифровим текстом, а вихідними даними є множина ключових термінів, що відповідна досліджуваному фрагменту текстового контенту електронного документу. За допомогою розробленого тестового програмного забезпечення були проведені дослідження, що підтвердили можливість ефективно автоматизовано формувати множини ключових семантичних термінів текстів із показниками точності пошуку до 89,6% й повноти пошуку до 93,3%.
Результати порівняння ефективності інформаційної технології рекурсивного пошуку ключових термінів у цифрових текстах із аналогічними результатами для технологій, що використовують лексичні бази даних корпусів слів для ідентифікації слів у текстах, є неоднозначними. У 42,3% випадках використання рекурсивного пошуку негативно вплинуло на якість результату, проте в 18,6% випадків такий підхід виявив кращий результат. Перевагами розробленої інформаційної технології рекурсивного пошуку ключових термінів у цифрових текстах, яка проводить аналіз текстового контенту із використанням методу дисперсійної оцінки, є відсутність необхідності використання лексичних баз даних корпусів слів, суттєве прискорення швидкодії, можливість використання для текстів різними мовами, можливість використання для текстів із кількома мовами, кращі результати під час обробки вузькоспеціалізованого контенту. Дана інформаційна технологія може бути ефективно використана для аналізу текстів із невідомими властивостями тематики та мови.
Ключові слова: цифровий документ, ключові терміни, дисперсійна оцінка.

Розширена анотація англійською мовою

In the article the information technology for recursional definition of semantic key terms in digital texts is considered, which conducts the analysis of text content using the method of dispersion evaluation and without the use of lexical databases of word cases. A characteristic feature of the proposed information technology is the use of recursive components in the search for key terms. The process of automated analysis of digital text through recursional search of key terms using the dispersion evaluation method consists of series of stages of the transformation of information, which collectively form the information technology for recursional definition of semantic key terms. The information technology for recursional definition of semantic key terms has been introduced in the test software product. The input data for the system is an electronic document with digital text, and the output data is a set of key terms that correspond to the investigated fragment of the text content of the electronic document. With the help of developed test software, studies were conducted that confirmed the ability to effectively formulate a set of key semantic terms of texts with search precision up to 89.6% and search recall up to 93.3%. The results of the comparison of the effectiveness of information technology for recursional definition of semantic key terms in digital texts with similar results for technology that use lexical databases of word cases to identify words in texts are ambiguous. In 42.3% of cases, the use of recursional definition negatively affected the quality of the result, but in 18.6% of cases, this approach has shown better result. The advantages of the developed information technology for recursional definition of semantic key terms in digital texts, which conducts analysis of text content using the dispersion evaluation method, are the absence of the need to use lexical database of word cases, significant acceleration of speed, the possibility of using for texts in different languages, the possibility of using for texts in several languages, better results in handling highly specialized content. This information technology can be effectively used to analyse texts with unknown properties of the subject and language.
Keywords: digital document, key terms, disperse evaluation.

References

  1. MAZURETS, O. V. (2017) Ontological Approach to Building a Semantic Model of Educational Materials. Herald of Khmelnytskyi national university. Technical Sciences, Issue 6, 2017 (255). p. 223-229.
  2. SERHIIEVA, O. O. & MAZURETS, A. V. (2017) Intelligent System of Automated Texts Compression // Collection of scientific works on the materials of the VIth international scientific and practical conference “ICST-ODESSA-2017”. p. 223-229.
  3. BARMAK, O. V. & MAZURETS, O. V. (2015) Methods of Automation of Definition of Semantic Terms in Educational Materials // Herald of Khmelnytskyi national university. Technical Sciences, Issue 2, 2015 (223). p. 209-213.
  4. ADVEGO (2019) SEO-analazer “Advego”. [Online] Available from: http://advego.ru/text/seo/ [Accessed: 25 February 2019]
  5. SERPSTAT (2019) SEO-analazer “Serpstat”. [Online] Available from: http://seozor.ru/tools/analyzer.php [Accessed: 25 February 2019]
  6. SEOZOR (2019) Semantic online-analazer of texts “Seozor”. [Online] Available from: http://seozor.ru/tools/analyzer.php [Accessed: 25 February 2019]
  7. VENTURA, J. & SILVA, J. (2007). New Techniques for Relevant Word Ranking and Extraction. In Proceedings of 13th Portuguese Conference on Artificial Intelligence, Springer-Verlag, p. 691-702.
  8. KRAK, Y., BARMAK, O. & MAZURETS, O. (2018) The Practice Implementation of the Information Technology for Automated Definition of Semantic Terms Sets in Content of Educational Materials. CEUR Workshop Proceedings, 2139. p. 245-254.
  9. LANDE, D. V. & SNARSKIY, A. A. (2013) Kompaktificirovanniy Gorizontalniy Graf Vidimosti dlya Seti Slov / D.V. Lande, A. A. Snarskiy // Trudi Mejdunarodnoy Nauchnoy Konferencii «Intellektualniy Analiz Informacii IAI-2013. Znania I Rassujdenia». p 158-164.
  10. MAZURETS, O. V., KOVALCHYK, O. V. & SLOBODZIAN, V. O. (2018) Using specialized software packeges for automation of work with digital documents of educational materials // Herald of Khmelnytskyi national university. Technical Sciences, Issue 1, 2018 (257). p. 61-69.
  11. MANNING, C., RAGHAVAN, P. & SCHUTZE, H. (2008) Introduction to Information Retrieval. Cambridge University Press.

 

Post Author: npetliaks

Translate