ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ АВТОМАТИЗОВАНОГО ВИЗНАЧЕННЯ КЛЮЧОВИХ СЛІВ У ПОВІДОМЛЕННЯХ ДЛЯ СОЦІАЛЬНИХ МЕРЕЖ
INFORMATION TECHNOLOGY FOR AUTOMATED DETERMINATION OF KEYWORDS IN MESSAGES FOR SOCIAL NETWORKS
Сторінки: 112-116. Номер: №2, 2020 (283)
Автори:
О.В. МАЗУРЕЦЬ, Т.К. СКРИПНИК, В.А. ЖИТНЯКІВСЬКИЙ
Хмельницький національний університет
O. MAZURETS, T. SKRYPNYK, V. ZHYTNIAKIVSKYI
Khmelnytskyi National University
DOI: https://www.doi.org/10.31891/2307-5732-2020-283-2-112-116
Рецензія/Peer review : 29.11.2019 р.
Надрукована/Printed : 16.6.2020 р.
Анотація мовою оригіналу
У статті розглянуто інформаційну технологію автоматизованого визначення ключових слів у текстових повідомленнях для соціальних мереж, яка проводить аналіз текстового повідомлення із використанням методів оцінки TFIDF, дисперсійної оцінки та оцінки TFIDF з використанням NLP. Розроблена інформаційна технологія автоматизованого визначення ключових слів була реалізована в тестовому програмному продукті, який відтворює роботу соціальної мережі. Вхідними даними для системи є текстове повідомлення із цифровим текстом, а вихідними даними є текстове повідомлення з множиною ключових термінів. Під час розробки соціально орієнтованого сервісу для спілкування за інтересами на платформі IOS, відповідно до визначених функцій, виділено наступні групи користувачів: зареєстрований користувач, адміністратор соціальної мережі, незареєстрований користувач. За допомогою розробленого тестового програмного забезпечення були проведені дослідження, що підтвердили можливість ефективно автоматизовано визначення множини ключових слів у текстових повідомленнях з показниками точності для методу оцінки TFIDF – 27,1% та методу дисперсної оцінки – 45,5%, методу оцінки TFIDF з NLP 88,3%. Перевагами розробленої інформаційної технології автоматизованого визначення ключових слів у текстових повідомленнях для соціальних мереж, яка проводить аналіз текстового повідомлення із використанням методів оцінки TFIDF, дисперсійної оцінки та оцінки TFIDF з використанням NLP, є відсутність необхідності використання лексичних баз даних корпусів слів, суттєве прискорення швидкодії, можливість використання для текстів на різних мовах, можливість використання для текстів з кількома мовами. Дана інформаційна технологія може бути ефективно використана для аналізу текстових повідомлень із невідомими властивостями тематики та мови.
Ключові слова: текстові повідомлення, оцінка TFIDF з використанням NLP, ключові слова.
Розширена анотація англійською мовою
The article discusses automated keyword definition in text messaging for social networks that analyzes text message using the methods of TFIDF estimation, variance estimation, and TFIDF estimation using NLP. The developed automated keyword definition information technology was implemented in the test software. The input data of the system is a text message with digital text, and the output data is a text message with a set of key terms. In developing a socially-oriented interest-based communication service on the iOS platform, according to the defined functions, the following groups of users are identified: registered user, social network administrator, unregistered user. A registered user works with the system via the IOS Mobile App – this group includes users who are logged in and have access to photo and video messaging, location sharing, search for other users, viewing other users’ news feeds, commenting on news from others users, create their own news feed, view their own news feed, and track other users’ news. The social network administrator works with the system through a browser interface on an arbitrary platform – this group includes users whose function is to backup the database, view the news feed of any user, edit all spreadsheets, exchange messages, lock the user and password reset. The unregistered user only has the option to register. With the help of the developed test software, studies were carried out, which confirmed the possibility of effectively automated determination of a set of keywords in text messages with accuracy indicators for the TFIDF estimation method – 27,1% and the dispersive estimation method – 45,5%, the TFIDF estimation method with NLP 88,3%. Advantages of the developed information technology of automated definition of keywords in text messages for social networks, which conducts the analysis of text message using the methods: TFIDF estimation, variance estimation and TFIDF estimation using NLP, there is no need to use lexical databases of corpora of words, significant acceleration possibility to use for texts in different languages, possibility to use for texts with several languages. This information technology can be effectively used to analyze text messages with unknown subject and language properties.
Keywords: text messages, TFIDF estimates using NLP, keywords.
References
- Internet World Stats [Elektronnyi resurs]. – Rezhym dostupu : https://www.internetworldstats.com/stats.htm.
- Mazurets O. V. Informatsiina tekhnolohiia avtomatyzovanoho vyznachennia semantychnykh terminiv v elementakh navchalnykh materialiv / O. V. Mazurets // Herald of Khmelnytskyi National University. – 2018. – № 3. – S. 223–230.
- Lande D. V. Kompaktificirovannyj gorizontalnyj graf vidimosti dlya seti slov / D. V. Lande, A. A. Snarskij // Trudy Mezhdunarodnoj nauchnoj konferencii «Intellektualnyj analiz informacii IAI-2013. Znaniya i rassuzhdeniya». – Kiev : KPI, 2013. – C. 158–164.
- Barmak O. V. Metody avtomatyzatsii vyznachennia semantychnykh terminiv u navchalnykh materialakh / O. V. Barmak, O. V. Mazurets // Herald of Khmelnytskyi National University. – 2015. – № 2(223). – S. 209–213.
- Stanford NLP [Elektronnyi resurs]. – Rezhym dostupu : https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html.
- Zhytniakivskyi V. A. Informatsiina tekhnolohiia avtomatyzovanoho vyznachennia kliuchovykh sliv u tekstovykh povidomlenniakh dlia sotsialnykh merezh / V. A. Zhytniakivskyi, O. V. Mazurets // Zbirnyk naukovykh prats za materialamy XI vseukrainskoi naukovo-praktychnoi konferentsii «Aktualni problemy kompiuternykh nauk APKN-2019». – Khmelnytskyi, 2019. – T. 1. – S. 89–93.
- JetBrains AppCode [Elektronnyi resurs]. – Rezhym dostupu : https://www.jetbrains.com/objc/?fromMenu.