Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ ТЕМАТИЧНОЇ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ПОВІДОМЛЕНЬ

INFORMATION TECHNOLOGY FOR THEMATIC CLASSIFICATION OF TEXT MESSAGES

Сторінки: 203-210. Номер: №5, 2019 (277)
Автори:
О.В. МАЗУРЕЦЬ, О.Ю. ТИМУШ, А.П. ФЕДОРКО
Хмельницький національний університет
O. MAZURETS, O. TYMUSH, A. FEDORKO
Khmelnytskyi National University
DOI: https://www.doi.org/10.31891/2307-5732-2019-277-5-203-210
Рецензія/Peer review : 19.05.2019 р.
Надрукована/Printed : 23.07.2019 р.

Анотація мовою оригіналу

У статті розглянуто інформаційну технологію сортування текстових повідомлень за тематикою. При цьому використовуються розроблений підхід до визначення множин ключових слів для рубрик новин на основі методу оцінки TFIDF та розроблені математико-алгоритмічні моделі для визначення приналежності тестової новини до актуальних рубрик новин. На основі розробленої інформаційної технології тематичного сортування текстової інформації було створено два програмних продукти: систему визначення множин ключових слів для рубрик новин та систему тематичного сортування новин. Система визначення множин ключових слів для рубрик новин дозволяє за введеною множиною новин, що мають приналежність до певної конкретної рубрики, визначити множину ключових слів, які розглядаються як еквівалент узагальненого семантичного вмісту для новин цієї рубрики. В результаті використання програмної системи для аналізу вхідних даних у вигляді множин новин для всіх актуальних рубрик, одержуються вихідні дані у вигляді відповідної кількості множин ключових слів, які розглядаються в подальшому як портрети новин цих рубрик. Система тематичного сортування новин дозволяє за вхідними даними у вигляді текстового контенту тестової новини одержати вихідні дані у вигляді цифрових показників, що відображають оцінку приналежності тестової новини до кожної з рубрик. Для цього проводиться автоматизоване порівняння множини слів із контенту новини та множин ключових слів рубрик новин. Розроблені тестові програмні системи були використані для дослідження ефективності інформаційної технології тематичного сортування текстової інформації. Для цього проводилось автоматизоване визначення рубрик для тестових зразків новин за допомогою розроблених програмних продуктів. Одержані результати дослідження ефективності інформаційної технології показали, що в переважній більшості випадків програмна система, виконана відповідно до запропонованої інформаційної технології тематичного сортування текстової інформації, успішно виконала сортування новин за рубриками, й середня успішність сортування за рубриками склала 94,4%.
Ключові слова: текстові повідомлення, класифікація, ключові слова.

Розширена анотація англійською мовою

The article considers the information technology for thematic classification of text messages. Developed approach is used to define the sets of keywords for news headings based on the TFIDF evaluation method and developed mathematical and algorithmic models to determine the affiliation of test news to current news headings. Based on the developed information technology of thematic sorting of textual information, two software products were created: a system of definition the keywords sets for news headings and a system of thematic sorting of news. The news keywords sets definition system allows you to define a set of keywords from the provided data that is considered to be equivalent to generalized semantic content for news items. As a result of using the software system for analysing the input data in the sets of news for all relevant thematic, the output is received in the form of an appropriate number of sets of keywords, which are subsequently considered as news portraits of these sections. The system of news thematic sorting allows the input data in the form of textual content of the test news to get the output data in the form of digital metrics that reflect the assessment of the test news belonging to each heading. For this, an automated comparison of the plurality of news content words and the plurality of news headline keywords is performed. The developed test software systems were used to investigate the effectiveness of information technology themed textual sorting. For this purpose, automated thematic definition for test news samples was carried out using developed software products. The results of the information technology efficiency investigation showed that in most cases the software system, which was made in accordance with the proposed information technology of thematic sorting of text information, successfully completed news sorting by headings, and the average success of sorting by headings was 94.4%.
Keywords: text messages, classification, keywords.

References

  1. Ventura J. New Techniques for Relevant Word Ranking and Extraction / J. Ventura, J. Silva // Proceedings of the artificial intelligence 13th Portuguese conference on Progress in artificial intelligence, EPIA’07. – Berlin : Springer-Verlag, Berlin, Heidelberg, 2007. – P. 691–702.
  2. RSS 2.0 Specifications. URL: http://www.rssboard.org/rss-specification
  3. Lande D. V. Kompaktificirovannyj gorizontalnyj graf vidimosti dlya seti slov / D. V. Lande, A. A. Snarskij // Trudy Mezhdunarodnoj nauchnoj konferencii «Intellektualnyj analiz informacii IAI-2013. Znaniya i rassuzhdeniya». – Kiev : KPI, 2013. – C. 158–164.
  4. Barmak O. V. Metody avtomatyzatsii vyznachennia semantychnykh terminiv u navchalnykh materialakh / O. V. Barmak, O.V. Mazurets // Herald of Khmelnytskyi National University. Ser.: Tekhnichni nauky. – 2015. – № 2(223). – S. 209–213.
  5. Krak Y. The practice implementation of the information technology for automated definition of semantic terms sets in the content of educational materials / Y. Krak, O. Barmak, O. Mazurets // CEUR Workshop Proceedings, 2139. – 2018. – P. 245–254.

Post Author: npetliaks

Translate