Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

ЗАСТОСУВАННЯ МЕТОДІВ КЛАСТЕРИЗАЦІЇ ДАНИХ ДЛЯ СТВОРЕННЯ ЦІЛЬОВИХ ГРУП КОРИСТУВАЧІВ НА РИНКУ НЕРУХОМОСТІ

APPLYING DATA CLUSTERING METHODS FOR CREATING TARGETING USER GROUPS FOR REAL ESTATE

Сторінки: 300-307. Номер: №2, 2023 (319) 
Автори:
ТКАЧИК Олександр
Національний університет “Львівська політехніка”
https://orcid.org/0000-0002-0728-4208
e-mail: oleksandr.a.tkachyk@lpnu.ua
TKACHYK Olexandr
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-319-1-300-307

Анотація мовою оригіналу

 У цій статті проведено неконтрольовану кластеризацію різнотипних даних щодо записів клієнтів із бази даних компанії з нерухомості. Сегментація клієнтів у групи — це практика розподілу клієнтів на певні групи, які відображають схожість між клієнтами в кожному кластері. Однією із задач поділу клієнтів на сегментовані групи є збільшення значущості кожного клієнта для бізнесу. У результаті поділу кожній групі можна буде запропонувати конкретні пропозиції, а також швидше знайти індивідуальний підхід для кожної одиниці певної групи. Це також дозволить допомогти бізнесу задовольнити потреби різних клієнтів та швидше скерувати їх у потрібному напрямку. Ключовим кроком є підготовка датасету для майбутньої кластеризації. Для роботи було взято зріз бази даних із 2000 користувачів, які зацікавлені ринком нерухомості. Після проведення аналізу даних, реалізовано підготовку та нормалізацію даних. Зменшено розмірність даних із допомогою методу PCA. Проведено кластеризацію даних і на їх основі створено та описано цільові групи користувачів.
Ключові слова: k-means, різнотипні дані, кластеризація даних, машинне навчання, ринок нерухомості, навчання без нагляду.

Розширена анотація англійською  мовою

In this paper applied unsupervised clustering to a dataset examines the application of k-means clustering to create target user groups for a real estate platform. The goal is to segment the user base into meaningful groups to better understand their preferences and behaviors, and tailor marketing campaigns and product features to the needs of each group. The key step in the application of k-means clustering to real estate data is data preparation. Real estate data can be particularly messy and incomplete, and thus requires careful cleaning and normalization before clustering can be applied. Data preparation includes several key steps, such as removing irrelevant or redundant features, creating new features as feature scaling is also an important step in data preparation. K-means clustering is sensitive to the scale of the data, so features may need to be normalized to ensure that they are on the same scale, handling missing or erroneous data, and scaling or transforming features to ensure they are on the same scale. Dataset of 2000 customers interested in real estate with the various types of data was taken as a basis. Then the data was observed, investigated and based on results it was prepared for clustering by doing data cleaning as irrelevant data or empty data points may include features that do not significantly contribute to the clustering process, data normalization as it is necessary to ensure that all features are on the same scale, feature selection to determine most relevant features for clustering, feature encoding and dimensionality reduction which was achieved through principal component analysis (PCA). By carefully cleaning, normalizing, and selecting relevant features, clustering algorithms such as k-means were applied more effectively and target user groups were identified.
Keywords: k-means, various types of data, data clustering, machine learning, real estate, unsupervised clustering

Post Author: Горященко Сергій

Translate