Вплив морфології шарів трансформації векторів тексту та зображення на точність clip моделі – Вісник Хмельницького національного університету

ВПЛИВ МОРФОЛОГІЇ ШАРІВ ТРАНСФОРМАЦІЇ ВЕКТОРІВ ТЕКСТУ ТА ЗОБРАЖЕННЯ НА ТОЧНІСТЬ CLIP МОДЕЛІ

INFLUENCE OF THE MORPHOLOGY OF TEXT AND IMAGE VECTOR TRANSFORMATION LAYERS ON THE ACCURACY OF THE CLIP MODEL

Сторінки: 181-188. Номер: №6, 2023 (329)
Автори:
КОПАЧ БОГДАН
Національний університет «Львівська політехніка»
ORCID ID: https://orcid.org/0009-0002-5158-589X
e-mail: bohdan.v.kopach@lpnu.ua
KOPACH BOHDAN
Lviv Polytechnic National University
DOI: https://www.doi.org/10.31891/2307-5732-2023-329-6-181-188

Анотація мовою оригіналу

Пошук шляхів для знаходження взаємозв’язків між зображеннями та текстом є складним завданням, вирішення якого ускладнюється великою кількість можливих варіантів, форм, представлень однакових об’єктів як на зображеннях, так і за допомогою текстового опису. Із моменту релізу CLIP моделі у 2021 році ця сфера активно розвивається, на її основі почали формуватися моделі, які активно використовуються для створення зображень за текстовим описом, доповнюють та описують зображення тощо. Актуальність дослідження полягає у вивченні та вдосконаленні методів аналізу взаємов’язків між текстовими та візуальними даними в передових моделях штучного інтелекту, які використовують декілька нейронних мереж, зокрема таких, як CLIP. Це дозволяє покращити точність та ефективність обробки інформації, що має велике значення в багатьох сферах, наприклад, завданнях комп’ютерного зору та автоматичного опрацювання природної мови. Головна мета цієї статті – дослідження впливу зміни структури шарів трансформації CLIP моделі, що відповідають за зміну довжини векторів тексту та зображення, на її точність. На етапі проведення експериментів використовувалися кодувальники зображень на основі ResNet-50 та ViT-B/32, кодувальник тексту BERT та різні комбінації й типи прихованих шарів нейронної мережі. Отримані результати показують, що застосування декількох лінійних шарів із шаром нормалізації та поступове зменшення довжини векторів даних може покращити точність CLIP моделі на 10-15% в залежності від функції втрат, що використовується для навчання, та кодувальників зображень. Визначено, що різке зменшення довжини векторів, які репрезентують текстові та візуальні дані, або використання занадто великої кількості нейронних шарів для їх опрацювання може негативно впливати на точність CLIP моделі. Запропоновані архітектурні рішення дозволяються покращити здатність моделі знаходити взаємозв’язки між зображеннями та текстом.
Ключові слова: нейронні мережі, CLIP, опис зображення, векторні перетворення.

Розширена анотація англійською мовою

Searching for ways to establish relationships between images and text is complex, due to the vast array of variations, forms, and representations of identical objects in both mediums. Since the CLIP model’s introduction in 2021, the field has seen rapid growth, leading to the development of new models based on CLIP. These are extensively used for generating images from text, image inpainting, and image description. The significance of this research lies in enhancing methods for analyzing the interplay between text and visual data in advanced AI models, like CLIP, which employ multiple neural networks. This enhancement is crucial for improving accuracy and efficiency in processing information, which is particularly important in computer vision and natural language processing. The primary aim of this study is to explore how modifications in the transformation layers of the CLIP model, which adjust the lengths of text and image vectors, affect its accuracy. The experiments utilized image encoders based on ResNet-50 and ViT-B/32, the text encoder BERT, and various combinations and types of neural network’s hidden layers. The results demonstrate that using multiple linear layers with a normalization layer and progressively shortening the data vectors can enhance the CLIP model’s accuracy by 10-15%, varying with the loss function and image encoders used in training. However, significantly reducing the vector lengths for textual and visual data, or employing too many neural layers for processing, can detrimentally affect the model’s accuracy. The architectural solutions proposed in the research are tailored to address these challenges. They focus on optimizing the morphology of transformation layers and carefully adjusting the size of the vectors to ensure that the model retains enough information for accurate analysis while not being burdened by unnecessary data or complexity. The study not only contributes to the ongoing development of more accurate and efficient AI models for handling complex text and image relationships but also provides insights into the importance of balance and precision in AI architecture design.
Keywords: neural networks, CLIP, image description, vector transformations.

Post Author: Горященко Сергій