Публікація: Мультимодальна технологія пошуку та кластеризації слабоструктурованих текстово-графічних документів
Завантаження...
Дата
Назва журналу
ISSN журналу
Назва тому
Видавець
ХНУРЕ
Анотація
Досліджено проблему пошуку та кластеризації слабоструктурованих текстово-графічних документів (ТГД) з використанням нейромережевих технологій. Запропоновано підхід до побудови мультимодальної системи пошуку та аналізу ТГД, що передбачає використання гібридного крітерія порівняння текстових та графічних фрагментів в аналізованих документах. Розглянуто процедуру поєднання процесів пошуку текстово-графічних фрагментів електронних документів за характеристиками зображення та текстовими підписами (ключовими словами). Запропоновано метод кластеризації та індексації ТГД за результатами аналізу іх текстової частини, заснований на застосуванні алгоритму SOINN, лінгвістичних дескрипторів та модульної системи обробки файлових масивів. Метод дозволяє формувати динамічну структуру кластерів ТГД зі створенням єдиних індексів. Наведено результати тестування і рекомендації щодо використання нейромережевих моделей для практичної реалізації запропонованого підходу до пошуку та кластеризації ТГД.
S.G. Udovenko, Ye.M. Hrabovskyi, D.O. Donskyi, L.E. Chala. Multimodal technology for searching and clustering weakly structured text-graphic documents. The problem of searching and clustering poorly structured text-graphic documents (TGD) using neural network technologies is addressed. A multimodal approach to building a system for searching and analyzing TGD is proposed, utilizing a hybrid criterion to compare text and graphic fragments within the analyzed documents. Integrating processes for identifying text-graphic fragments in electronic documents based on image characteristics and text signatures (keywords) is described. A method for clustering and indexing TGD is introduced, leveraging the SOINN algorithm, linguistic descriptors, and a modular file array processing system. This method enables the formation of a dynamic cluster structure for TGD and the creation of unified indexes. The testing results and practical recommendations for implementing neural network models in TGD search and clustering are presented.
Опис
Ключові слова
текстово-графічні документи, мультимодальна система, кластеризація, алгоритм soinn, порівняння текстово-графічних фрагментів, анотація зображень, text-graphic documents, multimodal system, clusterization, soinn algorithm, comparison of text-graphic fragments, image annotation
Цитування
Удовенко С. Г., Грабовський Є. М., Донський Д. О., Чала Л. Е. Мультимодальна технологія пошуку та кластеризації слабоструктурованих текстово-графічних документів // Біоніка інтелекту. 2024. № 2 (101). С. 3-16.