Публікація:
Мультимодальна технологія пошуку та кластеризації слабоструктурованих текстово-графічних документів

dc.contributor.authorУдовенко, С. Г.
dc.contributor.authorГрабовський, Є. М.
dc.contributor.authorДонський, Д. О.
dc.contributor.authorЧала, Л. Е.
dc.date.accessioned2026-04-24T18:13:44Z
dc.date.issued2024
dc.description.abstractДосліджено проблему пошуку та кластеризації слабоструктурованих текстово-графічних документів (ТГД) з використанням нейромережевих технологій. Запропоновано підхід до побудови мультимодальної системи пошуку та аналізу ТГД, що передбачає використання гібридного крітерія порівняння текстових та графічних фрагментів в аналізованих документах. Розглянуто процедуру поєднання процесів пошуку текстово-графічних фрагментів електронних документів за характеристиками зображення та текстовими підписами (ключовими словами). Запропоновано метод кластеризації та індексації ТГД за результатами аналізу іх текстової частини, заснований на застосуванні алгоритму SOINN, лінгвістичних дескрипторів та модульної системи обробки файлових масивів. Метод дозволяє формувати динамічну структуру кластерів ТГД зі створенням єдиних індексів. Наведено результати тестування і рекомендації щодо використання нейромережевих моделей для практичної реалізації запропонованого підходу до пошуку та кластеризації ТГД. S.G. Udovenko, Ye.M. Hrabovskyi, D.O. Donskyi, L.E. Chala. Multimodal technology for searching and clustering weakly structured text-graphic documents. The problem of searching and clustering poorly structured text-graphic documents (TGD) using neural network technologies is addressed. A multimodal approach to building a system for searching and analyzing TGD is proposed, utilizing a hybrid criterion to compare text and graphic fragments within the analyzed documents. Integrating processes for identifying text-graphic fragments in electronic documents based on image characteristics and text signatures (keywords) is described. A method for clustering and indexing TGD is introduced, leveraging the SOINN algorithm, linguistic descriptors, and a modular file array processing system. This method enables the formation of a dynamic cluster structure for TGD and the creation of unified indexes. The testing results and practical recommendations for implementing neural network models in TGD search and clustering are presented.
dc.identifier.citationУдовенко С. Г., Грабовський Є. М., Донський Д. О., Чала Л. Е. Мультимодальна технологія пошуку та кластеризації слабоструктурованих текстово-графічних документів // Біоніка інтелекту. 2024. № 2 (101). С. 3-16.
dc.identifier.doihttps://doi.org/10.30837/bi.2024.2(101).01
dc.identifier.urihttps://openarchive.nure.ua/handle/document/34263
dc.language.isouk
dc.publisherХНУРЕ
dc.subjectтекстово-графічні документи
dc.subjectмультимодальна система
dc.subjectкластеризація
dc.subjectалгоритм soinn
dc.subjectпорівняння текстово-графічних фрагментів
dc.subjectанотація зображень
dc.subjecttext-graphic documents
dc.subjectmultimodal system
dc.subjectclusterization
dc.subjectsoinn algorithm
dc.subjectcomparison of text-graphic fragments
dc.subjectimage annotation
dc.titleМультимодальна технологія пошуку та кластеризації слабоструктурованих текстово-графічних документів
dc.typeArticle
dspace.entity.typePublication

Файли

Оригінальний пакунок

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
3-16.pdf
Розмір:
1.34 MB
Формат:
Adobe Portable Document Format

Пакунок ліцензії

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
license.txt
Розмір:
10.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: