Публікація: Дослідження моделей компʼютерного зору для вирішення задачі розпізнавання обʼєктів та тексту
Завантаження...
Дата
Автори
Назва журналу
ISSN журналу
Назва тому
Видавець
Анотація
Об’єкт дослідження – процес аналізу зображень із використанням сучасних мультимодальних моделей комп’ютерного зору та обробки природної мови. Предмет дослідження – методи та моделі розпізнавання об’єктів і тексту на зображеннях у межах vision-language підходу. Мета роботи – теоретичне та експериментальне дослідження можливостей мультимодальних vision-language моделей для вирішення задач розпізнавання об’єктів, оптичного розпізнавання тексту та комбінованого аналізу сцен. Методи дослідження – аналіз і узагальнення наукових публікацій, теоретичне моделювання, експериментальне дослідження роботи мультимодальної моделі у режимі inference, порівняльний аналіз результатів. У роботі досліджено можливості застосування мультимодальних моделей для вирішення задач аналізу зображень без спеціалізованого донавчання. Показано, що формулювання завдання у вигляді текстової інструкції дозволяє отримувати структуровані результати у вигляді описів об’єктів, координат обмежувальних прямокутників та розпізнаного тексту. Отримані результати підтверджують перспективність мультимодального підходу для побудови універсальних систем комп’ютерного зору.
Опис
Ключові слова
комп’ютерний зір, мультимодальна модель, оптичне розпізнавання тексту, vision-language підхід
Цитування
Омельченко М. Д. Дослідження моделей компʼютерного зору для вирішення задачі розпізнавання обʼєктів та тексту : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 122 Комп’ютерні науки / М. Д. Омельченко ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 61 с.