Публікація:
Дослідження моделей компʼютерного зору для вирішення задачі розпізнавання обʼєктів та тексту

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Об’єкт дослідження – процес аналізу зображень із використанням сучасних мультимодальних моделей комп’ютерного зору та обробки природної мови. Предмет дослідження – методи та моделі розпізнавання об’єктів і тексту на зображеннях у межах vision-language підходу. Мета роботи – теоретичне та експериментальне дослідження можливостей мультимодальних vision-language моделей для вирішення задач розпізнавання об’єктів, оптичного розпізнавання тексту та комбінованого аналізу сцен. Методи дослідження – аналіз і узагальнення наукових публікацій, теоретичне моделювання, експериментальне дослідження роботи мультимодальної моделі у режимі inference, порівняльний аналіз результатів. У роботі досліджено можливості застосування мультимодальних моделей для вирішення задач аналізу зображень без спеціалізованого донавчання. Показано, що формулювання завдання у вигляді текстової інструкції дозволяє отримувати структуровані результати у вигляді описів об’єктів, координат обмежувальних прямокутників та розпізнаного тексту. Отримані результати підтверджують перспективність мультимодального підходу для побудови універсальних систем комп’ютерного зору.

Опис

Ключові слова

комп’ютерний зір, мультимодальна модель, оптичне розпізнавання тексту, vision-language підхід

Цитування

Омельченко М. Д. Дослідження моделей компʼютерного зору для вирішення задачі розпізнавання обʼєктів та тексту : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 122 Комп’ютерні науки / М. Д. Омельченко ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 61 с.

DOI

Схвалення

Рецензія

Доповнено

На які посилаються