Публікація: Дослідження та порівняння методів розпізнавання текстів страхового сектору за визначеними сутностями
Завантаження...
Дата
Автори
Назва журналу
ISSN журналу
Назва тому
Видавець
Анотація
Об’єктом дослідження є текстові документи страхового сектору, що містять неструктуровані дані. Метою дослідження є порівняння сучасних методів розпізнавання іменованих сутностей та розроблення гібридного підходу вилучення визначених сутностей із текстів страхових документів, що забезпечить високу точність і повноту обробки даних. У роботі використано методи машинного та глибокого навчання, трансформерні моделі, підходи з використанням великих мовних моделей у поєднанні з RAG для ідентифікації сутностей у текстах документів. Наукова новизна роботи полягає у розробленні та апробації гібридного підходу до розпізнавання іменованих сутностей у текстах страхового сектору, який поєднує можливості трансформерів, LLM, RAG та MCP. Взаємозв’язок з іншими роботами полягає в інтеграції сучасних досліджень у галузі NLP, застосуванні результатів робіт з побудови трансформерних моделей та гібридних систем для NER. Рекомендації щодо використання результатів роботи передбачають покращення швидкості та точності обробки заяв, підвищення якості оцінки ризиків, а також покращення клієнтського сервісу. У результаті дослідження розроблено прототип системи автоматизованого розпізнавання іменованих сутностей у текстах страхового сектору, який забезпечує високу точність витягування визначених сутностей і може бути адаптований для використання у фінансово-страхових компаніях.
Опис
Ключові слова
регулярний вираз, страховий сектор, розпізнавання текстів, розпізнавання іменованих сутностей
Цитування
Нечаєва Я. Є. Дослідження та порівняння методів розпізнавання текстів страхового сектору за визначеними сутностями : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 122 Комп’ютерні науки / Я. Є. Нечаєва ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 95 с.