Публікація: Дослідження методів автоматизації формування текстових корпусів
Завантаження...
Дата
2025
Автори
Назва журналу
ISSN журналу
Назва тома
Видавництво
Анотація
Обʼєктом дослідження є процеси формування, обробки та систематизації україномовних текстових даних для створення лінгвістичних корпусів. Метою роботи є підвищення якості україномовних текстових корпусів та систем для автоматичного їх формування шляхом розробки вдосконаленої системи автоматичного формування текстових корпусів з покращеними методами нормалізації та токенізації текстів. Методи дослідження охоплюють порівняльний аналіз наявних текстових корпусів, критичне вивчення методів нормалізації та токенізації, емпіричне дослідження проблем послідовності в текстових даних. У результаті кваліфікаційної роботи було розроблено програмний інтерфейс для автоматизованого формування текстових корпусів з покращеними методами нормалізації та токенізації текстів українських новин.
Опис
Ключові слова
створення лінгвістичних корпусів, автоматизаця формування текстових корпусів, лінгвістика, токенізація текстів
Бібліографічний опис
Горєлов Д. О. Дослідження методів автоматизації формування текстових корпусів: пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 – Інженерія програмного забезпечення / Д. О. Горєлов ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 106 с.