Публікація:
Дослідження методів автоматизації формування текстових корпусів

Завантаження...
Зображення мініатюри

Дата

2025

Назва журналу

ISSN журналу

Назва тома

Видавництво

Дослідницькі проекти

Організаційні підрозділи

Видання журналу

Анотація

Обʼєктом дослідження є процеси формування, обробки та систематизації україномовних текстових даних для створення лінгвістичних корпусів. Метою роботи є підвищення якості україномовних текстових корпусів та систем для автоматичного їх формування шляхом розробки вдосконаленої системи автоматичного формування текстових корпусів з покращеними методами нормалізації та токенізації текстів. Методи дослідження охоплюють порівняльний аналіз наявних текстових корпусів, критичне вивчення методів нормалізації та токенізації, емпіричне дослідження проблем послідовності в текстових даних. У результаті кваліфікаційної роботи було розроблено програмний інтерфейс для автоматизованого формування текстових корпусів з покращеними методами нормалізації та токенізації текстів українських новин.

Опис

Ключові слова

створення лінгвістичних корпусів, автоматизаця формування текстових корпусів, лінгвістика, токенізація текстів

Бібліографічний опис

Горєлов Д. О. Дослідження методів автоматизації формування текстових корпусів: пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 – Інженерія програмного забезпечення / Д. О. Горєлов ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 106 с.

DOI