Публікація:
Дослідження методів автоматизації формування текстових корпусів

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Обʼєктом дослідження є процеси формування, обробки та систематизації україномовних текстових даних для створення лінгвістичних корпусів. Метою роботи є підвищення якості україномовних текстових корпусів та систем для автоматичного їх формування шляхом розробки вдосконаленої системи автоматичного формування текстових корпусів з покращеними методами нормалізації та токенізації текстів. Методи дослідження охоплюють порівняльний аналіз наявних текстових корпусів, критичне вивчення методів нормалізації та токенізації, емпіричне дослідження проблем послідовності в текстових даних. У результаті кваліфікаційної роботи було розроблено програмний інтерфейс для автоматизованого формування текстових корпусів з покращеними методами нормалізації та токенізації текстів українських новин.

Опис

Ключові слова

створення лінгвістичних корпусів, автоматизаця формування текстових корпусів, лінгвістика, токенізація текстів

Цитування

Горєлов Д. О. Дослідження методів автоматизації формування текстових корпусів: пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 – Інженерія програмного забезпечення / Д. О. Горєлов ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 106 с.

DOI

Схвалення

Рецензія

Доповнено

На які посилаються