Публікація: Модифікація методу класифікації Байєса в задачах виявлення спаму українською мовою
Завантаження...
Дата
Автори
Назва журналу
ISSN журналу
Назва тому
Видавець
ХНУРЭ
Анотація
Стаття присвячена аналізу існуючих технологій для виконання задачі класифікації української мови з метою фільтрації спаму. В рамках дослідження було проаналізовано недоліки методу класифікації байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. для виправлення цієї проблеми було розроблемо модифікований метод класифікації за байєсом, який коректно працює зі словами української мови, що містять апостроф. В результаті вдалось підняти ефективність спрогнозованого класифікування спаму з 86% до 91%.
Опис
Ключові слова
українська мова, апостроф, спам, прогнозування
Цитування
Нечіпор В. О., Єрохін А. Л. Модифікація методу класифікації байєса в задачах виявлення спаму українською мовою // Бионика интеллекта. 2021. № 1 (96). С. 22–28.