Публікація: Дослідження методів класифікації листів українською мовою з метою виявлення спаму
Завантаження...
Дата
Автори
Назва журналу
ISSN журналу
Назва тому
Видавець
Анотація
Мовний аналіз текстів з метою їх подальшої класифікації є об’єктом дослідження. Метою роботи є підвищення ефективності класифікації листів українською мовою з метою фільтрування спаму. Методи розробки базуються на таких технологіях, як мова програмування Python, Datalore з використанням бібліотек pandas, nltk, sklearn.
В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблено модифікований метод класифікації за Байєсом, який коректно працює з словами української мови, що містять апостроф. В результаті вдалось підняти ефективність прогнозованої класифікації спаму наївного класифікатору з 82,7% до 88,3%, що також перевищило ефективність мультиноміального (85,4%) методу без модифікації для розпізнавання апострофів.
Опис
Ключові слова
машинне навчання, метод класифікації байєса, мультиноміальний метод, наївна класифікація, українська мова, апостроф, спам
Цитування
Нечіпор В. О. Дослідження методів класифікації листів українською мовою з метою виявлення спаму : пояснювальна записка до атестаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 — Інженерфя програмного забезпечення / В. О. Нечіпор ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2021. – 69 с.