Публікація:
Дослідження методів класифікації листів українською мовою з метою виявлення спаму

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Мовний аналіз текстів з метою їх подальшої класифікації є об’єктом дослідження. Метою роботи є підвищення ефективності класифікації листів українською мовою з метою фільтрування спаму. Методи розробки базуються на таких технологіях, як мова програмування Python, Datalore з використанням бібліотек pandas, nltk, sklearn. В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблено модифікований метод класифікації за Байєсом, який коректно працює з словами української мови, що містять апостроф. В результаті вдалось підняти ефективність прогнозованої класифікації спаму наївного класифікатору з 82,7% до 88,3%, що також перевищило ефективність мультиноміального (85,4%) методу без модифікації для розпізнавання апострофів.

Опис

Ключові слова

машинне навчання, метод класифікації байєса, мультиноміальний метод, наївна класифікація, українська мова, апостроф, спам

Цитування

Нечіпор В. О. Дослідження методів класифікації листів українською мовою з метою виявлення спаму : пояснювальна записка до атестаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 — Інженерфя програмного забезпечення / В. О. Нечіпор ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2021. – 69 с.

DOI

Схвалення

Рецензія

Доповнено

На які посилаються