Публікація:
Дослідження методів класифікації листів українською мовою з метою виявлення спаму

dc.contributor.authorНечіпор, В. О.
dc.date.accessioned2021-12-29T15:20:46Z
dc.date.available2021-12-29T15:20:46Z
dc.date.issued2021
dc.description.abstractМовний аналіз текстів з метою їх подальшої класифікації є об’єктом дослідження. Метою роботи є підвищення ефективності класифікації листів українською мовою з метою фільтрування спаму. Методи розробки базуються на таких технологіях, як мова програмування Python, Datalore з використанням бібліотек pandas, nltk, sklearn. В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблено модифікований метод класифікації за Байєсом, який коректно працює з словами української мови, що містять апостроф. В результаті вдалось підняти ефективність прогнозованої класифікації спаму наївного класифікатору з 82,7% до 88,3%, що також перевищило ефективність мультиноміального (85,4%) методу без модифікації для розпізнавання апострофів.uk_UA
dc.identifier.citationНечіпор В. О. Дослідження методів класифікації листів українською мовою з метою виявлення спаму : пояснювальна записка до атестаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 — Інженерфя програмного забезпечення / В. О. Нечіпор ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2021. – 69 с.uk_UA
dc.identifier.urihttps://openarchive.nure.ua/handle/document/18883
dc.language.isoukuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectметод класифікації байєсаuk_UA
dc.subjectмультиноміальний методuk_UA
dc.subjectнаївна класифікаціяuk_UA
dc.subjectукраїнська моваuk_UA
dc.subjectапострофuk_UA
dc.subjectспамuk_UA
dc.titleДослідження методів класифікації листів українською мовою з метою виявлення спамуuk_UA
dc.typeOtheruk_UA
dspace.entity.typePublication

Файли

Оригінальний пакунок

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
2021_M_PI_Nechipor_VO.pdf
Розмір:
901.42 KB
Формат:
Adobe Portable Document Format

Пакунок ліцензії

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
license.txt
Розмір:
9.42 KB
Формат:
Item-specific license agreed upon to submission
Опис: