Публікація: Дослідження методів класифікації листів українською мовою з метою виявлення спаму
| dc.contributor.author | Нечіпор, В. О. | |
| dc.date.accessioned | 2021-12-29T15:20:46Z | |
| dc.date.available | 2021-12-29T15:20:46Z | |
| dc.date.issued | 2021 | |
| dc.description.abstract | Мовний аналіз текстів з метою їх подальшої класифікації є об’єктом дослідження. Метою роботи є підвищення ефективності класифікації листів українською мовою з метою фільтрування спаму. Методи розробки базуються на таких технологіях, як мова програмування Python, Datalore з використанням бібліотек pandas, nltk, sklearn. В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблено модифікований метод класифікації за Байєсом, який коректно працює з словами української мови, що містять апостроф. В результаті вдалось підняти ефективність прогнозованої класифікації спаму наївного класифікатору з 82,7% до 88,3%, що також перевищило ефективність мультиноміального (85,4%) методу без модифікації для розпізнавання апострофів. | uk_UA |
| dc.identifier.citation | Нечіпор В. О. Дослідження методів класифікації листів українською мовою з метою виявлення спаму : пояснювальна записка до атестаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 — Інженерфя програмного забезпечення / В. О. Нечіпор ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2021. – 69 с. | uk_UA |
| dc.identifier.uri | https://openarchive.nure.ua/handle/document/18883 | |
| dc.language.iso | uk | uk_UA |
| dc.subject | машинне навчання | uk_UA |
| dc.subject | метод класифікації байєса | uk_UA |
| dc.subject | мультиноміальний метод | uk_UA |
| dc.subject | наївна класифікація | uk_UA |
| dc.subject | українська мова | uk_UA |
| dc.subject | апостроф | uk_UA |
| dc.subject | спам | uk_UA |
| dc.title | Дослідження методів класифікації листів українською мовою з метою виявлення спаму | uk_UA |
| dc.type | Other | uk_UA |
| dspace.entity.type | Publication |
Файли
Оригінальний пакунок
1 - 1 з 1
Завантаження...
- Назва:
- 2021_M_PI_Nechipor_VO.pdf
- Розмір:
- 901.42 KB
- Формат:
- Adobe Portable Document Format
Пакунок ліцензії
1 - 1 з 1
Завантаження...
- Назва:
- license.txt
- Розмір:
- 9.42 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: