Дослідження методів класифікації листів українською мовою з метою виявлення спаму

Нечіпор, В. О.

Публікація:
Дослідження методів класифікації листів українською мовою з метою виявлення спаму

Файли

2021_M_PI_Nechipor_VO.pdf (901.42 KB)

Дата

2021

Автори

Нечіпор, В. О.

Анотація

Мовний аналіз текстів з метою їх подальшої класифікації є об’єктом дослідження. Метою роботи є підвищення ефективності класифікації листів українською мовою з метою фільтрування спаму. Методи розробки базуються на таких технологіях, як мова програмування Python, Datalore з використанням бібліотек pandas, nltk, sklearn. В рамках дослідження було проаналізовано недоліки методу класифікації Байєса в рамках сучасної реалізації цього методу на мові програмування Python для роботи з українською мовою. Основним недоліком програмної реалізації методу Байєса було виявлено некоректний для української мови поділ на слова за умови, що слова містять апостроф. Для виправлення цієї проблеми було розроблено модифікований метод класифікації за Байєсом, який коректно працює з словами української мови, що містять апостроф. В результаті вдалось підняти ефективність прогнозованої класифікації спаму наївного класифікатору з 82,7% до 88,3%, що також перевищило ефективність мультиноміального (85,4%) методу без модифікації для розпізнавання апострофів.

Ключові слова

машинне навчання, метод класифікації байєса, мультиноміальний метод, наївна класифікація, українська мова, апостроф, спам

Цитування

Нечіпор В. О. Дослідження методів класифікації листів українською мовою з метою виявлення спаму : пояснювальна записка до атестаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 121 — Інженерфя програмного забезпечення / В. О. Нечіпор ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2021. – 69 с.

URI

https://openarchive.nure.ua/handle/document/18883

Колекції

Кваліфікаційні роботи магістрів (Маг_ПІ)

Повна сторінка документа

Публікація:
Дослідження методів класифікації листів українською мовою з метою виявлення спаму

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація: Дослідження методів класифікації листів українською мовою з метою виявлення спаму

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація:
Дослідження методів класифікації листів українською мовою з метою виявлення спаму