Публікація:
Метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

ХНУРЕ

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

У представленому дослідженні розроблено метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання. Проаналізовано сучасні методи боротьби з дезінформацією та виявлення неправдивого контенту. В рамках роботи реалізовано систему ідентифікації фейків, побудовану на ансамблевому підході, а також описано її архітектурну структуру. Детально описано основні етапи очищення текстових даних, отриманих із соціальних мереж і повинних, зокрема нормалізацію категоріальних змінних. Проведено статистичний аналіз тексту та аналіз критеріїв виявлення джерел поширення дезінформації. Здійснено аналіз балансу цільових і допоміжних змінних, що дало змогу виявити залежності між мовою повідомлення та достовірністю. Для моделювання використано два різні типи текстових ембедингів та відповідні моделі класифікації: лінійну регресію та логістичну регресію. Підсумковим етапом стало застосування ансамблю моделей, що дало змогу поєднати прогностичну здатність обох моделей. Результати показали, що комбінація підходів покращує класифікаційну якість, особливо в умовах незбалансованих даних. Використання ансамблю моделей дало змогу збільшити точність з 73% (модель 1) та 71% (модель 2) до 78%. The presented study developed a method for detecting sources of disinformation based on ensemble machine learning models. Modem methods of combating disinformation and detecting false content were analyzed. A fake news identification system based on the ensemble approach was implemented as part of the work, and its architectural structure was described. The main stages of cleaning text data obtained from social networks and news are described in detaU, in particular, the normalization of categorical variables. Statistical analysis of the text and analysis of the criteria for identifying sources of disinformation distribution are carried out. An analysis of the balance of target and auxiliary variables was performed, which made it possible to identify dependencies between the language of the message and reliability. Two types of text embeddings and corresponding classification models were used for modeling: linear regression and logistic regression. The final stage was the application of an ensemble of models, which made it possible to combine the predictive ability of both models. The results showed that the combination of approaches improves classification quality, especially in conditions of imbalanced data. Using an ensemble of models allowed us to increase the accuracy from 73% (model 1) and 71% (model 2) to 78%.

Опис

Ключові слова

дезінформація, датасет, ансамблеві моделі, лінійна регресія, логістична регресія, ембединг, disinformation, dataset, machine learnin, ensemble models, linear regression, logistic regression, embedding

Цитування

Лозинська В., Марків О. О., Висоцька В. А. Метод виявлення джерел дезінформації на основі ансамблевих моделей машинного навчання // Біоніка інтелекту. 2025. № 1(102). С. 11-19.

Схвалення

Рецензія

Доповнено

На які посилаються