Публікація: Методи контент-аналізу в комп'ютерній лінгвістиці для автоматизованого маркування емоційно-забарвленої лексики
Завантаження...
Дата
2024
Автори
Назва журналу
ISSN журналу
Назва тома
Видавництво
Анотація
У цій кваліфікаційній роботі досліджується розробка інноваційних методів контент-аналізу текстової інформації, збагаченої емоційно забарвленою лексикою. Основна мета — створити універсальну систему, здатну аналізувати, узагальнювати та інтерпретувати тексти для виявлення прихованих емоцій, настроїв і тем. Така система має значний потенціал для різноманітних додатків, включаючи модерацію контенту та генерацію з урахуванням конкретних аудиторій на основі аналізу вхідних текстових масивів. Наше дослідження складається з кількох важливих компонентів, починаючи з вивчення методів аналізу текстового вмісту різної довжини. Ми зосередилися на класифікації текстових масивів за типами емоцій і настроїв, використовуючи лінгвістичні моделі нейронної мережі для семантичного, емоційного та тематичного аналізу. Це передбачало всебічний огляд існуючих наборів даних для інформування на етапах навчання та тестування нашої моделі. Ключовим досягненням стала розробка концептуальної моделі позначення емоційно забарвленої лексики в текстах. Ця модель об’єднує чотири модулі: аналіз почуття, розпізнавання іменованих об’єктів (NER), класифікація емоцій і моделювання теми. Кожен модуль відіграє вирішальну роль у аналізі тексту, щоб забезпечити детальну інтерпретацію його змісту. Аналіз настроїв визначає загальну тональність, NER ідентифікує та класифікує названі сутності, класифікація емоцій кількісно визначає присутні емоції, а тематичне моделювання визначає обговорювані теми. Практична реалізація включала модуль попередньої обробки для очищення тексту та поділу на фрагменти, забезпечуючи належну підготовку вхідних даних. Модуль аналізу застосував інтегровані методи для отримання детальної інформації з тексту. Згодом модуль генерації використовував попередньо визначені шаблони підказок для створення маркерів і підказок для генеративних моделей штучного інтелекту, що забезпечувало генерацію контенту відповідно до контексту. Було проведено масштабні експерименти для оптимізації параметрів навчання, включаючи розмір партії, розмір набору даних, кількість епох і тип оптимізатора. Також було оцінено використання методів масштабування для підвищення ефективності навчання класифікаторів нейронних мереж. Результати підтвердили здатність моделі точно інтерпретувати та класифікувати складні текстові дані, демонструючи її практичне застосування в аналізі та створенні контенту. На завершення ця теза представляє складну систему для аналізу емоційно забарвленої текстової інформації, інтегруючи аналіз настроїв, NER, класифікацію емоцій і моделювання тем у єдину структуру. Дослідження просуває сферу аналізу тексту, пропонуючи практичне застосування в різних сферах, надаючи детальне уявлення про настрій, емоції та теми текстового вмісту. Ця робота сприяє розвитку чуйних і адаптивних систем, сприяючи проактивним діям на основі комплексного аналізу тексту.
Опис
Ключові слова
аналіз тексту, класифікація емоцій, тематичне модерування, текстовий майнінг, емоційно забарвлена лексика, регулювання тексту
Бібліографічний опис
Захаров Д. О. Методи контент-аналізу в комп'ютерній лінгвістиці для автоматизованого маркування емоційно-забарвленої лексики : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 123 Комп'ютерна інженерія / Д. О. Захаров ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2024. – 168 с.