Публікація:
Вплив розміру кадру на розпізнавання емоції за мовленням

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

ХНУРЕ

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

У задачі розпізнавання емоції за мовленням, як і у більшості задач машинного навчання розпізнавання за звуком, використовується так званий фреймінг. Це процес поділу вихідного аудіосигналу на кадри певного розміру, кожен з яких оброблюється окремо. У цій статті представлено порівняння впливу розміру кадрів на результат розпізнавання емоції на прикладі CNN мережі. Для експериментів використовувався набір CREMA-D із аугментаціями, використовуючи додавання шуму, розтягування у часі та зміну висоти тону. В ході досліджень вдалося досягти точності розпізнавання в 98,8% із використанням динамічного розміру кадру.

Опис

Ключові слова

аудіо, емоції, кадр, машинне навчання, нейронні мережі, розпізнавання, python, tensorflow

Цитування

Суворов Д. С., Афанасьєва І. В, Онищенко К. Г., Калиниченко О. В. Вплив розміру кадру на розпізнавання емоції за мовленням // Біоніка інтелекту. 2023. № 1(99). С. 44-51.

Схвалення

Рецензія

Доповнено

На які посилаються