Публікація: Вплив розміру кадру на розпізнавання емоції за мовленням
Завантаження...
Файли
Дата
Назва журналу
ISSN журналу
Назва тому
Видавець
ХНУРЕ
Анотація
У задачі розпізнавання емоції за мовленням, як і у більшості задач машинного навчання розпізнавання за звуком, використовується так званий фреймінг. Це процес поділу вихідного аудіосигналу на кадри певного розміру, кожен з яких оброблюється окремо. У цій статті представлено порівняння впливу розміру кадрів на
результат розпізнавання емоції на прикладі CNN мережі. Для експериментів використовувався набір CREMA-D із аугментаціями, використовуючи додавання шуму, розтягування у часі та зміну висоти тону. В ході досліджень вдалося досягти точності розпізнавання в 98,8% із використанням динамічного розміру кадру.
Опис
Ключові слова
аудіо, емоції, кадр, машинне навчання, нейронні мережі, розпізнавання, python, tensorflow
Цитування
Суворов Д. С., Афанасьєва І. В, Онищенко К. Г., Калиниченко О. В. Вплив розміру кадру на розпізнавання емоції за мовленням // Біоніка інтелекту. 2023. № 1(99). С. 44-51.