Image to audio agent for creating audio sequences

Volokitin, V. G.; Selivanova, K. G.

Публікація:
Image to audio agent for creating audio sequences

Файли

selivanova.pdf (379.01 KB)

Дата

2026

Автори

Volokitin, V. G.

Selivanova, K. G.

Видавець

НТУ «ХПІ»

Анотація

Робота присвячена розробці та дослідженню триетапного мультимодального конвеєра (Image-to-Audio) для автоматичного перетворення візуальних даних у реалістичні звукові ландшафти. Запропонована архітектура складається з аналітичного рівня (комп’ютерний зір Florence-2) для виділення семантики й об'єктів сцени , когнітивного рівня (мала мовна модель Phi-3.5-mini), що виступає інтелектуальним «містком» і трансформує технічні дескриптори у творчі текстові підказки (промпти) , та рівня синтезу (модель Stable-Audio-Open-1.0) для генерації високоякісного стереозвуку. Авторами обґрунтовано високу практичну цінність розробки у двох напрямах: як асистивної технології для людей із порушеннями зору (створення звукових «знімків» оточення для інтуїтивного сприйняття простору) , а також у психології та терапії для генерації персоналізованих бінауральних аудіоландшафтів з метою релаксації, медитації та зниження рівня тривожності.

Ключові слова

перетворення зображення у звук (Image-to-Audio), мультимодальні системи, генерація аудіоописів, малі мовні моделі (SLM), акустичний синтез, Florence-2, Phi-3.5-mini

Цитування

Volokitin V. G. Image to audio agent for creating audio sequences / V. G. Volokitin, K. G. Selivanova // Інформаційні технології: наука, техніка, технологія, освіта, здоров'я: тези доповідей XXXIV міжнародної науково-практичної конференції MicroCAD-2026, 13-16 травня 2026 р. – Харків : НТУ «ХПІ». – 2026. – С. 1626.

URI

https://openarchive.nure.ua/handle/document/34542

Колекції

Кафедра біомедичної інженерії (БМІ)

Повна сторінка документа

Публікація:
Image to audio agent for creating audio sequences

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація: Image to audio agent for creating audio sequences

Файли

Дата

Автори

Назва журналу

ISSN журналу

Назва тому

Видавець

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Опис

Ключові слова

Цитування

DOI

URI

Колекції

Схвалення

Рецензія

Доповнено

На які посилаються

Публікація:
Image to audio agent for creating audio sequences