Публікація: Image to audio agent for creating audio sequences
Завантаження...
Дата
Назва журналу
ISSN журналу
Назва тому
Видавець
НТУ «ХПІ»
Анотація
Робота присвячена розробці та дослідженню триетапного мультимодального конвеєра (Image-to-Audio) для автоматичного перетворення візуальних даних у реалістичні звукові ландшафти. Запропонована архітектура складається з аналітичного рівня (комп’ютерний зір Florence-2) для виділення семантики й об'єктів сцени , когнітивного рівня (мала мовна модель Phi-3.5-mini), що виступає інтелектуальним «містком» і трансформує технічні дескриптори у творчі текстові підказки (промпти) , та рівня синтезу (модель Stable-Audio-Open-1.0) для генерації високоякісного стереозвуку. Авторами обґрунтовано високу практичну цінність розробки у двох напрямах: як асистивної технології для людей із порушеннями зору (створення звукових «знімків» оточення для інтуїтивного сприйняття простору) , а також у психології та терапії для генерації персоналізованих бінауральних аудіоландшафтів з метою релаксації, медитації та зниження рівня тривожності.
Опис
Ключові слова
перетворення зображення у звук (Image-to-Audio), мультимодальні системи, генерація аудіоописів, малі мовні моделі (SLM), акустичний синтез, Florence-2, Phi-3.5-mini
Цитування
Volokitin V. G. Image to audio agent for creating audio sequences / V. G. Volokitin, K. G. Selivanova // Інформаційні технології: наука, техніка, технологія, освіта, здоров'я: тези доповідей XXXIV міжнародної науково-практичної конференції MicroCAD-2026, 13-16 травня 2026 р. – Харків : НТУ «ХПІ». – 2026. – С. 1626.