Публікація:
Image to audio agent for creating audio sequences

Завантаження...
Зображення мініатюри

Дата

Назва журналу

ISSN журналу

Назва тому

Видавець

НТУ «ХПІ»

Дослідницькі проекти

Організаційні одиниці

Випуск журналу

Анотація

Робота присвячена розробці та дослідженню триетапного мультимодального конвеєра (Image-to-Audio) для автоматичного перетворення візуальних даних у реалістичні звукові ландшафти. Запропонована архітектура складається з аналітичного рівня (комп’ютерний зір Florence-2) для виділення семантики й об'єктів сцени , когнітивного рівня (мала мовна модель Phi-3.5-mini), що виступає інтелектуальним «містком» і трансформує технічні дескриптори у творчі текстові підказки (промпти) , та рівня синтезу (модель Stable-Audio-Open-1.0) для генерації високоякісного стереозвуку. Авторами обґрунтовано високу практичну цінність розробки у двох напрямах: як асистивної технології для людей із порушеннями зору (створення звукових «знімків» оточення для інтуїтивного сприйняття простору) , а також у психології та терапії для генерації персоналізованих бінауральних аудіоландшафтів з метою релаксації, медитації та зниження рівня тривожності.

Опис

Ключові слова

перетворення зображення у звук (Image-to-Audio), мультимодальні системи, генерація аудіоописів, малі мовні моделі (SLM), акустичний синтез, Florence-2, Phi-3.5-mini

Цитування

Volokitin V. G. Image to audio agent for creating audio sequences / V. G. Volokitin, K. G. Selivanova // Інформаційні технології: наука, техніка, технологія, освіта, здоров'я: тези доповідей XXXIV міжнародної науково-практичної конференції MicroCAD-2026, 13-16 травня 2026 р. – Харків : НТУ «ХПІ». – 2026. – С. 1626.

DOI

Схвалення

Рецензія

Доповнено

На які посилаються