Публікація:
Image to audio agent for creating audio sequences

dc.contributor.authorVolokitin, V. G.
dc.contributor.authorSelivanova, K. G.
dc.date.accessioned2026-05-27T17:29:33Z
dc.date.issued2026
dc.description.abstractРобота присвячена розробці та дослідженню триетапного мультимодального конвеєра (Image-to-Audio) для автоматичного перетворення візуальних даних у реалістичні звукові ландшафти. Запропонована архітектура складається з аналітичного рівня (комп’ютерний зір Florence-2) для виділення семантики й об'єктів сцени , когнітивного рівня (мала мовна модель Phi-3.5-mini), що виступає інтелектуальним «містком» і трансформує технічні дескриптори у творчі текстові підказки (промпти) , та рівня синтезу (модель Stable-Audio-Open-1.0) для генерації високоякісного стереозвуку. Авторами обґрунтовано високу практичну цінність розробки у двох напрямах: як асистивної технології для людей із порушеннями зору (створення звукових «знімків» оточення для інтуїтивного сприйняття простору) , а також у психології та терапії для генерації персоналізованих бінауральних аудіоландшафтів з метою релаксації, медитації та зниження рівня тривожності.
dc.identifier.citationVolokitin V. G. Image to audio agent for creating audio sequences / V. G. Volokitin, K. G. Selivanova // Інформаційні технології: наука, техніка, технологія, освіта, здоров'я: тези доповідей XXXIV міжнародної науково-практичної конференції MicroCAD-2026, 13-16 травня 2026 р. – Харків : НТУ «ХПІ». – 2026. – С. 1626.
dc.identifier.urihttps://openarchive.nure.ua/handle/document/34542
dc.language.isoen_US
dc.publisherНТУ «ХПІ»
dc.subjectперетворення зображення у звук (Image-to-Audio)
dc.subjectмультимодальні системи
dc.subjectгенерація аудіоописів
dc.subjectмалі мовні моделі (SLM)
dc.subjectакустичний синтез
dc.subjectFlorence-2
dc.subjectPhi-3.5-mini
dc.titleImage to audio agent for creating audio sequences
dc.typeConference proceedings
dspace.entity.typePublication

Файли

Оригінальний пакунок

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
selivanova.pdf
Розмір:
379.01 KB
Формат:
Adobe Portable Document Format

Пакунок ліцензії

Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
license.txt
Розмір:
10.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: