Публікація: Image to audio agent for creating audio sequences
| dc.contributor.author | Volokitin, V. G. | |
| dc.contributor.author | Selivanova, K. G. | |
| dc.date.accessioned | 2026-05-27T17:29:33Z | |
| dc.date.issued | 2026 | |
| dc.description.abstract | Робота присвячена розробці та дослідженню триетапного мультимодального конвеєра (Image-to-Audio) для автоматичного перетворення візуальних даних у реалістичні звукові ландшафти. Запропонована архітектура складається з аналітичного рівня (комп’ютерний зір Florence-2) для виділення семантики й об'єктів сцени , когнітивного рівня (мала мовна модель Phi-3.5-mini), що виступає інтелектуальним «містком» і трансформує технічні дескриптори у творчі текстові підказки (промпти) , та рівня синтезу (модель Stable-Audio-Open-1.0) для генерації високоякісного стереозвуку. Авторами обґрунтовано високу практичну цінність розробки у двох напрямах: як асистивної технології для людей із порушеннями зору (створення звукових «знімків» оточення для інтуїтивного сприйняття простору) , а також у психології та терапії для генерації персоналізованих бінауральних аудіоландшафтів з метою релаксації, медитації та зниження рівня тривожності. | |
| dc.identifier.citation | Volokitin V. G. Image to audio agent for creating audio sequences / V. G. Volokitin, K. G. Selivanova // Інформаційні технології: наука, техніка, технологія, освіта, здоров'я: тези доповідей XXXIV міжнародної науково-практичної конференції MicroCAD-2026, 13-16 травня 2026 р. – Харків : НТУ «ХПІ». – 2026. – С. 1626. | |
| dc.identifier.uri | https://openarchive.nure.ua/handle/document/34542 | |
| dc.language.iso | en_US | |
| dc.publisher | НТУ «ХПІ» | |
| dc.subject | перетворення зображення у звук (Image-to-Audio) | |
| dc.subject | мультимодальні системи | |
| dc.subject | генерація аудіоописів | |
| dc.subject | малі мовні моделі (SLM) | |
| dc.subject | акустичний синтез | |
| dc.subject | Florence-2 | |
| dc.subject | Phi-3.5-mini | |
| dc.title | Image to audio agent for creating audio sequences | |
| dc.type | Conference proceedings | |
| dspace.entity.type | Publication |
Файли
Оригінальний пакунок
1 - 1 з 1
Завантаження...
- Назва:
- selivanova.pdf
- Розмір:
- 379.01 KB
- Формат:
- Adobe Portable Document Format
Пакунок ліцензії
1 - 1 з 1
Завантаження...
- Назва:
- license.txt
- Розмір:
- 10.74 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: