Публікація:
Мультимодальна мовна модель на базі мультиагентної архітектури для спільної обробки текстової та візуальної інформації

Завантаження...
Зображення мініатюри

Дата

2025

Назва журналу

ISSN журналу

Назва тома

Видавництво

Дослідницькі проекти

Організаційні підрозділи

Видання журналу

Анотація

Мета роботи – розробка мультимодальної системи на основі моделі Transformer та LLM, на основі агентів для реалізації мультимодального аналізу даних та створенню чіткого потоку генерації та обробки мультимодальних даних. Методи дослідження – аналіз існуючих наукових робіт, аналіз користувацьких вимог, аналіз існуючих аналогів та методів розробки мультимодальних систем. У результаті розробки частини кваліфікаційної роботи було створено агентну систему для мультимодальної обробки та генерації інформації, що дозволить створити систему, яка буде більш повно задовольняти потреби користувача у одній екосистемі. Для реалізації даного проекту було використано Hugging Face, Llama 3.2 Vision, Langchain, Langgraph, ChatGPT API

Опис

Ключові слова

Transformer, мультимодальний аналіз даних, Hugging Face

Бібліографічний опис

Гончар І. М. Мультимодальна мовна модель на базі мультиагентної архітектури для спільної обробки текстової та візуальної інформації : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на першому (бакалаврському) рівні, спеціальність 122 Комп’ютерні науки / І. М. Гончар ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 67 с.

DOI