Мультимодальна мовна модель на базі мультиагентної архітектури для спільної обробки текстової та візуальної інформації

Гончар, І. М.Мультимодальна мовна модель на базі мультиагентної архітектури для спільної обробки текстової та візуальної інформаціїMy University2025Transformerмультимодальний аналіз данихHugging FaceMy UniversityMy University2025-10-042025-10-042025ukOtherГончар І. М. Мультимодальна мовна модель на базі мультиагентної архітектури для спільної обробки текстової та візуальної інформації : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на першому (бакалаврському) рівні, спеціальність 122 Комп’ютерні науки / І. М. Гончар ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2025. – 67 с.https://openarchive.nure.ua/handle/document/32875Мета роботи – розробка мультимодальної системи на основі моделі Transformer та LLM, на основі агентів для реалізації мультимодального аналізу даних та створенню чіткого потоку генерації та обробки мультимодальних даних. Методи дослідження – аналіз існуючих наукових робіт, аналіз користувацьких вимог, аналіз існуючих аналогів та методів розробки мультимодальних систем. У результаті розробки частини кваліфікаційної роботи було створено агентну систему для мультимодальної обробки та генерації інформації, що дозволить створити систему, яка буде більш повно задовольняти потреби користувача у одній екосистемі. Для реалізації даного проекту було використано Hugging Face, Llama 3.2 Vision, Langchain, Langgraph, ChatGPT API