Публікація: Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton
dc.contributor.author | Верколаб, Г. С. | |
dc.date.accessioned | 2025-03-26T18:10:32Z | |
dc.date.available | 2025-03-26T18:10:32Z | |
dc.date.issued | 2024 | |
dc.description.abstract | У процесі розробки системи з кодами на Python для великих мовних моделей (LLM) з використанням NVIDIA Triton Inference Server у виробничому середовищі використовується масштабованість та ефективність Triton Inference Server, що дозволиляє обробляти велику кількість запитів на інференс LLM, мінімізуючи затримки. Система є універсальною, підтримує різні архітектури LLM, що робить її пристосованою до різноманітних завдань розуміння та генерації природної мови. Процес розгортання спрощений, і наша система легко інтегрується з існуючими програмами на Python. Пріоритетом є безпека з комплексним моніторингом і веденням логів, при цьому пропонуючи можливості для кастомізації та оптимізації. Реальне застосування в різних галузях підкреслює універсальність системи, а її автоматизація та ефективність приносять відчутні переваги, знижуючи операційні витрати та покращуючи досвід користувачів. Загалом, система дає змогу організаціям використовувати можливості LLM у виробничому середовищі, що є значним кроком на шляху до інтелектуальної, автоматизованої та ефективної обробки природної мови. Постановка задачі. Система, яка використовує коди Python та NVIDIA Triton Inference Server для виведення LLM у виробничому середовищі, забезпечує масштабованість, ефективність, універсальність, безпеку та можливості моніторингу. Вона спрощує розгортання та управління LLM, що робить її цінним інструментом для широкого спектру додатків для обробки природної мови, від чат-ботів і віртуальних асистентів до аналізу настроїв і генерації контенту, серед багатьох інших. | |
dc.identifier.citation | Верколаб Г. С. Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 126 Інформаційні системи та технології / Г. С. Верколаб ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2024. – 78 с. | |
dc.identifier.uri | https://openarchive.nure.ua/handle/document/30123 | |
dc.language.iso | uk | |
dc.subject | Triton Inference Server | |
dc.subject | обробка запитів | |
dc.subject | управління LLM | |
dc.title | Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton | |
dc.type | Other | |
dspace.entity.type | Publication |
Файли
Оригінальний пакет
1 - 1 з 1
Завантаження...
- Назва:
- 2024_M_RTIKS_Verkolab_GS.pdf
- Розмір:
- 795.46 KB
- Формат:
- Adobe Portable Document Format
Ліцензійний пакет
1 - 1 з 1
Немає доступних мініатюр
- Назва:
- license.txt
- Розмір:
- 9.55 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: