Публікація:
Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton

dc.contributor.authorВерколаб, Г. С.
dc.date.accessioned2025-03-26T18:10:32Z
dc.date.available2025-03-26T18:10:32Z
dc.date.issued2024
dc.description.abstractУ процесі розробки системи з кодами на Python для великих мовних моделей (LLM) з використанням NVIDIA Triton Inference Server у виробничому середовищі використовується масштабованість та ефективність Triton Inference Server, що дозволиляє обробляти велику кількість запитів на інференс LLM, мінімізуючи затримки. Система є універсальною, підтримує різні архітектури LLM, що робить її пристосованою до різноманітних завдань розуміння та генерації природної мови. Процес розгортання спрощений, і наша система легко інтегрується з існуючими програмами на Python. Пріоритетом є безпека з комплексним моніторингом і веденням логів, при цьому пропонуючи можливості для кастомізації та оптимізації. Реальне застосування в різних галузях підкреслює універсальність системи, а її автоматизація та ефективність приносять відчутні переваги, знижуючи операційні витрати та покращуючи досвід користувачів. Загалом, система дає змогу організаціям використовувати можливості LLM у виробничому середовищі, що є значним кроком на шляху до інтелектуальної, автоматизованої та ефективної обробки природної мови. Постановка задачі. Система, яка використовує коди Python та NVIDIA Triton Inference Server для виведення LLM у виробничому середовищі, забезпечує масштабованість, ефективність, універсальність, безпеку та можливості моніторингу. Вона спрощує розгортання та управління LLM, що робить її цінним інструментом для широкого спектру додатків для обробки природної мови, від чат-ботів і віртуальних асистентів до аналізу настроїв і генерації контенту, серед багатьох інших.
dc.identifier.citationВерколаб Г. С. Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 126 Інформаційні системи та технології / Г. С. Верколаб ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2024. – 78 с.
dc.identifier.urihttps://openarchive.nure.ua/handle/document/30123
dc.language.isouk
dc.subjectTriton Inference Server
dc.subjectобробка запитів
dc.subjectуправління LLM
dc.titleДослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton
dc.typeOther
dspace.entity.typePublication

Файли

Оригінальний пакет
Зараз показано 1 - 1 з 1
Завантаження...
Зображення мініатюри
Назва:
2024_M_RTIKS_Verkolab_GS.pdf
Розмір:
795.46 KB
Формат:
Adobe Portable Document Format
Ліцензійний пакет
Зараз показано 1 - 1 з 1
Немає доступних мініатюр
Назва:
license.txt
Розмір:
9.55 KB
Формат:
Item-specific license agreed upon to submission
Опис: