Публікація:
Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton

Завантаження...
Зображення мініатюри

Дата

2024

Назва журналу

ISSN журналу

Назва тома

Видавництво

Дослідницькі проекти

Організаційні підрозділи

Видання журналу

Анотація

У процесі розробки системи з кодами на Python для великих мовних моделей (LLM) з використанням NVIDIA Triton Inference Server у виробничому середовищі використовується масштабованість та ефективність Triton Inference Server, що дозволиляє обробляти велику кількість запитів на інференс LLM, мінімізуючи затримки. Система є універсальною, підтримує різні архітектури LLM, що робить її пристосованою до різноманітних завдань розуміння та генерації природної мови. Процес розгортання спрощений, і наша система легко інтегрується з існуючими програмами на Python. Пріоритетом є безпека з комплексним моніторингом і веденням логів, при цьому пропонуючи можливості для кастомізації та оптимізації. Реальне застосування в різних галузях підкреслює універсальність системи, а її автоматизація та ефективність приносять відчутні переваги, знижуючи операційні витрати та покращуючи досвід користувачів. Загалом, система дає змогу організаціям використовувати можливості LLM у виробничому середовищі, що є значним кроком на шляху до інтелектуальної, автоматизованої та ефективної обробки природної мови. Постановка задачі. Система, яка використовує коди Python та NVIDIA Triton Inference Server для виведення LLM у виробничому середовищі, забезпечує масштабованість, ефективність, універсальність, безпеку та можливості моніторингу. Вона спрощує розгортання та управління LLM, що робить її цінним інструментом для широкого спектру додатків для обробки природної мови, від чат-ботів і віртуальних асистентів до аналізу настроїв і генерації контенту, серед багатьох інших.

Опис

Ключові слова

Triton Inference Server, обробка запитів, управління LLM

Бібліографічний опис

Верколаб Г. С. Дослідження методів забезпечення можливостей інференса для LLM за допомогою NVIDIA Triton : пояснювальна записка до кваліфікаційної роботи здобувача вищої освіти на другому (магістерському) рівні, спеціальність 126 Інформаційні системи та технології / Г. С. Верколаб ; М-во освіти і науки України, Харків. нац. ун-т радіоелектроніки. – Харків, 2024. – 78 с.

DOI