Nvidia Triton Inference Server

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Nvidia (Нвидиа)
Дата последнего релиза: ноябрь 2021
Отрасли: Электротехника и микроэлектроника

Сервер для инференса Nvidia Triton (прежнее название TensorRT) — это открытое программное обеспечение для развертывания моделей глубокого обучения в рабочей среде. Сервер для инференса Triton позволяет командам развертывать подготовленные модели ИИ из фреймворков (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet или Custom) локального хранилища, платформы Google Cloud или AWS S3 на любой инфраструктуре на базе GPU или CPU. Сервер одновременно запускает несколько моделей на одном GPU, чтобы повысить утилизацию, и интегрируется с Kubernetes для оркестрации, управления параметрами и автоматического масштабирования.

2025: AI-лазейка для хакеров

Уязвимости CVE-2025-23319, CVE-2025-23320 и CVE-2025-23334, обнаруженные в Nvidia Triton Inference Server, представляют серьёзную угрозу AI-инфраструктуре компаний. Уязвимость может создать риски для организаций, использующих ИИ-решения. Об этом Газинформсервис сообщил 5 августа 2025 года.

Как пояснил Андрей Жданухин, руководитель группы аналитики L1 GSOC компании «Газинформсервис», обнаруженные уязвимости позволяют злоумышленнику без какой-либо аутентификации через уязвимый API записывать произвольные файлы на сервере. Это, в свою очередь, открывает путь к потенциальному выполнению произвольного кода. Ошибки в логике обработки параметров shared memory могут привести к отказу в обслуживании (DoS) или даже повреждению данных.

«
Особенно тревожен тот факт, что уязвимость доступна через публично задокументированные интерфейсы, а значит угроза может быть использована в атаках на продуктивные AI‑сервисы в облаке и на локальных кластерах. По оценке исследователей, проблема затрагивает как модельные среды, так и корпоративные ML-вычислительные пайплайны, поэтому обновление до версии 25.07 или выше является критически важной мерой защиты, — предупреждает руководитель группы аналитики L1 GSOC.
»

В условиях растущей сложности киберугроз эксперт GSOC настоятельно рекомендует организациям, активно использующим ML/AI-инфраструктуру, внедрять комплексные подходы MlSecOps на всех этапах жизненного цикла модели — от разработки до эксплуатации.

«
Это предполагает постоянную проверку безопасности компонентов, отслеживание аномалий в API-запросах, анализ прав доступа к ML-инстансам, а также контроль целостности и безопасного развёртывания моделей. Кроме того, GSOC отслеживает признаки эксплуатации известных CVE в публичных и внутренних средах, включая активность на уязвимых API и загрузку подозрительных бинарных объектов. В сочетании с системами мониторинга и проактивного реагирования это позволяет сократить окно уязвимости и повысить устойчивость ML-инфраструктуры к целенаправленным атакам, — подытожил эксперт.
»

2021: Поддержка нескольких GPU

На конференции GTC в ноябре 2021 года Nvidia представила обновление Triton Inference Server. Теперь он поддерживает несколько GPU и узлов, что позволяет распределять рабочие нагрузки инференса для LLM между многими графическими процессорами и узлами в реальном времени. Для таких моделей требуется больше памяти, чем доступно в одном GPU или даже в большом сервере с несколькими GPU, а инференс должен выполняться быстро.

Также была представлена Megatron 530B – кастомизируемая большая языковая модель, которую можно обучать для новых предметных областей и новых языков. С Triton Inference Server модель Megatron 530B может работать на двух системах Nvidia DGX, чтобы сократить время обработки с минуты на CPU-сервере до половины секунды. Это может позволить развертывать LLM для приложений реального времени.

Полный список анонсов ноябрьской GTC 2021 доступен здесь.



СМ. ТАКЖЕ (2)