vLLM on Kubernetes

Posted on 6/24/2025

Updated on 7/10/2025

vLLM を Kubernetes で使いたいとき、production を意識して高スループットの選択肢について考えます。

私のほうで目をつけている選択肢は以下です。

ソフトウェア概要

それぞれいくつかの観点で比較してみます。(それぞれの情報は、執筆時点のものです。)

項目	AIBrix	Production Stack	llm-d	LeaderWorkerSet	Dynamo
開発主体	ByteDance	LMCache Lab	Red Hat	Kubernetes SIGs	NVIDIA
GitHub Stars	3.8k	1.4k	1.2k	0.5k	4.3k
最新バージョン	0.3.0	0.1.5	0.0.8	0.6.2	0.3.0
デプロイ方法	Manifest	Helm	Installer (.sh)	Helm	Operator

(うんぬん)

項目	AIBrix	Production Stack	llm-d	LeaderWorkerSet	Dynamo
Security Consideration
Observability

(うんぬん)

どれも、まだ開発初期といったところでしょうか。ただ、kubernetes 上での高スループットの推論エンジンは実用性が高まっているので、今後も注目していきます。