VLLM on Kubernetes
Posted on
Updated on
vLLM を Kubernetes で使いたいとき、production を意識して高スループットの選択肢について考えます。
私のほうで目をつけている選択肢は以下です。
ソフトウェア概要
それぞれいくつかの観点で比較してみます。(それぞれの情報は、執筆時点のものです。)
項目 | AIBrix | Production Stack | llm-d | LeaderWorkerSet | Dynamo |
---|---|---|---|---|---|
開発主体 | ByteDance | LMCache Lab | Red Hat | Kubernetes SIGs | NVIDIA |
GitHub Stars | 3.8k | 1.4k | 1.2k | 0.5k | 4.3k |
最新バージョン | 0.3.0 | 0.1.5 | 0.0.8 | 0.6.2 | 0.3.0 |
デプロイ方法 | Manifest | Helm | Installer (.sh) | Helm | Operator |
気になる機能
項目 | AIBrix | Production Stack | llm-d | LeaderWorkerSet | Dynamo |
---|---|---|---|---|---|
Prefill/Decoding 分離 | |||||
KV Cache Offloading | |||||
KV Cache Aware Routing |
(うんぬん)
Prefill/Decoding 分離
- llm-d
- Dynamo
アーキテクチャ
- AIBrix
- vLLM Production Stack
- llm-d
- LeaderWorkerSet
- Dynamo
どれも、まだ開発初期といったところでしょうか。ただ、kubernetes 上での高スループットの推論エンジンは実用性が高まっているので、今後も注目していきます。