VLLM on Kubernetes

Posted on
Updated on

vLLM を Kubernetes で使いたいとき、production を意識して高スループットの選択肢について考えます。

私のほうで目をつけている選択肢は以下です。

ソフトウェア概要

それぞれいくつかの観点で比較してみます。(それぞれの情報は、執筆時点のものです。)

項目AIBrixProduction Stackllm-dLeaderWorkerSetDynamo
開発主体ByteDanceLMCache LabRed HatKubernetes SIGsNVIDIA
GitHub Stars3.8k1.4k1.2k0.5k4.3k
最新バージョン0.3.00.1.50.0.80.6.20.3.0
デプロイ方法ManifestHelmInstaller (.sh)HelmOperator

気になる機能

項目AIBrixProduction Stackllm-dLeaderWorkerSetDynamo
Prefill/Decoding 分離
KV Cache Offloading
KV Cache Aware Routing

(うんぬん)

Prefill/Decoding 分離

アーキテクチャ

  • AIBrix AIBrix Architecture
  • vLLM Production Stack vLLM Production Stack Architecture
  • llm-d llm-d Architecture
  • LeaderWorkerSet LeaderWorkerSet Architecture
  • Dynamo Dynamo Architecture

どれも、まだ開発初期といったところでしょうか。ただ、kubernetes 上での高スループットの推論エンジンは実用性が高まっているので、今後も注目していきます。

このBlogの内容は個人の意見に基づくものであり、 所属組織団体の公式見解とは異なる場合があります点、ご了承ください。