vLLM Semantic Router
Posted on
465 words,
2 minutes to read
Contents
Overview
先日 vLLM の Semantic Router の v0.1 が公開されました。公式ブログでは、Production Ready として紹介されています。
vLLM Semantic Router v0.1 Iris: The First Major Release
Semantic Router は、LLM を活用したルーティング技術であり、ユーザーのリクエストを意味的に理解し、最適なモデルやエージェントに振り分けることを目指したソリューションです。
User Query → Signal Extraction → Decision Engine → Best Model → Responsev0.1 では、以下などのシグナルをユーザーのクエリから抽出し、適切なモデル、エージェントにルーティングします。
- Keyword
- Embedding
- Domain
- Fact Check
- User Feedback
https://vllm-semantic-router.com/docs/v0.1/overview/semantic-router-overview
これらのシグナルを抽出するモデルとして以下などのモデルが公開されています。
- Classification Models
- Domain/Intent Classifier
- PII Detector
- Jailbreak Detector
- Feedback Detector
- Embedding Models
- Embedding Pro (High Quality)
- Embedding Flash (Balanced)
- Embedding Light (Fast)
- Hallucination Detection Models
- Halugate Sentinel: 事実検証が必要なクエリを判定する二値分類(創作文章やコードは事実確認不要)
- Halugate Detector: 提供された文脈で裏付けられない応答内のトークンを特定するトークンレベル検出
- Halugate Explainer: フラグが立てられた各スパンが問題となる理由を説明するNLIベースの分類(矛盾 vs 中立)
Conclusion
最近では用途に応じたLLMなどのモデルを使い分けることがより良いアウトプットにつながると考えられ、それを自動化する技術としてSemantic Routerの技術は注目されてると思います。
Dynamo などの分散型LLM推論エンジンとの組み合わせも想定されており、大規模環境での利用が期待されます。
一方で、シグナル検出の設定やモデルは、基本的に英語での利用が想定されているように見られ、日本語での能力は、要確認と思います。今後、マルチリンガルに対応したモデルが出てくることを期待したいです。