vLLM Options
Updated on 3/12/2026
Contents
- Overview
- 基本的なオプション
- GPU Memory Utilization
- Disable Some Loggings
- Distribution
- Quantization
- Request Size, Rate
- Custom Code
- Pooling (Embedding, Reranking)
- Reasoning
- Function Calling
- Multimodal
- LoRA
- KV Cache Offloading
- Offline Mode
- Developer Mode
Overview
vLLMは高性能なLLM推論エンジンで、多くのオプションを提供しています。以下に、私がよく使うオプション設定をまとめたいと思います。
vLLMのマニュアルはこちらにあるので、詳細はそちらも参照してください。
私はMakefileをタスクランナーとして使用しているため、以下の例ではMakefileの形式で記載していますが、ご了承ください。
基本的なオプション
私はvLLMをdockerで起動しており、以下のコマンドがベースになります。
VLLM_IMAGE_NAME = vllm/vllm-openaiVLLM_IMAGE_TAG = v0.16.0
up-vllm: ## Start vllm. docker run -d --name vllm -p 8000:8000 \ --restart always \ --shm-size=16g \ --gpus '"device=0"' \ -v $(XDG_CACHE_HOME):/root/.cache \ -e HUGGING_FACE_HUB_TOKEN \ -e VLLM_DO_NOT_TRACK=1 \ $(VLLM_IMAGE_NAME):$(VLLM_IMAGE_TAG) \ --model RedHatAI/gemma-3-27b-it-FP8-dynamic \ --served-model-name google/gemma-3-27b-it \ --host 0.0.0.0 --port 8000GPU Memory Utilization
--gpu-memory-utilization 0.9 \Disable Some Loggings
--disable-uvicorn-access-log \ --disable-access-log-for-endpoints /health,/metrics,/ping \Distribution
--tensor-parallel-size 2 \ --pipeline-parallel-size 2 \Quantization
--quantization fp8 \Request Size, Rate
--max-model-len auto \ --max-num-batched-tokens 4096 \ --max-num-seqs 64 \Custom Code
vLLM で対応していない独自コードを利用するためのオプション
--trust-remote-code \Pooling (Embedding, Reranking)
vLLM also supports pooling models
--runner pooling \Reasoning
--reasoning-parser <parser_name> \Function Calling
--enable-auto-tool-choice \ --tool-call-parser pythonic \ --chat-template <path to chat template file> \Multimodal
--limit-mm-per-prompt.audio 3 \LoRA
--enable-lora \ --max-lora-rank 320 \ --max-loras 1 \ --lora-modules <path to lora module> \KV Cache Offloading
from v0.11.0, vLLM supports KV Cache Offloading to CPU memory.
--kv_offloading_backend native \ --kv_offloading_size <size_in_GB> \Inside vLLM’s New Offloading Connector: Smarter Memory Transfer for Maximizing Inference Throughput
Offline Mode
-e HF_HUB_OFFLINE=1 \ -e TRANSFORMERS_OFFLINE=1 \Developer Mode
-e VLLM_SERVER_DEV_MODE=1 \Sleep Option
--enable-sleep-mode \