LLM KV Cache Sizing


updated: 2025-07-02

この記事に従って、LLMのKV Cacheのサイズを試算しました。 あくまで机上の計算なので、実際のサイズとは異なる場合があります。

google/gemma-3-12b-it

記号
22
B1 (とする)
bytes/param2 (16 bit)
num_hidden_layers48
num_key_value_heads8
head_size3840 // 16 = 240
context_length8k (とする)
KV Cache サイズ2.8GB

google/gemma-3-12b-it (config.json)

google/gemma-3-27b-it

記号
22
B1 (とする)
bytes/param2 (16 bit)
num_hidden_layers62
num_key_value_heads16
head_size5376 // 32 = 168
context_length8k (とする)
KV Cache サイズ5.1GB

google/gemma-3-27b-it (config.json)

Qwen/Qwen3-32B

記号
22
B1 (とする)
bytes/param2 (16 bit)
num_hidden_layers64
num_key_value_heads8
head_size5120 // 64 = 80
context_length8k (とする)
KV Cache サイズ1.25GB

Qwen/Qwen3-32B (config.json)