Data


調べたり、集めたりしたデータです。

LLM KV Cache Sizing

updated: 2025-05-15

この記事に従って、LLMのKV Cacheのサイズを試算しました。 あくまで机上の計算なので、実際のサイズとは異なる場合があります。

google/gemma-3-12b-it

記号
22
B1 (とする)
bytes/param2 (16 bit)
nlayers48
nkv_attention_heads8
dattention_heads3840 // 16 = 240
context_length32k (とする)
KV Cache サイズ11GB

google/gemma-3-12b-it (config.json)

google/gemma-3-27b-it

記号
22
B1 (とする)
bytes/param2 (16 bit)
nlayers62
nkv_attention_heads16
dattention_heads5376 // 32 = 168
context_length32k (とする)
KV Cache サイズ19.9GB

google/gemma-3-27b-it (config.json)

Qwen/Qwen3-32B

記号
22
B1 (とする)
bytes/param2 (16 bit)
nlayers64
nkv_attention_heads8
dattention_heads5120 // 64 = 80
context_length32k (とする)
KV Cache サイズ4.9GB

Qwen/Qwen3-32B (config.json)

meta-llama/Llama-4-Scout-17B-16E-Instruct

記号
22
B1 (とする)
bytes/param2 (16 bit)
nlayers48
nkv_attention_heads8
dattention_heads5120 // 40 = 128
context_length32k (とする)
KV Cache サイズ5.9GB

meta-llama/Llama-4-Scout-17B-16E-Instruct (config.json)