Gemma4 12B 如何跑在 16G 显存上?

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
https://huggingface.co/google/gemma-4-12B-it/tree/main
https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

这是怎么做到能在 16G 显存上跑的?
还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。