AI 模型量化入门:Q4、Q5、Q8 是什么?新手怎么选?
学会理解模型量化(Q4、Q5、Q8)的含义,并在 Ollama 中为你的显卡选择合适的量化版本,轻松跑通大模型。
当你用 Ollama 拉取模型时,会看到类似 phi4:Q4_K_M 的名字。这个 量化(把模型压缩到更小体积的技术)决定了你的显卡能不能跑动模型。本文用最直白的方式,帮你搞懂不同量化等级的区别,并给出新手安装和选择的步骤。
1. 准备工作:安装 Ollama
Ollama 是目前最简单的大模型运行工具,支持 Windows、macOS 和 Linux。
- 下载地址:访问 ollama.com,点击下载对应系统的安装包。
- 安装:双击安装,一路默认即可。装完后打开终端(Windows 用 cmd 或 PowerShell),输入
ollama回车,看到帮助信息就成功了。 - 常见坑:Windows 用户如果安装后命令找不到,请重启终端或重启电脑。
2. 理解量化等级:Q4、Q5、Q8 到底差在哪?
量化就是把模型从高精度(如 FP16)压缩到低精度,从而节省显存。显存不够,模型就根本跑不起来。
- FP16:原始精度,显存占用最大。一个 70 亿参数模型(7B)需要约 14GB 显存。
- Q8:接近原版质量,显存减半(7B 约 7GB)。如果你的显卡有 16GB 以上显存,可以优先选。
- Q5_K_M:质量与 Q8 差距很小,但更省显存(7B 约 5-6GB)。适合 12GB 显卡,比如 RTX 3060。
- Q4_K_M:最推荐新手使用。质量足够好,显存仅需 4-4.5GB(7B 模型)。Ollama 默认拉取的也是这个版本。
- Q3 / Q2:显存极省,但质量下降明显。除非显卡只有 8GB 以下,否则不建议。
注意,名字里的 K_M 表示这是一种更聪明的量化方式(K-quant),比旧的 Q4_0 效果更好。所以看到 Q4_K_M 就选它。
3. 第一次跑通模型:用 Ollama 拉取并运行
- 打开终端,输入
ollama pull phi4:Q4_K_M,等待下载完成(文件大约 4-5GB)。 - 下载完后,输入
ollama run phi4:Q4_K_M,即可进入对话界面。 - 试试问它“你好,请介绍一下你自己”,如果正常回答,说明跑通了!
常见坑:如果报错“CUDA out of memory”,说明你的显卡显存不足。试试选更小的模型(如 llama3.2:1b)或更低的量化(如 Q3)。
4. 下一步可以做什么?
- 换模型:在 Ollama 模型库 浏览其他模型,比如
llama3.2、mistral,用同样的方法拉取运行。 - 调参数:运行命令后加
--temperature 0.7可以控制回答的随机性。 - 本地 API:Ollama 默认在
http://localhost:11434提供 API,可以用 Python 或 curl 调用,开发自己的 AI 应用。
内容来源
DEV Ollama
发布时间
2026-05-08 01:36