极客前沿

AI 模型量化入门:Q4、Q5、Q8 是什么?新手怎么选?

2026-05-08 01:36
DEV Ollama
查看原文

学会理解模型量化(Q4、Q5、Q8)的含义,并在 Ollama 中为你的显卡选择合适的量化版本,轻松跑通大模型。

当你用 Ollama 拉取模型时,会看到类似 phi4:Q4_K_M 的名字。这个 量化(把模型压缩到更小体积的技术)决定了你的显卡能不能跑动模型。本文用最直白的方式,帮你搞懂不同量化等级的区别,并给出新手安装和选择的步骤。

1. 准备工作:安装 Ollama

Ollama 是目前最简单的大模型运行工具,支持 Windows、macOS 和 Linux。

  • 下载地址:访问 ollama.com,点击下载对应系统的安装包。
  • 安装:双击安装,一路默认即可。装完后打开终端(Windows 用 cmd 或 PowerShell),输入 ollama 回车,看到帮助信息就成功了。
  • 常见坑:Windows 用户如果安装后命令找不到,请重启终端或重启电脑。

2. 理解量化等级:Q4、Q5、Q8 到底差在哪?

量化就是把模型从高精度(如 FP16)压缩到低精度,从而节省显存。显存不够,模型就根本跑不起来。

Tutorial Image
  • FP16:原始精度,显存占用最大。一个 70 亿参数模型(7B)需要约 14GB 显存。
  • Q8:接近原版质量,显存减半(7B 约 7GB)。如果你的显卡有 16GB 以上显存,可以优先选。
  • Q5_K_M:质量与 Q8 差距很小,但更省显存(7B 约 5-6GB)。适合 12GB 显卡,比如 RTX 3060。
  • Q4_K_M最推荐新手使用。质量足够好,显存仅需 4-4.5GB(7B 模型)。Ollama 默认拉取的也是这个版本。
  • Q3 / Q2:显存极省,但质量下降明显。除非显卡只有 8GB 以下,否则不建议。

注意,名字里的 K_M 表示这是一种更聪明的量化方式(K-quant),比旧的 Q4_0 效果更好。所以看到 Q4_K_M 就选它。

3. 第一次跑通模型:用 Ollama 拉取并运行

  1. 打开终端,输入 ollama pull phi4:Q4_K_M,等待下载完成(文件大约 4-5GB)。
  2. 下载完后,输入 ollama run phi4:Q4_K_M,即可进入对话界面。
  3. 试试问它“你好,请介绍一下你自己”,如果正常回答,说明跑通了!

常见坑:如果报错“CUDA out of memory”,说明你的显卡显存不足。试试选更小的模型(如 llama3.2:1b)或更低的量化(如 Q3)。

4. 下一步可以做什么?

  • 换模型:在 Ollama 模型库 浏览其他模型,比如 llama3.2mistral,用同样的方法拉取运行。
  • 调参数:运行命令后加 --temperature 0.7 可以控制回答的随机性。
  • 本地 API:Ollama 默认在 http://localhost:11434 提供 API,可以用 Python 或 curl 调用,开发自己的 AI 应用。

内容来源

DEV Ollama

发布时间

2026-05-08 01:36

返回 AI技术