AI 模型量化入门：Q4、Q5、Q8 是什么？新手怎么选？

学会理解模型量化（Q4、Q5、Q8）的含义，并在 Ollama 中为你的显卡选择合适的量化版本，轻松跑通大模型。

当你用 Ollama 拉取模型时，会看到类似 phi4:Q4_K_M 的名字。这个量化（把模型压缩到更小体积的技术）决定了你的显卡能不能跑动模型。本文用最直白的方式，帮你搞懂不同量化等级的区别，并给出新手安装和选择的步骤。

1. 准备工作：安装 Ollama

Ollama 是目前最简单的大模型运行工具，支持 Windows、macOS 和 Linux。

量化就是把模型从高精度（如 FP16）压缩到低精度，从而节省显存。显存不够，模型就根本跑不起来。

注意，名字里的 K_M 表示这是一种更聪明的量化方式（K-quant），比旧的 Q4_0 效果更好。所以看到 Q4_K_M 就选它。

常见坑：如果报错“CUDA out of memory”，说明你的显卡显存不足。试试选更小的模型（如 llama3.2:1b）或更低的量化（如 Q3）。

换模型：在 Ollama 模型库浏览其他模型，比如 llama3.2、mistral，用同样的方法拉取运行。
调参数：运行命令后加 --temperature 0.7 可以控制回答的随机性。
本地 API：Ollama 默认在 http://localhost:11434 提供 API，可以用 Python 或 curl 调用，开发自己的 AI 应用。

内容来源

DEV Ollama

发布时间

2026-05-08 01:36