AI 入门:一步步装好 Ollama,跑通你的第一个本地模型
零基础学会下载安装 Ollama,找到合适模型并成功运行,了解显存与模型大小的关系。
准备环境:你需要什么?
在开始之前,先确认你的电脑有一块 独立显卡(NVIDIA 或 AMD 都行)。显存(VRAM)越大,能跑的模型就越大。如果你只是玩玩 1B~3B 的小模型,4GB 显存就够了;想跑 7B~13B 的聊天模型,建议 16GB;要是想挑战 70B 的大模型,至少需要 48GB 或者用多张显卡。
另外,你的系统需要是 Windows、macOS 或 Linux,并且已经安装了 Python(可选,但后面很多工具需要)。
安装 Ollama
- 打开浏览器,访问 ollama.com,点击“Download”按钮。
- 根据你的操作系统下载对应安装包(Windows 选 .exe,macOS 选 .dmg,Linux 用一键脚本)。
- 双击安装包,一路“下一步”完成安装。Windows 用户可能会弹出安全提示,点“仍要运行”即可。
- 安装完成后,打开终端(Windows 按 Win+R 输入 cmd,macOS 用“终端”App),输入
ollama --version,如果看到版本号就说明安装成功。
跑通你的第一个模型
Ollama 官方提供了很多现成的模型,我们先用一个最小的 Llama 3.2 1B(10 亿参数)来试试水。
- 在终端输入:
ollama run llama3.2:1b - Ollama 会自动下载模型(大约 1GB),等待下载完成。
- 下载结束后,你会看到一个
>>>的提示符,直接打字提问,比如“你好!”,模型就会回复你。 - 想退出的话,输入
/bye回车即可。
如果这一步成功了,恭喜你,你已经跑通了第一个本地 AI 模型!
常见问题与提醒
- 显存不够怎么办? 如果运行时报错“out of memory”,说明你的显存装不下这个模型。可以换更小的模型(比如 0.5B),或者用
/set parameter num_ctx 512减小上下文长度来省显存。 - 为什么模型越聊越慢? 因为对话越长,占用的显存越多。如果卡顿,可以重启模型(退出再
ollama run)或者减少上下文长度。 - 如何查看显存占用? 在另一个终端窗口输入
nvidia-smi(NVIDIA 显卡),可以看到显存使用情况。
下一步可以做什么
现在你已经能跑模型了,可以试试更大的模型(比如 7B 的 llama3.2:3b),或者用 Ollama 的 API 来写自己的聊天机器人。想了解更多,可以访问 Ollama 官网的模型库,或者搜索“Ollama 教程”继续学习。
内容来源
DEV Ollama
发布时间
2026-05-09 01:34