AI 入门：一步步装好 Ollama，跑通你的第一个本地模型

零基础学会下载安装 Ollama，找到合适模型并成功运行，了解显存与模型大小的关系。

准备环境：你需要什么？

在开始之前，先确认你的电脑有一块 独立显卡（NVIDIA 或 AMD 都行）。显存（VRAM）越大，能跑的模型就越大。如果你只是玩玩 1B～3B 的小模型，4GB 显存就够了；想跑 7B～13B 的聊天模型，建议 16GB；要是想挑战 70B 的大模型，至少需要 48GB 或者用多张显卡。

另外，你的系统需要是 Windows、macOS 或 Linux，并且已经安装了 Python（可选，但后面很多工具需要）。

打开浏览器，访问 ollama.com，点击“Download”按钮。
根据你的操作系统下载对应安装包（Windows 选 .exe，macOS 选 .dmg，Linux 用一键脚本）。
双击安装包，一路“下一步”完成安装。Windows 用户可能会弹出安全提示，点“仍要运行”即可。
安装完成后，打开终端（Windows 按 Win+R 输入 cmd，macOS 用“终端”App），输入 ollama --version，如果看到版本号就说明安装成功。

Ollama 官方提供了很多现成的模型，我们先用一个最小的 Llama 3.2 1B（10 亿参数）来试试水。

如果这一步成功了，恭喜你，你已经跑通了第一个本地 AI 模型！

显存不够怎么办？ 如果运行时报错“out of memory”，说明你的显存装不下这个模型。可以换更小的模型（比如 0.5B），或者用 /set parameter num_ctx 512 减小上下文长度来省显存。
为什么模型越聊越慢？ 因为对话越长，占用的显存越多。如果卡顿，可以重启模型（退出再 ollama run）或者减少上下文长度。
如何查看显存占用？ 在另一个终端窗口输入 nvidia-smi（NVIDIA 显卡），可以看到显存使用情况。

现在你已经能跑模型了，可以试试更大的模型（比如 7B 的 llama3.2:3b），或者用 Ollama 的 API 来写自己的聊天机器人。想了解更多，可以访问 Ollama 官网的模型库，或者搜索“Ollama 教程”继续学习。

内容来源

DEV Ollama

发布时间

2026-05-09 01:34