极客前沿

AI 入门:一步步装好 Ollama,跑通你的第一个本地模型

2026-05-09 01:34
DEV Ollama
查看原文

零基础学会下载安装 Ollama,找到合适模型并成功运行,了解显存与模型大小的关系。

准备环境:你需要什么?

在开始之前,先确认你的电脑有一块 独立显卡(NVIDIA 或 AMD 都行)。显存(VRAM)越大,能跑的模型就越大。如果你只是玩玩 1B~3B 的小模型,4GB 显存就够了;想跑 7B~13B 的聊天模型,建议 16GB;要是想挑战 70B 的大模型,至少需要 48GB 或者用多张显卡。

另外,你的系统需要是 Windows、macOS 或 Linux,并且已经安装了 Python(可选,但后面很多工具需要)。

安装 Ollama

  1. 打开浏览器,访问 ollama.com,点击“Download”按钮。
  2. 根据你的操作系统下载对应安装包(Windows 选 .exe,macOS 选 .dmg,Linux 用一键脚本)。
  3. 双击安装包,一路“下一步”完成安装。Windows 用户可能会弹出安全提示,点“仍要运行”即可。
  4. 安装完成后,打开终端(Windows 按 Win+R 输入 cmd,macOS 用“终端”App),输入 ollama --version,如果看到版本号就说明安装成功。

跑通你的第一个模型

Ollama 官方提供了很多现成的模型,我们先用一个最小的 Llama 3.2 1B(10 亿参数)来试试水。

  1. 在终端输入:ollama run llama3.2:1b
  2. Ollama 会自动下载模型(大约 1GB),等待下载完成。
  3. 下载结束后,你会看到一个 >>> 的提示符,直接打字提问,比如“你好!”,模型就会回复你。
  4. 想退出的话,输入 /bye 回车即可。

如果这一步成功了,恭喜你,你已经跑通了第一个本地 AI 模型!

常见问题与提醒

  • 显存不够怎么办? 如果运行时报错“out of memory”,说明你的显存装不下这个模型。可以换更小的模型(比如 0.5B),或者用 /set parameter num_ctx 512 减小上下文长度来省显存。
  • 为什么模型越聊越慢? 因为对话越长,占用的显存越多。如果卡顿,可以重启模型(退出再 ollama run)或者减少上下文长度。
  • 如何查看显存占用? 在另一个终端窗口输入 nvidia-smi(NVIDIA 显卡),可以看到显存使用情况。

下一步可以做什么

现在你已经能跑模型了,可以试试更大的模型(比如 7B 的 llama3.2:3b),或者用 Ollama 的 API 来写自己的聊天机器人。想了解更多,可以访问 Ollama 官网的模型库,或者搜索“Ollama 教程”继续学习。

内容来源

DEV Ollama

发布时间

2026-05-09 01:34

返回 AI技术