4GB显存也能跑AI：Ollama入门与第一次跑通

学会在低配显卡上安装Ollama，运行轻量模型，并验证推理速度提升。

很多新手以为跑AI必须要有高端显卡，其实4GB显存的笔记本GPU也能玩。本文带你一步步安装Ollama（一个让本地运行大语言模型变得简单的工具），并跑通最小的Gemma 4模型，体验2.5倍的速度提升。

准备环境

硬件：一台有4GB显存NVIDIA显卡的电脑（比如笔记本的GTX 1650）。
软件：Windows或Linux系统，已安装NVIDIA驱动（显卡的驱动程序，让系统认识显卡）。
下载Ollama：访问 ollama.com，点击“Download”按钮，选择对应系统版本安装。

安装步骤

运行安装包，一路默认设置即可。安装完成后，打开终端（Windows用cmd或PowerShell，Linux用终端）。
输入命令 ollama pull gemma4:e2b 并按回车。这会下载一个约2GB的轻量模型（Gemma 4 E2B，Google推出的适合小显存的AI模型）。
等待下载完成，提示“success”即表示模型就绪。

验证是否成功

输入命令 ollama run gemma4:e2b，然后随便问一句“你好！”。如果模型开始回复，说明安装成功。你也可以用API测试：在浏览器打开 http://localhost:11434/api/generate，发送一个JSON请求，比如 {"model": "gemma4:e2b", "prompt": "什么是AI？"}，会得到JSON格式的回答。

注意：第一次运行可能稍慢，因为模型需要加载到显存。后续会快很多。

下一步可以做什么

尝试其他小模型：用 ollama pull llama3.2:1b 下载更小的模型。
在代码中调用：Ollama提供HTTP API，可以用Python等语言写程序调用。
优化性能：如果显存不够，Ollama会自动把部分层放到CPU，速度会慢一些。你可以通过设置环境变量 OLLAMA_NUM_PARALLEL 等调整。

现在你已经成功在低配显卡上跑通了本地AI，可以继续探索更多应用了！

内容来源

DEV Ollama

发布时间

2026-05-15 01:33