新手也能装:把 Tesla P40 变成 AI 推理卡的实战教程
学会在 Proxmox 主机上安装 NVIDIA 驱动、部署 Ollama 服务,用 24GB 显存跑大模型。
准备环境:你需要什么?
首先,你需要一台安装了 Proxmox(一种虚拟化平台,相当于“电脑管家”的超级版)的物理机,以及一块 Tesla P40(老款但显存大的显卡,有 24GB 内存)。注意,这张卡在虚拟机里容易出问题,所以我们直接把它装到 Proxmox 主机上。
安装步骤:一步步来
- 卸载 GPU 直通设置:如果你之前把 P40 直通给了虚拟机,现在要取消。在 Proxmox 主机的终端里,移除 vfio-pci 绑定,并重启。
- 安装 NVIDIA 驱动:直接在 Proxmox 主机上装驱动。推荐版本 535(稳定且兼容 P40 的架构)。下载安装包后,运行
chmod +x NVIDIA-Linux-*.run && sudo ./NVIDIA-Linux-*.run。 - 部署 Ollama 服务:Ollama 是一个让你轻松运行大模型的工具。不用容器,直接装成系统服务。创建文件
/etc/systemd/system/ollama.service,写入配置,然后sudo systemctl enable --now ollama。 - 配置环境变量:编辑服务文件,设置
OLLAMA_HOST=0.0.0.0(让其他设备能访问)和OLLAMA_KEEP_ALIVE=30s(不用时快速释放显存)。
验证是否成功:跑一个模型试试
打开终端,输入 ollama run qwen2.5:7b(一个 7B 参数的小模型,适合新手)。如果出现对话提示,说明安装成功!你也可以用 nvidia-smi 查看显存占用。
常见坑和下一步
- 显存不够? 如果模型太大(比如 32B),用 4-bit 量化(一种压缩技术),并限制上下文长度(比如 2048 tokens)。
- 监控问题:主机上跑 GPU 不方便看状态,可以装
nvidia_gpu_exporter采集指标。 - 下一步:试试更大的模型,或者用 API 搭建聊天机器人。
内容来源
DEV Ollama
发布时间
2026-05-26 01:31