新手也能装：把 Tesla P40 变成 AI 推理卡的实战教程

学会在 Proxmox 主机上安装 NVIDIA 驱动、部署 Ollama 服务，用 24GB 显存跑大模型。

准备环境：你需要什么？

首先，你需要一台安装了 Proxmox（一种虚拟化平台，相当于“电脑管家”的超级版）的物理机，以及一块 Tesla P40（老款但显存大的显卡，有 24GB 内存）。注意，这张卡在虚拟机里容易出问题，所以我们直接把它装到 Proxmox 主机上。

卸载 GPU 直通设置：如果你之前把 P40 直通给了虚拟机，现在要取消。在 Proxmox 主机的终端里，移除 vfio-pci 绑定，并重启。
安装 NVIDIA 驱动：直接在 Proxmox 主机上装驱动。推荐版本 535（稳定且兼容 P40 的架构）。下载安装包后，运行 chmod +x NVIDIA-Linux-*.run && sudo ./NVIDIA-Linux-*.run。
部署 Ollama 服务：Ollama 是一个让你轻松运行大模型的工具。不用容器，直接装成系统服务。创建文件 /etc/systemd/system/ollama.service，写入配置，然后 sudo systemctl enable --now ollama。
配置环境变量：编辑服务文件，设置 OLLAMA_HOST=0.0.0.0（让其他设备能访问）和 OLLAMA_KEEP_ALIVE=30s（不用时快速释放显存）。

打开终端，输入 ollama run qwen2.5:7b（一个 7B 参数的小模型，适合新手）。如果出现对话提示，说明安装成功！你也可以用 nvidia-smi 查看显存占用。

内容来源

DEV Ollama

发布时间

2026-05-26 01:31