极客前沿

新手也能装:把 Tesla P40 变成 AI 推理卡的实战教程

2026-05-26 01:31
DEV Ollama
查看原文

学会在 Proxmox 主机上安装 NVIDIA 驱动、部署 Ollama 服务,用 24GB 显存跑大模型。

准备环境:你需要什么?

首先,你需要一台安装了 Proxmox(一种虚拟化平台,相当于“电脑管家”的超级版)的物理机,以及一块 Tesla P40(老款但显存大的显卡,有 24GB 内存)。注意,这张卡在虚拟机里容易出问题,所以我们直接把它装到 Proxmox 主机上。

Tutorial Image

安装步骤:一步步来

  1. 卸载 GPU 直通设置:如果你之前把 P40 直通给了虚拟机,现在要取消。在 Proxmox 主机的终端里,移除 vfio-pci 绑定,并重启。
  2. 安装 NVIDIA 驱动:直接在 Proxmox 主机上装驱动。推荐版本 535(稳定且兼容 P40 的架构)。下载安装包后,运行 chmod +x NVIDIA-Linux-*.run && sudo ./NVIDIA-Linux-*.run
  3. 部署 Ollama 服务:Ollama 是一个让你轻松运行大模型的工具。不用容器,直接装成系统服务。创建文件 /etc/systemd/system/ollama.service,写入配置,然后 sudo systemctl enable --now ollama
  4. 配置环境变量:编辑服务文件,设置 OLLAMA_HOST=0.0.0.0(让其他设备能访问)和 OLLAMA_KEEP_ALIVE=30s(不用时快速释放显存)。

验证是否成功:跑一个模型试试

打开终端,输入 ollama run qwen2.5:7b(一个 7B 参数的小模型,适合新手)。如果出现对话提示,说明安装成功!你也可以用 nvidia-smi 查看显存占用。

常见坑和下一步

  • 显存不够? 如果模型太大(比如 32B),用 4-bit 量化(一种压缩技术),并限制上下文长度(比如 2048 tokens)。
  • 监控问题:主机上跑 GPU 不方便看状态,可以装 nvidia_gpu_exporter 采集指标。
  • 下一步:试试更大的模型,或者用 API 搭建聊天机器人。

内容来源

DEV Ollama

发布时间

2026-05-26 01:31

返回 AI技术