AI入门：从零搭建你的第一个大模型推理环境

手把手教你安装SGLang并运行大模型，避免常见坑，第一次跑通推理。

准备环境：你需要什么？

要运行大模型，你需要一台有NVIDIA GPU（显卡，专门加速AI计算的硬件）的电脑。推荐至少24GB显存（显存是GPU上专门存数据的内存）。

操作系统：Ubuntu 22.04 或 Windows 11（带WSL2）
Python 3.10 或更高版本
CUDA 12.1（NVIDIA的并行计算平台，让GPU干活）

如果你还没装CUDA，可以去NVIDIA官网下载安装。装完后在终端输入 nvidia-smi 确认能看到GPU信息。

安装SGLang：一个简单好用的推理引擎

SGLang 是一个让大模型跑得更快的工具，特别擅长处理多GPU协同。安装步骤：

创建Python虚拟环境（避免包冲突）：python3 -m venv sglang_env && source sglang_env/bin/activate
安装SGLang：pip install sglang[all]（这会装好所有依赖，包括PyTorch等）
验证安装：python -c "import sglang; print(sglang.__version__)" 看到版本号即成功。

常见坑：如果你有多张GPU，确保NVLink（GPU之间高速通信的通道）驱动已装好。检查方式：nvidia-smi topo -m 看是否有NVLink连接。

第一次跑通：加载并推理一个模型

我们用一个较小的模型举例（比如Qwen2.5-7B），避免显存不足。

下载模型：huggingface-cli download Qwen/Qwen2.5-7B-Instruct --local-dir ./qwen（需先装huggingface_hub）
启动SGLang服务：python -m sglang.launch_server --model-path ./qwen --port 3000

发送请求测试：

curl http://localhost:3000/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"Qwen2.5-7B-Instruct","messages":[{"role":"user","content":"你好，请介绍自己"}]}'

如果返回了模型的回答，恭喜你！你已经成功跑通了第一个大模型推理。

下一步可以做什么？

尝试更大的模型（如Qwen3.5-397B），但需要多张GPU和NVLink multicast（一种让数据同时发给多张GPU的技术）支持。注意：如果启用机密计算（加密保护数据），NVLink multicast会被禁用，导致性能下降61%。
学习SGLang的高级用法：如张量并行（把模型拆到多张GPU上加速）。
关注NVIDIA官方更新，看未来是否修复机密计算下的性能问题。

内容来源

DEV Machine Learning

发布时间

2026-05-31 01:36