AI入门:从零搭建你的第一个大模型推理环境
手把手教你安装SGLang并运行大模型,避免常见坑,第一次跑通推理。
准备环境:你需要什么?
要运行大模型,你需要一台有NVIDIA GPU(显卡,专门加速AI计算的硬件)的电脑。推荐至少24GB显存(显存是GPU上专门存数据的内存)。
- 操作系统:Ubuntu 22.04 或 Windows 11(带WSL2)
- Python 3.10 或更高版本
- CUDA 12.1(NVIDIA的并行计算平台,让GPU干活)
如果你还没装CUDA,可以去NVIDIA官网下载安装。装完后在终端输入 nvidia-smi 确认能看到GPU信息。
安装SGLang:一个简单好用的推理引擎
SGLang 是一个让大模型跑得更快的工具,特别擅长处理多GPU协同。安装步骤:
- 创建Python虚拟环境(避免包冲突):
python3 -m venv sglang_env && source sglang_env/bin/activate - 安装SGLang:
pip install sglang[all](这会装好所有依赖,包括PyTorch等) - 验证安装:
python -c "import sglang; print(sglang.__version__)"看到版本号即成功。
常见坑:如果你有多张GPU,确保NVLink(GPU之间高速通信的通道)驱动已装好。检查方式:nvidia-smi topo -m 看是否有NVLink连接。
第一次跑通:加载并推理一个模型
我们用一个较小的模型举例(比如Qwen2.5-7B),避免显存不足。
- 下载模型:
huggingface-cli download Qwen/Qwen2.5-7B-Instruct --local-dir ./qwen(需先装huggingface_hub) - 启动SGLang服务:
python -m sglang.launch_server --model-path ./qwen --port 3000 - 发送请求测试:
curl http://localhost:3000/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"Qwen2.5-7B-Instruct","messages":[{"role":"user","content":"你好,请介绍自己"}]}'
如果返回了模型的回答,恭喜你!你已经成功跑通了第一个大模型推理。
下一步可以做什么?
- 尝试更大的模型(如Qwen3.5-397B),但需要多张GPU和NVLink multicast(一种让数据同时发给多张GPU的技术)支持。注意:如果启用机密计算(加密保护数据),NVLink multicast会被禁用,导致性能下降61%。
- 学习SGLang的高级用法:如张量并行(把模型拆到多张GPU上加速)。
- 关注NVIDIA官方更新,看未来是否修复机密计算下的性能问题。
内容来源
DEV Machine Learning
发布时间
2026-05-31 01:36