从零搭建本地 AI 模型 API:Ollama + FastAPI 入门教程
手把手教你安装 Ollama 和 FastAPI,跑通本地大模型,并封装成 API 供其他程序调用。
准备环境
先确认你的电脑能运行 Ollama(一个让你在本地运行大语言模型的工具)。Ollama 支持 macOS、Linux 和 Windows。去 ollama.com 下载并安装。安装后打开终端,输入 ollama --version 检查是否成功。
然后安装 Python 3.12 或更高版本(Python 是一种编程语言,用来写后面的 API 服务)。可以去 python.org 下载。安装后打开终端,输入 python --version 确认。
安装步骤
- 下载一个模型:在终端输入
ollama pull yinw1590/gemma4-e2b-text(这是一个适合入门的小模型,大约 2GB)。等待下载完成。 - 创建项目文件夹:在桌面新建一个文件夹,比如
my-llm-api,用终端进入该文件夹:cd ~/Desktop/my-llm-api。 - 安装 FastAPI:在终端执行
pip install fastapi uvicorn。FastAPI 是一个帮你快速搭建 API 的 Python 库,uvicorn 是运行它的服务器。 - 编写代码:在文件夹里新建一个文件
main.py,用记事本打开,复制以下代码:from fastapi import FastAPI import httpx app = FastAPI() @app.get("/chat") async def chat(prompt: str): async with httpx.AsyncClient(timeout=120) as client: response = await client.post( "http://localhost:11434/api/generate", json={"model": "yinw1590/gemma4-e2b-text", "prompt": prompt, "stream": False} ) return response.json() - 启动服务:在终端运行
uvicorn main:app --reload --port 8765。看到Uvicorn running on http://127.0.0.1:8765表示成功。
验证是否成功
打开浏览器,访问 http://localhost:8765/docs,你会看到 Swagger UI(一个自动生成的 API 测试页面)。点击 /chat 接口,点 Try it out,在 prompt 框输入“你好”,点 Execute。等待十几秒(第一次运行较慢),下方会返回模型生成的回答。恭喜,你已成功跑通本地 AI API!
下一步可以做什么
- 换个模型:去 Ollama 模型库 找其他模型,比如
llama3.2,用ollama pull llama3.2下载,然后修改代码中的model名称。 - 让 API 支持流式输出:这样 AI 可以一个字一个字地显示结果,体验更好。后续教程会介绍。
- 部署到服务器:用 Docker 打包你的服务,放到云服务器上,让团队其他成员也能用。注意设置健康检查,防止容器启动顺序出错。
内容来源
DEV Ollama
发布时间
2026-05-29 01:31