从零搭建本地 AI 模型 API：Ollama + FastAPI 入门教程

手把手教你安装 Ollama 和 FastAPI，跑通本地大模型，并封装成 API 供其他程序调用。

准备环境

先确认你的电脑能运行 Ollama（一个让你在本地运行大语言模型的工具）。Ollama 支持 macOS、Linux 和 Windows。去 ollama.com 下载并安装。安装后打开终端，输入 ollama --version 检查是否成功。

然后安装 Python 3.12 或更高版本（Python 是一种编程语言，用来写后面的 API 服务）。可以去 python.org 下载。安装后打开终端，输入 python --version 确认。

安装步骤

下载一个模型：在终端输入 ollama pull yinw1590/gemma4-e2b-text（这是一个适合入门的小模型，大约 2GB）。等待下载完成。
创建项目文件夹：在桌面新建一个文件夹，比如 my-llm-api，用终端进入该文件夹：cd ~/Desktop/my-llm-api。
安装 FastAPI：在终端执行 pip install fastapi uvicorn。FastAPI 是一个帮你快速搭建 API 的 Python 库，uvicorn 是运行它的服务器。

编写代码：在文件夹里新建一个文件 main.py，用记事本打开，复制以下代码：

from fastapi import FastAPI
import httpx

app = FastAPI()

@app.get("/chat")
async def chat(prompt: str):
    async with httpx.AsyncClient(timeout=120) as client:
        response = await client.post(
            "http://localhost:11434/api/generate",
            json={"model": "yinw1590/gemma4-e2b-text", "prompt": prompt, "stream": False}
        )
        return response.json()

启动服务：在终端运行 uvicorn main:app --reload --port 8765。看到 Uvicorn running on http://127.0.0.1:8765 表示成功。

验证是否成功

打开浏览器，访问 http://localhost:8765/docs，你会看到 Swagger UI（一个自动生成的 API 测试页面）。点击 /chat 接口，点 Try it out，在 prompt 框输入“你好”，点 Execute。等待十几秒（第一次运行较慢），下方会返回模型生成的回答。恭喜，你已成功跑通本地 AI API！

下一步可以做什么

换个模型：去 Ollama 模型库找其他模型，比如 llama3.2，用 ollama pull llama3.2 下载，然后修改代码中的 model 名称。
让 API 支持流式输出：这样 AI 可以一个字一个字地显示结果，体验更好。后续教程会介绍。
部署到服务器：用 Docker 打包你的服务，放到云服务器上，让团队其他成员也能用。注意设置健康检查，防止容器启动顺序出错。

内容来源

DEV Ollama

发布时间

2026-05-29 01:31