极客前沿

从零搭建本地 AI 模型 API:Ollama + FastAPI 入门教程

2026-05-29 01:31
DEV Ollama
查看原文

手把手教你安装 Ollama 和 FastAPI,跑通本地大模型,并封装成 API 供其他程序调用。

准备环境

先确认你的电脑能运行 Ollama(一个让你在本地运行大语言模型的工具)。Ollama 支持 macOS、Linux 和 Windows。去 ollama.com 下载并安装。安装后打开终端,输入 ollama --version 检查是否成功。

Tutorial Image

然后安装 Python 3.12 或更高版本(Python 是一种编程语言,用来写后面的 API 服务)。可以去 python.org 下载。安装后打开终端,输入 python --version 确认。

Tutorial Image

安装步骤

  1. 下载一个模型:在终端输入 ollama pull yinw1590/gemma4-e2b-text(这是一个适合入门的小模型,大约 2GB)。等待下载完成。
  2. 创建项目文件夹:在桌面新建一个文件夹,比如 my-llm-api,用终端进入该文件夹:cd ~/Desktop/my-llm-api
  3. 安装 FastAPI:在终端执行 pip install fastapi uvicornFastAPI 是一个帮你快速搭建 API 的 Python 库,uvicorn 是运行它的服务器。
  4. 编写代码:在文件夹里新建一个文件 main.py,用记事本打开,复制以下代码:
    from fastapi import FastAPI
    import httpx
    
    app = FastAPI()
    
    @app.get("/chat")
    async def chat(prompt: str):
        async with httpx.AsyncClient(timeout=120) as client:
            response = await client.post(
                "http://localhost:11434/api/generate",
                json={"model": "yinw1590/gemma4-e2b-text", "prompt": prompt, "stream": False}
            )
            return response.json()
  5. 启动服务:在终端运行 uvicorn main:app --reload --port 8765。看到 Uvicorn running on http://127.0.0.1:8765 表示成功。

验证是否成功

打开浏览器,访问 http://localhost:8765/docs,你会看到 Swagger UI(一个自动生成的 API 测试页面)。点击 /chat 接口,点 Try it out,在 prompt 框输入“你好”,点 Execute。等待十几秒(第一次运行较慢),下方会返回模型生成的回答。恭喜,你已成功跑通本地 AI API!

下一步可以做什么

  • 换个模型:去 Ollama 模型库 找其他模型,比如 llama3.2,用 ollama pull llama3.2 下载,然后修改代码中的 model 名称。
  • 让 API 支持流式输出:这样 AI 可以一个字一个字地显示结果,体验更好。后续教程会介绍。
  • 部署到服务器:用 Docker 打包你的服务,放到云服务器上,让团队其他成员也能用。注意设置健康检查,防止容器启动顺序出错。

内容来源

DEV Ollama

发布时间

2026-05-29 01:31

返回 AI技术