AI 入门：5 分钟装好环境，跑通第一个多模态模型

零基础学会安装 Python 和依赖，用一行代码调用 GPT-4o、Claude 等视觉 AI，看懂图片内容。

很多新手想试试 AI 看图说话，但一上来就被各种 API 格式搞晕了。别担心，这篇教程带你从零开始，装好环境，跑通第一个多模态模型，让 AI 帮你描述图片内容。

准备环境

安装 Python（一种编程语言，用来写 AI 代码）：去 python.org 下载 3.9 以上版本，安装时勾选“Add Python to PATH”。
安装 pip（Python 的包管理工具，帮你装别人写好的代码库）：通常装 Python 时会自带，打开终端（Windows 叫 cmd 或 PowerShell，Mac 叫终端）输入 pip --version 检查。
准备一张图片：随便找一张 jpg 或 png 图片，放在好找的路径，比如桌面。

安装步骤

打开终端，输入以下命令安装 openai 库（这是一个 Python 包，让你能调用 OpenAI 等大厂的 AI 模型）：
pip install openai
获取 API 密钥：去 OpenAI 官网（platform.openai.com）注册账号，创建一个 API Key（一串密钥，类似密码），复制保存好。

创建一个 Python 文件，比如 test_vlm.py，用记事本或 VS Code 打开，写入以下代码（把 your-api-key 换成你的密钥，your-image.jpg 换成图片路径）：

from openai import OpenAI
import base64

client = OpenAI(api_key="your-api-key")

with open("your-image.jpg", "rb") as f:
    image_data = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "请用一句话描述这张图片"},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}
        ]
    }]
)

print(response.choices[0].message.content)

验证是否成功

在终端运行 python test_vlm.py。如果一切正常，你会看到 AI 输出的图片描述文字，比如“一条狗在草地上奔跑”。

常见坑：如果报错 ModuleNotFoundError: No module named 'openai'，说明没装成功，重新运行 pip install openai。如果报 API 密钥错误，检查密钥是否复制完整，注意不要有多余空格。

下一步可以做什么

换其他模型：把 model 改成 gpt-4o-mini（更便宜）或 claude-3-haiku（需安装 Anthropic 库），但代码结构类似。
批量处理图片：用循环把多张图片发给 AI，自动生成描述。
学习 base64（一种把图片转成文本的编码方式）：上面代码已经用了，你可以搜索更多用法。

内容来源

DEV Machine Learning

发布时间

2026-06-02 01:32