极客前沿

AI 入门:5 分钟装好环境,跑通第一个多模态模型

2026-06-02 01:32
DEV Machine Learning
查看原文

零基础学会安装 Python 和依赖,用一行代码调用 GPT-4o、Claude 等视觉 AI,看懂图片内容。

很多新手想试试 AI 看图说话,但一上来就被各种 API 格式搞晕了。别担心,这篇教程带你从零开始,装好环境,跑通第一个多模态模型,让 AI 帮你描述图片内容。

准备环境

  • 安装 Python(一种编程语言,用来写 AI 代码):去 python.org 下载 3.9 以上版本,安装时勾选“Add Python to PATH”。
  • 安装 pip(Python 的包管理工具,帮你装别人写好的代码库):通常装 Python 时会自带,打开终端(Windows 叫 cmd 或 PowerShell,Mac 叫终端)输入 pip --version 检查。
  • 准备一张图片:随便找一张 jpg 或 png 图片,放在好找的路径,比如桌面。

安装步骤

  1. 打开终端,输入以下命令安装 openai 库(这是一个 Python 包,让你能调用 OpenAI 等大厂的 AI 模型):
    pip install openai
  2. 获取 API 密钥:去 OpenAI 官网(platform.openai.com)注册账号,创建一个 API Key(一串密钥,类似密码),复制保存好。
  3. 创建一个 Python 文件,比如 test_vlm.py,用记事本或 VS Code 打开,写入以下代码(把 your-api-key 换成你的密钥,your-image.jpg 换成图片路径):
    from openai import OpenAI
    import base64
    
    client = OpenAI(api_key="your-api-key")
    
    with open("your-image.jpg", "rb") as f:
        image_data = base64.b64encode(f.read()).decode("utf-8")
    
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "请用一句话描述这张图片"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}
            ]
        }]
    )
    
    print(response.choices[0].message.content)

验证是否成功

在终端运行 python test_vlm.py。如果一切正常,你会看到 AI 输出的图片描述文字,比如“一条狗在草地上奔跑”。

Tutorial Image

常见坑:如果报错 ModuleNotFoundError: No module named 'openai',说明没装成功,重新运行 pip install openai。如果报 API 密钥错误,检查密钥是否复制完整,注意不要有多余空格。

下一步可以做什么

  • 换其他模型:把 model 改成 gpt-4o-mini(更便宜)或 claude-3-haiku(需安装 Anthropic 库),但代码结构类似。
  • 批量处理图片:用循环把多张图片发给 AI,自动生成描述。
  • 学习 base64(一种把图片转成文本的编码方式):上面代码已经用了,你可以搜索更多用法。

内容来源

DEV Machine Learning

发布时间

2026-06-02 01:32

返回 AI技术