AI 入门:5 分钟装好环境,跑通第一个多模态模型
零基础学会安装 Python 和依赖,用一行代码调用 GPT-4o、Claude 等视觉 AI,看懂图片内容。
很多新手想试试 AI 看图说话,但一上来就被各种 API 格式搞晕了。别担心,这篇教程带你从零开始,装好环境,跑通第一个多模态模型,让 AI 帮你描述图片内容。
准备环境
- 安装 Python(一种编程语言,用来写 AI 代码):去 python.org 下载 3.9 以上版本,安装时勾选“Add Python to PATH”。
- 安装 pip(Python 的包管理工具,帮你装别人写好的代码库):通常装 Python 时会自带,打开终端(Windows 叫 cmd 或 PowerShell,Mac 叫终端)输入
pip --version检查。 - 准备一张图片:随便找一张 jpg 或 png 图片,放在好找的路径,比如桌面。
安装步骤
- 打开终端,输入以下命令安装 openai 库(这是一个 Python 包,让你能调用 OpenAI 等大厂的 AI 模型):
pip install openai - 获取 API 密钥:去 OpenAI 官网(platform.openai.com)注册账号,创建一个 API Key(一串密钥,类似密码),复制保存好。
- 创建一个 Python 文件,比如
test_vlm.py,用记事本或 VS Code 打开,写入以下代码(把your-api-key换成你的密钥,your-image.jpg换成图片路径):from openai import OpenAI import base64 client = OpenAI(api_key="your-api-key") with open("your-image.jpg", "rb") as f: image_data = base64.b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="gpt-4o", messages=[{ "role": "user", "content": [ {"type": "text", "text": "请用一句话描述这张图片"}, {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}} ] }] ) print(response.choices[0].message.content)
验证是否成功
在终端运行 python test_vlm.py。如果一切正常,你会看到 AI 输出的图片描述文字,比如“一条狗在草地上奔跑”。
常见坑:如果报错 ModuleNotFoundError: No module named 'openai',说明没装成功,重新运行 pip install openai。如果报 API 密钥错误,检查密钥是否复制完整,注意不要有多余空格。
下一步可以做什么
- 换其他模型:把
model改成gpt-4o-mini(更便宜)或claude-3-haiku(需安装 Anthropic 库),但代码结构类似。 - 批量处理图片:用循环把多张图片发给 AI,自动生成描述。
- 学习 base64(一种把图片转成文本的编码方式):上面代码已经用了,你可以搜索更多用法。
内容来源
DEV Machine Learning
发布时间
2026-06-02 01:32