vision - 图片理解 - Chatgpt On Wechat

使用 Vision API 分析本地图片或图片 URL，支持内容描述、文字提取（OCR）、物体识别等。

模型选择

Vision 工具采用多级自动选择 + 自动兜底策略，无需手动配置即可使用：

如果当前 provider 调用失败，会自动尝试下一个，直到成功或全部失败。

厂商	视觉模型	说明
OpenAI / 兼容协议	使用主模型	支持所有 OpenAI 协议兼容的多模态模型
通义千问 (DashScope)	使用主模型	例如 qwen3.6-plus 等
Claude	使用主模型	Anthropic 原生图像格式
Gemini	使用主模型	inlineData 格式
豆包 (Doubao)	使用主模型	doubao-seed-2-0 系列原生支持
Kimi (Moonshot)	使用主模型	kimi-k2.6、kimi-k2.5 原生支持
百度千帆 (Qianfan)	使用主模型	默认使用多模态主模型 (如 ernie-5.0)，主模型不支持时兜底使用 ernie-4.5-turbo-vl
智谱 AI	glm-5v-turbo	固定使用视觉专用模型
MiniMax	MiniMax-Text-01	固定使用视觉专用模型

<Note> 智谱和 MiniMax 的文本模型不支持图像理解，因此始终使用对应的视觉专用模型，无需手动指定。 </Note>

当 use_linkai=true 时，默认使用 LinkAI 的多模态模型进行

如果希望指定 Vision 使用的模型，可在 config.json 中配置，例如：

json

{
    "tool": {
        "vision": {
            "model": "gpt-4.1"
        }
    }
}

指定的模型会被优先使用，工具会根据模型名自动路由到对应的 provider；若调用失败，会自动 fallback 到其他已配置的 provider。

大多数情况下无需配置，主模型支持多模态或配置任意一个支持视觉的 API Key 即可自动工作。

参数	类型	必填	说明
`image`	string	是	本地文件路径或 HTTP(S) 图片 URL
`question`	string	是	对图片提出的问题

支持的图片格式：jpg、jpeg、png、gif、webp

<Note> 超过 1MB 的图片会自动压缩后上传，所有图片（包括远程 URL）会统一转为 base64 传输，确保兼容所有模型后端。 </Note>