docs/tools/vision.mdx
使用 Vision API 分析本地图片或图片 URL,支持内容描述、文字提取(OCR)、物体识别等。
Vision 工具采用多级自动选择 + 自动兜底策略,无需手动配置即可使用:
如果当前 provider 调用失败,会自动尝试下一个,直到成功或全部失败。
| 厂商 | 视觉模型 | 说明 |
|---|---|---|
| OpenAI / 兼容协议 | 使用主模型 | 支持所有 OpenAI 协议兼容的多模态模型 |
| 通义千问 (DashScope) | 使用主模型 | 例如 qwen3.6-plus 等 |
| Claude | 使用主模型 | Anthropic 原生图像格式 |
| Gemini | 使用主模型 | inlineData 格式 |
| 豆包 (Doubao) | 使用主模型 | doubao-seed-2-0 系列原生支持 |
| Kimi (Moonshot) | 使用主模型 | kimi-k2.6、kimi-k2.5 原生支持 |
| 百度千帆 (Qianfan) | 使用主模型 | 默认使用多模态主模型 (如 ernie-5.0),主模型不支持时兜底使用 ernie-4.5-turbo-vl |
| 智谱 AI | glm-5v-turbo | 固定使用视觉专用模型 |
| MiniMax | MiniMax-Text-01 | 固定使用视觉专用模型 |
当
use_linkai=true时,默认使用 LinkAI 的多模态模型进行
如果希望指定 Vision 使用的模型,可在 config.json 中配置,例如:
{
"tool": {
"vision": {
"model": "gpt-4.1"
}
}
}
指定的模型会被优先使用,工具会根据模型名自动路由到对应的 provider;若调用失败,会自动 fallback 到其他已配置的 provider。
大多数情况下无需配置,主模型支持多模态或配置任意一个支持视觉的 API Key 即可自动工作。
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
image | string | 是 | 本地文件路径或 HTTP(S) 图片 URL |
question | string | 是 | 对图片提出的问题 |
支持的图片格式:jpg、jpeg、png、gif、webp