docs/usage/getting-started/vision.zh-CN.mdx
LobeHub 支持视觉功能 —— 助理能够 "看见" 并理解你分享的图片。这一多模态能力让对话突破纯文字的边界,融入丰富的视觉信息。
支持视觉的模型可以:
拖拽上传 — 将图片文件从电脑拖入聊天输入框。支持单张或多张图片同时上传。
点击上传 — 点击输入框中的附件 / 图片图标,浏览文件并选择一张或多张图片。
粘贴上传 — 复制任意图片(截图、从网页复制等),在消息输入框中点击,然后按 Ctrl+V(Mac 上按 Cmd+V)。图片立即出现 —— 非常适合快速提问截图中的内容。
支持格式:JPEG/JPG、PNG、WebP、GIF(仅静态帧)、BMP
<Callout type={'info'}> 只有在使用支持视觉的模型时,图片上传按钮才会出现。如果看不到该按钮,请切换到支持视觉的模型(参见下方支持模型列表)。 </Callout>
<Callout type={'warning'}> 视觉功能消耗的 Token 多于纯文字对话,这可能影响自托管或 API Key 部署的 API 费用。 </Callout>
对图片提出通用问题:
"这张图片里有什么?"
"请详细描述你看到的内容"
"这张照片的主要元素有哪些?"
从图片、截图和文档中提取文字:
"图片里的文字写的是什么?"
"请转录这张图片中的所有文字"
"读一下这个截图中的错误信息"
适用场景:截图、标牌照片、印刷文档、图片中的代码等。手写识别准确率因字迹而异。
同时上传多张图片,进行比较或综合分析:
"比较这三个设计方案,哪个最有效?"
"找出这两张前后对比图之间的差异"
"分析这几张图表中显示的趋势"
问题越具体,分析结果越有价值:
"这是什么植物?"(物体识别)
"这张照片可能是在哪里拍的?"(场景理解)
"这个设计用了哪些颜色?"(技术分析)
"这张信息图的核心信息是什么?"(内容分析)
软件开发 — 分享错误信息截图、UI Bug、堆栈跟踪或白板图。让 AI "修复这个错误"、"评审这个界面设计",或 "把这个白板图转换成代码"。
学习与教育 — 上传教材题目、图表、科学图像或手写笔记,请 AI 解释、摘要或数字化转录。
内容创作与设计 — 获取对 Logo 设计、海报排版、配色方案和构图的专业反馈。为图片生成说明文字、无障碍 alt 文本或写作灵感。
专业工作 — 从发票提取数据,分析仪表盘和图表,评审演示文稿,数字化名片和收据。
日常生活 — 识别植物、产品或地标;翻译标牌和菜单;通过照片获取烹饪或家居维修建议。
使用清晰、明亮的图片 — 模糊或昏暗的图片会显著降低识别准确率。
用文字补充上下文 — 图片与具体问题或描述相结合效果最佳。"这段代码有什么问题?" 配上截图远比只上传图片更有用。
裁剪到关键区域 — 去掉图片中不相关的部分,让 AI 专注于重要内容。
提出具体问题 — 与其问 "这是什么?",不如问 "这座建筑是什么建筑风格?" 越具体,答案越有用。
核实重要信息 — 视觉 AI 可能出错,重要结论请务必独立核实。
<Callout type={'warning'}> 视觉模型存在局限性,请始终对重要信息进行独立核实。 </Callout>
视觉功能需要选择支持视觉的模型。在模型选择器中查找带有视觉能力标记的模型:
| 提供商 | 视觉模型 |
|---|---|
| OpenAI | GPT-4V、GPT-4o、GPT-4o mini |
| Anthropic | Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus、Claude 3.5 Sonnet 及以上 |
| Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini Pro Vision |
其他提供商也可能提供视觉模型 —— 请在选择器中查看模型的能力标签。
<Cards> <Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} /><Card href={'/zh/docs/usage/getting-started/image-generation'} title={'图像生成'} />
<Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} /> </Cards>