Back to Lobehub

视觉与图像理解

docs/usage/getting-started/vision.zh-CN.mdx

2.1.565.6 KB
Original Source

视觉与图像理解

LobeHub 支持视觉功能 —— 助理能够 "看见" 并理解你分享的图片。这一多模态能力让对话突破纯文字的边界,融入丰富的视觉信息。

AI 能用图片做什么

支持视觉的模型可以:

  • 分析图片 — 理解照片、截图、图表和文档
  • 文字识别(OCR) — 从图片、截图、手写笔记和标牌中提取文字
  • 描述视觉内容 — 提供场景和对象的详细描述
  • 回答问题 — 针对图片内容做出具体回答
  • 比较图片 — 分析多张图片之间的差异
  • 识别规律 — 辨别布局、设计风格和趋势

上传图片

上传方式

拖拽上传 — 将图片文件从电脑拖入聊天输入框。支持单张或多张图片同时上传。

点击上传 — 点击输入框中的附件 / 图片图标,浏览文件并选择一张或多张图片。

粘贴上传 — 复制任意图片(截图、从网页复制等),在消息输入框中点击,然后按 Ctrl+V(Mac 上按 Cmd+V)。图片立即出现 —— 非常适合快速提问截图中的内容。

支持格式与限制

支持格式:JPEG/JPG、PNG、WebP、GIF(仅静态帧)、BMP

  • 最大文件大小:约 20 MB 每张
  • 推荐大小:5 MB 以内,性能最佳
  • 过大的图片会自动压缩

<Callout type={'info'}> 只有在使用支持视觉的模型时,图片上传按钮才会出现。如果看不到该按钮,请切换到支持视觉的模型(参见下方支持模型列表)。 </Callout>

<Callout type={'warning'}> 视觉功能消耗的 Token 多于纯文字对话,这可能影响自托管或 API Key 部署的 API 费用。 </Callout>

使用视觉功能

图片分析

对图片提出通用问题:

"这张图片里有什么?"
"请详细描述你看到的内容"
"这张照片的主要元素有哪些?"

文字提取(OCR)

从图片、截图和文档中提取文字:

"图片里的文字写的是什么?"
"请转录这张图片中的所有文字"
"读一下这个截图中的错误信息"

适用场景:截图、标牌照片、印刷文档、图片中的代码等。手写识别准确率因字迹而异。

多图分析

同时上传多张图片,进行比较或综合分析:

"比较这三个设计方案,哪个最有效?"
"找出这两张前后对比图之间的差异"
"分析这几张图表中显示的趋势"

提出具体问题

问题越具体,分析结果越有价值:

"这是什么植物?"(物体识别)
"这张照片可能是在哪里拍的?"(场景理解)
"这个设计用了哪些颜色?"(技术分析)
"这张信息图的核心信息是什么?"(内容分析)

使用场景

软件开发 — 分享错误信息截图、UI Bug、堆栈跟踪或白板图。让 AI "修复这个错误"、"评审这个界面设计",或 "把这个白板图转换成代码"。

学习与教育 — 上传教材题目、图表、科学图像或手写笔记,请 AI 解释、摘要或数字化转录。

内容创作与设计 — 获取对 Logo 设计、海报排版、配色方案和构图的专业反馈。为图片生成说明文字、无障碍 alt 文本或写作灵感。

专业工作 — 从发票提取数据,分析仪表盘和图表,评审演示文稿,数字化名片和收据。

日常生活 — 识别植物、产品或地标;翻译标牌和菜单;通过照片获取烹饪或家居维修建议。

最佳实践

使用清晰、明亮的图片 — 模糊或昏暗的图片会显著降低识别准确率。

用文字补充上下文 — 图片与具体问题或描述相结合效果最佳。"这段代码有什么问题?" 配上截图远比只上传图片更有用。

裁剪到关键区域 — 去掉图片中不相关的部分,让 AI 专注于重要内容。

提出具体问题 — 与其问 "这是什么?",不如问 "这座建筑是什么建筑风格?" 越具体,答案越有用。

核实重要信息 — 视觉 AI 可能出错,重要结论请务必独立核实。

功能限制

<Callout type={'warning'}> 视觉模型存在局限性,请始终对重要信息进行独立核实。 </Callout>

  • 人物与面孔 — 出于隐私保护,无法识别特定个人
  • 细节识别 — 对低分辨率图片中的极小文字或细节可能有遗漏
  • 手写识别 — 准确率因字迹清晰度而存在较大差异
  • 视频 — 不支持视频文件,仅支持静态图片
  • 医疗 / 法律用途 — 不适用于医疗诊断或法律建议,仅供参考
  • 隐私 — 图片会由 AI 提供商的服务器处理,请勿上传未经脱敏的敏感或机密内容

支持的模型

视觉功能需要选择支持视觉的模型。在模型选择器中查找带有视觉能力标记的模型:

提供商视觉模型
OpenAIGPT-4V、GPT-4o、GPT-4o mini
AnthropicClaude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus、Claude 3.5 Sonnet 及以上
GoogleGemini 1.5 Flash、Gemini 1.5 Pro、Gemini Pro Vision

其他提供商也可能提供视觉模型 —— 请在选择器中查看模型的能力标签。

<Cards> <Card href={'/zh/docs/usage/getting-started/resource'} title={'资源库'} />

<Card href={'/zh/docs/usage/getting-started/image-generation'} title={'图像生成'} />

<Card href={'/zh/docs/usage/providers'} title={'AI 提供商'} /> </Cards>