视觉与图像理解

LobeHub 支持视觉功能 —— 助理能够 "看见" 并理解你分享的图片。这一多模态能力让对话突破纯文字的边界，融入丰富的视觉信息。

AI 能用图片做什么

支持视觉的模型可以：

拖拽上传 — 将图片文件从电脑拖入聊天输入框。支持单张或多张图片同时上传。

点击上传 — 点击输入框中的附件 / 图片图标，浏览文件并选择一张或多张图片。

粘贴上传 — 复制任意图片（截图、从网页复制等），在消息输入框中点击，然后按 Ctrl+V（Mac 上按 Cmd+V）。图片立即出现 —— 非常适合快速提问截图中的内容。

支持格式：JPEG/JPG、PNG、WebP、GIF（仅静态帧）、BMP

<Callout type={'info'}> 只有在使用支持视觉的模型时，图片上传按钮才会出现。如果看不到该按钮，请切换到支持视觉的模型（参见下方支持模型列表）。 </Callout>

<Callout type={'warning'}> 视觉功能消耗的 Token 多于纯文字对话，这可能影响自托管或 API Key 部署的 API 费用。 </Callout>

对图片提出通用问题：

"这张图片里有什么？"
"请详细描述你看到的内容"
"这张照片的主要元素有哪些？"

从图片、截图和文档中提取文字：

"图片里的文字写的是什么？"
"请转录这张图片中的所有文字"
"读一下这个截图中的错误信息"

适用场景：截图、标牌照片、印刷文档、图片中的代码等。手写识别准确率因字迹而异。

同时上传多张图片，进行比较或综合分析：

"比较这三个设计方案，哪个最有效？"
"找出这两张前后对比图之间的差异"
"分析这几张图表中显示的趋势"

问题越具体，分析结果越有价值：

"这是什么植物？"（物体识别）
"这张照片可能是在哪里拍的？"（场景理解）
"这个设计用了哪些颜色？"（技术分析）
"这张信息图的核心信息是什么？"（内容分析）

软件开发 — 分享错误信息截图、UI Bug、堆栈跟踪或白板图。让 AI "修复这个错误"、"评审这个界面设计"，或 "把这个白板图转换成代码"。

学习与教育 — 上传教材题目、图表、科学图像或手写笔记，请 AI 解释、摘要或数字化转录。

内容创作与设计 — 获取对 Logo 设计、海报排版、配色方案和构图的专业反馈。为图片生成说明文字、无障碍 alt 文本或写作灵感。

专业工作 — 从发票提取数据，分析仪表盘和图表，评审演示文稿，数字化名片和收据。

日常生活 — 识别植物、产品或地标；翻译标牌和菜单；通过照片获取烹饪或家居维修建议。

使用清晰、明亮的图片 — 模糊或昏暗的图片会显著降低识别准确率。

用文字补充上下文 — 图片与具体问题或描述相结合效果最佳。"这段代码有什么问题？" 配上截图远比只上传图片更有用。

裁剪到关键区域 — 去掉图片中不相关的部分，让 AI 专注于重要内容。

提出具体问题 — 与其问 "这是什么？"，不如问 "这座建筑是什么建筑风格？" 越具体，答案越有用。

核实重要信息 — 视觉 AI 可能出错，重要结论请务必独立核实。

<Callout type={'warning'}> 视觉模型存在局限性，请始终对重要信息进行独立核实。 </Callout>

视觉功能需要选择支持视觉的模型。在模型选择器中查找带有视觉能力标记的模型：

提供商	视觉模型
OpenAI	GPT-4V、GPT-4o、GPT-4o mini
Anthropic	Claude 3 Haiku、Claude 3 Sonnet、Claude 3 Opus、Claude 3.5 Sonnet 及以上
Google	Gemini 1.5 Flash、Gemini 1.5 Pro、Gemini Pro Vision

其他提供商也可能提供视觉模型 —— 请在选择器中查看模型的能力标签。