Log in Get started

Back to Lobehub

视觉识别：与图片对话，不只是文字

docs/changelog/2023-11-14-gpt4-vision.zh-CN.mdx

2.1.561.4 KB

Original Source

支持模型视觉识别

LobeHub 的对话不再局限于纯文字。我们现已支持多个具备视觉识别能力的大语言模型，包括 OpenAI 的 gpt-4-vision、Google Gemini Pro Vision，以及智谱 GLM-4 Vision。

自然地分享图片

上传图片或直接拖拽到对话框，助理就能理解视觉内容并基于上下文继续对话。无论是截图、照片、图表还是任何视觉参考，都能轻松分享。

这为日常场景和专业场景带来了更自然的多模态体验：

分享生活中的照片并展开讨论
上传界面截图获取设计反馈
分享图表并获得解读
引用视觉内容而无需用文字描述

上下文感知的视觉理解

助理不只是 "看见" 图片 —— 它能在持续对话中理解图片内容。你可以针对特定细节追问、比较多张图片，或将视觉资料作为复杂讨论的参考。

对于专业领域，这意味着更清晰的上下文和更实用的回复。医学影像讨论、建筑方案评审或技术图表分析，当双方都能看到相同的视觉参考时，交流变得更加自然高效。

个性化的语音交互

为了更好地服务不同地区和偏好的用户，我们还加入了 OpenAI Audio 和 Microsoft Edge Speech 的高品质语音选项。选择符合你风格或场景的声音，获得更个性化的交互体验。