Back to Lobehub

视觉识别:与图片对话,不只是文字

docs/changelog/2023-11-14-gpt4-vision.zh-CN.mdx

2.1.561.4 KB
Original Source

支持模型视觉识别

LobeHub 的对话不再局限于纯文字。我们现已支持多个具备视觉识别能力的大语言模型,包括 OpenAI 的 gpt-4-vision、Google Gemini Pro Vision,以及智谱 GLM-4 Vision。

自然地分享图片

上传图片或直接拖拽到对话框,助理就能理解视觉内容并基于上下文继续对话。无论是截图、照片、图表还是任何视觉参考,都能轻松分享。

这为日常场景和专业场景带来了更自然的多模态体验:

  • 分享生活中的照片并展开讨论
  • 上传界面截图获取设计反馈
  • 分享图表并获得解读
  • 引用视觉内容而无需用文字描述

上下文感知的视觉理解

助理不只是 "看见" 图片 —— 它能在持续对话中理解图片内容。你可以针对特定细节追问、比较多张图片,或将视觉资料作为复杂讨论的参考。

对于专业领域,这意味着更清晰的上下文和更实用的回复。医学影像讨论、建筑方案评审或技术图表分析,当双方都能看到相同的视觉参考时,交流变得更加自然高效。

个性化的语音交互

为了更好地服务不同地区和偏好的用户,我们还加入了 OpenAI Audio 和 Microsoft Edge Speech 的高品质语音选项。选择符合你风格或场景的声音,获得更个性化的交互体验。