Back to Spring Ai Alibaba

Spring AI Alibaba 多模态示例

examples/multimodal/src/main/resources/static/index.html

1.1.2.21.1 KB
Original Source

Spring AI Alibaba 多模态示例

图像理解、视觉 Agent、创意生成、语音合成

1. runImageFromUrl - 图片 URL 理解

通过公开图片 URL,使用 ChatModel 直接进行图像描述。

提交

2. runImageFromResource - 本地/上传图片理解

上传本地图片文件,或使用 classpath 资源路径(如 images/sample.png)。

上传图片: 提交(上传文件)


或使用 classpath 资源:

提交(classpath 资源)

3. runVisionAgent - 视觉 Agent

使用 ReactAgent 进行多模态输入(图片 + 文本)理解。

提交

4. runCreativeAgent - 创意 Agent

通过工具进行图像/音频生成(需配置 ImageModel 和 TTSModel)。

Generate an image of a cute cat in a garden, watercolor style.提交

5. TTS - 语音合成

使用 DashScope 语音合成(需配置 DashScopeAudioSpeechModel)。输出格式 base64 可在页面直接播放,url 为服务器临时文件地址。

Hello, this is a text to speech demo.输出格式:base64(页面内播放)url(服务器文件地址)合成