docs/usage/agent/tts-stt.zh-CN.mdx
LobeHub 支持语音功能 —— 免提收听助理回复、用说话代替打字,进行自然的来回语音对话。TTS 将文字转为语音;STT 将你的语音转为文字。
TTS 将 AI 的文字回复转换为语音,让你可以收听而无需阅读。
在对话窗口中选中任意内容,选择文字转语音,AI 将通过 TTS 模型对文本内容进行语音播报。
<Image alt={'TTS'} src={'/blog/assets907ea775d228958baca38e2dbb65939a.webp'} />
你还可以配置助理在每条消息完成后自动朗读所有回复,适合免提工作流程。
LobeHub 支持两种语音提供商:
OpenAI 语音 — 高质量神经语音,具有自然的语调和韵律:
| 音色 | 特点 |
|---|---|
| Alloy | 中性、均衡 |
| Echo | 清晰、专业 |
| Fable | 温暖、友好 |
| Onyx | 低沉、权威 |
| Nova | 充满活力、吸引人 |
| Shimmer | 柔和、轻缓 |
适合长篇内容收听、专业使用场景和需要自然流畅感的内容。
Microsoft Edge Speech(Azure 神经语音) — 拥有 100+ 跨语言音色的庞大音色库,支持区域口音(美式、英式、澳式等)以及男女声选项。适合有特定口音要求、多语言内容和多样化定制需求的场景。
音频播放时可用以下控制:
TTS 音频会自动缓存 —— 首次播放时实时生成,后续播放可从缓存中即时读取。
你可以在设置中为文字语音转换功能指定你希望使用的模型。
<Image alt={'TTS 设置'} src={'/blog/assets89168f61edcb2ee92d2ad7064da218b2.webp'} />
设置面板文字转语音设置每个助理可以拥有自己的音色。按助理配置:打开助理设置 → TTS 部分 → 选择语音提供商 → 选择音色 → 用示例文字测试 → 保存。
STT 将你说的话转换为文字,实现语音输入消息。
在输入窗口中选择语音输入功能,LobeHub 将你的语音转换为文字并输入到文本框中,完成输入后可以直接发送给 AI。
<Image alt={'STT'} src={'/blog/assets34424062ad6ab98df7f56c9e61341be5.webp'} />
STT 支持多种语言,包括英语(美式、英式、澳式、加拿大、印度)、西班牙语、法语、德语、意大利语、葡萄牙语、中文(普通话)、日语、韩语等。语言通常会根据你的界面语言自动检测或设置。
语音输入完成后,检查转录文字,修改任何错误,确认无误后发送。这种混合方式结合了语音的速度和文字编辑的精准度。
结合 TTS 和 STT,享受自然流畅的连续语音对话:
免提模式非常适合:
<Callout type={'warning'}> 语音输入会被 AI 服务处理以进行转录。除非使用私有或本地部署,否则请避免说出敏感信息。 </Callout>
语音数据处理方式:
最佳实践:发送前检查转录内容,不要说出密码或敏感数据,如担心本地存储,可定期清除音频缓存。
<Cards> <Card href={'/zh/docs/usage/agent/translate'} title={'会话翻译'} /><Card href={'/zh/docs/usage/getting-started/agent'} title={'助理'} /> </Cards>