Back to Lobehub

文字转语音与语音转文字

docs/usage/agent/tts-stt.zh-CN.mdx

2.1.564.5 KB
Original Source

文字转语音与语音转文字

LobeHub 支持语音功能 —— 免提收听助理回复、用说话代替打字,进行自然的来回语音对话。TTS 将文字转为语音;STT 将你的语音转为文字。

文字转语音(TTS)

TTS 将 AI 的文字回复转换为语音,让你可以收听而无需阅读。

在对话窗口中选中任意内容,选择文字转语音,AI 将通过 TTS 模型对文本内容进行语音播报。

<Image alt={'TTS'} src={'/blog/assets907ea775d228958baca38e2dbb65939a.webp'} />

你还可以配置助理在每条消息完成后自动朗读所有回复,适合免提工作流程。

语音提供商与可选音色

LobeHub 支持两种语音提供商:

OpenAI 语音 — 高质量神经语音,具有自然的语调和韵律:

音色特点
Alloy中性、均衡
Echo清晰、专业
Fable温暖、友好
Onyx低沉、权威
Nova充满活力、吸引人
Shimmer柔和、轻缓

适合长篇内容收听、专业使用场景和需要自然流畅感的内容。

Microsoft Edge Speech(Azure 神经语音) — 拥有 100+ 跨语言音色的庞大音色库,支持区域口音(美式、英式、澳式等)以及男女声选项。适合有特定口音要求、多语言内容和多样化定制需求的场景。

播放控制

音频播放时可用以下控制:

  • 播放 / 暂停 — 控制播放状态
  • 进度条 — 查看和定位音频进度
  • 速度调节 — 调整播放速度(0.5× 至 2×)
  • 音量 — 调节音量大小
  • 下载 — 保存音频文件供离线使用

TTS 音频会自动缓存 —— 首次播放时实时生成,后续播放可从缓存中即时读取。

配置语音转换设置

你可以在设置中为文字语音转换功能指定你希望使用的模型。

<Image alt={'TTS 设置'} src={'/blog/assets89168f61edcb2ee92d2ad7064da218b2.webp'} />

  • 打开设置面板
  • 找到文字转语音设置
  • 选择您所需的语音服务和 AI 模型

每个助理可以拥有自己的音色。按助理配置:打开助理设置 → TTS 部分 → 选择语音提供商 → 选择音色 → 用示例文字测试 → 保存。

语音转文字(STT)

STT 将你说的话转换为文字,实现语音输入消息。

在输入窗口中选择语音输入功能,LobeHub 将你的语音转换为文字并输入到文本框中,完成输入后可以直接发送给 AI。

<Image alt={'STT'} src={'/blog/assets34424062ad6ab98df7f56c9e61341be5.webp'} />

支持的语言

STT 支持多种语言,包括英语(美式、英式、澳式、加拿大、印度)、西班牙语、法语、德语、意大利语、葡萄牙语、中文(普通话)、日语、韩语等。语言通常会根据你的界面语言自动检测或设置。

获得最佳效果的技巧

  • 以正常语速清晰地说话
  • 保持麦克风位置适当
  • 减少背景噪音
  • 说完整的句子
  • 在思路之间稍作停顿

语音输入完成后,检查转录文字,修改任何错误,确认无误后发送。这种混合方式结合了语音的速度和文字编辑的精准度。

语音对话(免提模式)

结合 TTS 和 STT,享受自然流畅的连续语音对话:

  1. 配置 Agent 自动播放 TTS 回复
  2. 点击麦克风图标并说出你的消息
  3. 检查转录内容后发送
  4. AI 回复通过 TTS 自动播放
  5. 准备好后继续语音输入下一条消息

免提模式非常适合:

  • 无障碍访问 — 屏幕阅读器用户、有行动不便的用户,或偏好音频交互的用户
  • 语言学习 — 用目标语言练习口语,并通过 TTS 收听正确发音
  • 多任务处理 — 烹饪、通勤或运动时获取 AI 帮助
  • 内容消费 — 以自己的节奏收听长篇文章、研究论文或学习材料

隐私说明

<Callout type={'warning'}> 语音输入会被 AI 服务处理以进行转录。除非使用私有或本地部署,否则请避免说出敏感信息。 </Callout>

语音数据处理方式:

  • STT 音频发送至提供商进行转录
  • TTS 音频在本地缓存以提升性能
  • 提供商不会永久存储音频
  • 转录内容将成为对话数据的一部分

最佳实践:发送前检查转录内容,不要说出密码或敏感数据,如担心本地存储,可定期清除音频缓存。

<Cards> <Card href={'/zh/docs/usage/agent/translate'} title={'会话翻译'} />

<Card href={'/zh/docs/usage/getting-started/agent'} title={'助理'} /> </Cards>