文字转语音与语音转文字

LobeHub 支持语音功能 —— 免提收听助理回复、用说话代替打字，进行自然的来回语音对话。TTS 将文字转为语音；STT 将你的语音转为文字。

文字转语音（TTS）

TTS 将 AI 的文字回复转换为语音，让你可以收听而无需阅读。

在对话窗口中选中任意内容，选择文字转语音，AI 将通过 TTS 模型对文本内容进行语音播报。

你还可以配置助理在每条消息完成后自动朗读所有回复，适合免提工作流程。

LobeHub 支持两种语音提供商：

OpenAI 语音 — 高质量神经语音，具有自然的语调和韵律：

适合长篇内容收听、专业使用场景和需要自然流畅感的内容。

Microsoft Edge Speech（Azure 神经语音） — 拥有 100+ 跨语言音色的庞大音色库，支持区域口音（美式、英式、澳式等）以及男女声选项。适合有特定口音要求、多语言内容和多样化定制需求的场景。

音频播放时可用以下控制：

TTS 音频会自动缓存 —— 首次播放时实时生成，后续播放可从缓存中即时读取。

你可以在设置中为文字语音转换功能指定你希望使用的模型。

每个助理可以拥有自己的音色。按助理配置：打开助理设置 → TTS 部分 → 选择语音提供商 → 选择音色 → 用示例文字测试 → 保存。

STT 将你说的话转换为文字，实现语音输入消息。

在输入窗口中选择语音输入功能，LobeHub 将你的语音转换为文字并输入到文本框中，完成输入后可以直接发送给 AI。

STT 支持多种语言，包括英语（美式、英式、澳式、加拿大、印度）、西班牙语、法语、德语、意大利语、葡萄牙语、中文（普通话）、日语、韩语等。语言通常会根据你的界面语言自动检测或设置。

语音输入完成后，检查转录文字，修改任何错误，确认无误后发送。这种混合方式结合了语音的速度和文字编辑的精准度。

结合 TTS 和 STT，享受自然流畅的连续语音对话：

免提模式非常适合：

<Callout type={'warning'}> 语音输入会被 AI 服务处理以进行转录。除非使用私有或本地部署，否则请避免说出敏感信息。 </Callout>

语音数据处理方式：

最佳实践：发送前检查转录内容，不要说出密码或敏感数据，如担心本地存储，可定期清除音频缓存。