pyVideoTrans 常见问题与解决方案

为了帮助您更好地使用 pyVideoTrans，我们整理了以下常见问题及其解决方案。

在 菜单栏--帮助/关于 中有很多链接，比如模型下载地址、CUDA配置等，遇到问题时可尝试点开使用。

如何查看日志：软件根目录下的 logs/ 文件夹有按日期命名的 .log 日志文件。报错时可复制日志底部约 30 行内容寻求帮助。

如何恢复出厂设置：删除 videotrans/ 目录下的 cfg.json、params.json、codec.json、ass.json 四个文件，重启软件即可。

第一部分：安装与启动问题

1. 双击 `sp.exe` 后，软件无法打开或长时间没有反应？

这通常是正常现象，请不要着急。

原因：本软件基于 PySide6 开发，主界面包含较多组件，首次加载时需要初始化，这会消耗一些时间。根据您的电脑性能，启动时间可能在 5秒到2分钟 不等。
解决方案：
1. 耐心等待：双击后请耐心等待一段时间。
2. 检查安全软件：部分杀毒软件或安全卫士可能会阻止程序启动，请尝试暂时关闭它们，或将本软件添加到信任/白名单中。
3. 检查文件路径：确保软件存放的路径只包含英文和数字，不应有中文、空格或特殊符号。例如，D:\pyVideoTrans 是一个好的路径，而 D:\program file\视频工具 则可能导致问题。
4. 升级包问题：如果您是覆盖了升级包后无法启动，说明操作有误。请重新下载完整的软件包，解压后再覆盖新版升级包。

2. 启动时提示缺少 `python310.dll` 文件怎么办？

这个问题说明您只下载了升级补丁包，而没有下载主程序。

解决方案：
1. 请先前往官网下载 完整软件包。
2. 解压完整包到指定目录。
3. 之后再下载最新的升级补丁包，覆盖到完整包的目录中即可。

3. 软件需要安装吗？

本软件是绿色版，无需安装。下载完整包后解压，双击 sp.exe 即可直接运行。

4. 为什么杀毒软件会报病毒或拦截？

原因：本软件使用 PyInstaller 工具打包，并且没有进行商业数字签名认证。一些安全软件会基于此启动风险预警，这属于常见误报。
解决方案：
1. 添加信任：将本软件添加到您杀毒软件的信任区或白名单中。
2. 源码运行：如果您是开发者，也可以选择从源代码直接部署运行，以完全避免此问题。

5. 软件支持 Windows 7 系统吗？

不支持。软件依赖的许多核心组件（如 PyTorch、PySide6）已不再支持 Windows 7 系统。请使用 Windows 10 或 Windows 11。

6. macOS / Linux 如何部署源码？

前置依赖：
- Python 3.10
- FFmpeg（brew install ffmpeg / apt install ffmpeg）
- uv 包管理器
- libsndfile

部署步骤：

bash

git clone https://github.com/jianchang512/pyvideotrans
cd pyvideotrans
uv sync
uv run sp.py

可选依赖：uv sync --all-extra 安装所有可选渠道（qwen-tts, qwen-asr, moss-tts, chatterbox）

7. 源码部署后启动报错怎么办？

常见原因及解决方案：

FFmpeg 未安装：确保系统已安装 FFmpeg 且配置了环境变量
依赖缺失：运行 uv sync 重新安装依赖
Python 版本不对：必须使用 Python 3.10（.python-version 文件已指定）

第二部分：核心功能与设置

8. 如何提升语音识别的准确率？

识别准确率主要取决于您选择的模型大小和设置。

模型选择：在 "faster" 或 "openai" 模式下，模型越大，准确率越高，但处理速度越慢、资源消耗也越大。
- tiny: 体积最小，速度最快，但准确率较低。
- base / small / medium: 效果与资源消耗居中，是常用的选项。
- large-v3: 体积最大，效果最好，对硬件要求也最高（需要 8GB+ 显存）。
优化设置：点击 菜单--工具--高级选项

找到 faster/openai语音识别调整 部分，进行如下修改：

语音阈值 设为 0.5
最短持续时间/毫秒 设为 3000
最大语音持续时间/秒 设为 6
静音分隔毫秒 设为 140
热词：如果视频中有专有名词，可以在此填写，以逗号分隔

降噪处理：如果视频有背景音乐或噪声，点击 设置更多参数 选中 分离人声背景声，可以显著提升识别效果。

9. 为什么处理后的视频清晰度/质量降低了？

任何涉及重新编码的操作都会不可避免地导致视频质量损失。如果您希望最大程度地保持原始画质，请确保满足以下所有条件：

原始视频格式：使用兼容性最好的 H.264 (libx264) 编码的 MP4 文件。
禁用慢速处理：在功能选项中，不要勾选"视频自动慢速"。
不嵌入硬字幕：可以选择不嵌入字幕，或只嵌入软字幕。硬字幕会强制重新编码整个视频。
高级选项-视频输出质量控制：数字默认23，可以降低到18或更低(最低0)，越低输出视频质量越高，但尺寸也越大
高级选项-输出视频压缩率：默认是fast,可用选择slow或slower，质量会更高，但输出耗时将增加
高级选项-264/265编码：默认是264,可选265，输出视频质量更高

10. 为什么输出视频超级大？

修改高级选项-视频输出质量控制 为 25-51 越大输出视频尺寸越小，但质量也随之降低
高级选项-264/265编码：选择265，同质量下 265 尺寸更小

11. 如何配置网络代理？

部分翻译或配音服务（如 Google、OpenAI、Gemini）在国内无法直接访问，需要通过网络代理。

设置方法：在主界面的"网络代理地址"文本框中，填入您的代理服务地址。
格式要求：通常是 http://127.0.0.1:10808 这样的格式（端口号需根据您的代理客户端设置填写）。
重要提示：如果您不了解代理或没有可用的代理服务，请将此项留空。错误的设置将导致报错。
国内 API 不需要代理：百度翻译、腾讯翻译、阿里翻译、DeepSeek、智谱AI、字节火山等国内 API 默认不走代理。
本地服务不需要代理：GPT-SoVITS、ChatTTS、F5-TTS 等本地服务自动绕过代理。

12. 如何自定义字幕的字体、颜色和样式？

点击主界面中 -> 设置更多参数 -> 修改硬字幕

第三部分：语音识别问题

13. 识别结果为空或乱码

原因：可能语言选择错误、视频无有效人声、或显存不足
解决方案：
1. 检查"原始语言"是否选择正确（不要过度依赖 Auto）
2. 检查视频是否有背景音乐干扰（尝试开启降噪）
3. 显存不足：降低 beam_size，改用 int8 量化，或使用 small 模型
4. 尝试更换识别渠道（如从 faster-whisper 换成 openai-whisper）

14. 识别速度非常慢

原因：使用了大型模型但未启用 GPU 加速
解决方案：
1. 启用 CUDA 加速：确保已安装 CUDA 12.8+ 和 cuDNN 9.x，勾选 CUDA加速
2. 使用小模型：将 large-v3 换成 medium 或 small
3. CPU 模式优化：在高级选项中将 计算数据类型 改为 int8

15. 提示显存或内存不足（`Unable to allocate`、`CUDA out of memory`）

原因：模型太大或显存被其他程序占用
解决方案（按推荐顺序尝试）：
1. 使用更小的模型：将识别模型从 large-v3 更换为 medium、small 或 base。large-v3 模型最低需要 8GB 显存。
2. 调整高级设置：在菜单栏 工具/选项 -> 高级选项 中进行如下修改：
  - CUDA数据类型: 将 float32 改为 float16 或 int8
  - beam_size: 将 5 改为 1
  - best_of: 将 5 改为 1
  - 上下文: 将 true 改为 false
3. 检查多显卡：如果有多个可用显卡，检查第一块显卡可用显存是否过小。软件默认使用第一块显卡，升级到 v3.98-317 以上版本会自动选择显存最大的显卡。

16. 说话人识别不准确

原因：说话人分离模型对某些场景（如多人同时说话、背景噪声大）效果有限
解决方案：
1. 在 设置更多参数 中勾选 识别说话人 并指定人数
2. 在高级选项中切换说话人模型（内置、阿里CAM++、pyannote）
3. 使用 pyannote 模型需要在 HuggingFace 上申请 token 并同意授权协议

17. LLM 重新断句后结果更差

原因：本地小模型（如 7B）智能不足，或提示词过于复杂
解决方案：
1. 使用更强的在线模型（DeepSeek-V3、GPT-4o 等）
2. 精简提示词（在 videotrans/prompts/recharge/recharge-llm.txt 中修改）
3. 使用 clone 角色克隆原音色时，不建议使用 LLM 重新断句

18. 配音后字幕和声音不同步

这是翻译配音中的常见现象，源于语言间的时长差异。

原因：不同语言表达同一意思时，音节数和语法结构不同，导致配音时长与原始字幕时长不一致。例如，一句2秒的中文，翻译成英文后配音时长可能变为3-4秒。
解决方案：
1. 启用音频加速：勾选 音频加速，自动将过长的配音加速到匹配字幕时长
2. 启用视频慢速：勾选 视频慢速，放慢视频画面以匹配配音时长
3. 两者同时启用：当倍率 > 1.2x 时，音频加速和视频慢速各负担一半时间差
4. 调整语速：设置 配音语速 值（如 +10%）加快整体配音速度
5. 使用二次识别：勾选 二次识别，在配音完成后再次识别生成更精准的字幕时间轴

详细原理请参考音频视频时间轴对齐原理说明

19. 二次识别是什么？什么时候需要？

二次识别是在配音完成后，对生成的配音音频再次进行语音识别，生成时间轴更精准、字数更简短的字幕。

适用场景：选择了 嵌入单字幕（硬字幕或软字幕），且需要字幕和配音精确对齐
设置方法：勾选 二次识别，在高级选项中设置二次识别的最长/最短语音持续时间
注意：二次识别需要额外的处理时间

第四部分：翻译问题

20. 翻译结果有空白行或包含提示词

原因：本地小模型智能不足，或 AI 合并了字幕行
解决方案：
1. 本地小模型（如 7B）智能不足，建议改用 DeepSeek/GPT-4 等在线模型
2. 取消"发送完整字幕"选项，改为按行翻译
3. 设置 trans_thread=1 降低并发
4. 具体原理和解决方法点击查看

21. AI 翻译触发安全限制被过滤

错误信息：内容触发AI风控被过滤
原因：翻译内容被 AI 服务的安全系统拦截
解决方案：
1. 手动编辑字幕，移除可能触发风控的内容
2. 更换翻译渠道（如从 OpenAI 换成 DeepSeek）

22. 翻译结果与原文不对应（字幕行错位）

原因：AI 翻译时合并了字幕行，导致行号错位
解决方案：
1. 在高级选项中取消勾选"发送完整字幕"
2. 将翻译并发数设为 1
3. 使用支持大上下文的在线 AI 模型

23. 翻译缓存导致结果异常

原因：翻译结果被缓存，修改提示词或翻译渠道后未生效
解决方案：
1. 勾选主界面的 清理已生成 选项
2. 或手动删除 tmp/translate_cache/ 目录下的缓存文件

第五部分：配音问题

24. Edge-TTS 报错 403 或生成静音

原因：微软限流，短时间内请求过多
解决方案：
1. 在"高级选项"中将"同时配音线程数"设为 1
2. 将"配音后暂停秒数"设为 5-10 秒
3. 如果使用了代理，Edge-TTS 可能因代理问题失败。在软件根目录创建 edgetts-noproxy.txt 空文件可强制绕过代理

25. F5-TTS / CosyVoice / GPT-SoVITS 无法连接

原因：本地 TTS 服务未启动或地址配置错误
解决方案：
1. 确保外部 TTS 服务的终端窗口未关闭
2. 检查 API 地址是否正确（注意端口号）
3. GPT-SoVITS 需启动 api.py 或 api_v2.py，不能使用网页版 7860 端口
4. 如果填写了 0.0.0.0 作为地址，改为 127.0.0.1

26. GPT-SoVITS 报错 `{"detail":"Not Found"}`

原因：API 版本不匹配或端口错误
解决方案：
1. 检查启动的是 api.py 还是 api_v2.py，在软件中勾选对应的 api_v2? 选项
2. 确保填写的是 API 地址（默认 9880），而非网页版地址（7860）

27. Index-TTS 报错 `Value: 'Same as the voice reference' is not in the list`

原因：Index-TTS 内部多语言翻译不一致的 Bug
解决方案：打开 Index-TTS 项目根目录的 webui.py，将 i18n("与音色参考音频相同") 替换为 Same as the voice reference

28. Azure-TTS 报错 `Could not find module Microsoft.CognitiveServices.Speech.core.dll`

原因：缺少微软 VC++ 运行库
解决方案：
1. 如果是下载的补丁包，请重新下载完整包
2. 如果已是完整包，安装微软 VC++ 运行时集合包后重启电脑

29. 配音后声音有机械感或杂音

原因：音频加速倍率过高（> 3x），或参考音频质量差
解决方案：
1. 启用视频慢速，与音频加速协同分担时间差
2. 提升参考音频质量：使用清晰的 5-10 秒单人声 WAV 文件
3. 勾选 分离人声背景声，去除背景噪声

第六部分：声音克隆问题

30. 使用 `clone` 角色配音失败或音质差

原因：参考音频时长不在 3-10 秒范围内，或字幕时间轴被 LLM 重新断句打乱
解决方案：
1. 禁止使用 LLM 重新断句：LLM 重新断句会打乱时间轴，导致参考音频截取错位
2. 强制控制字幕时长：在 高级选项 -> 语音识别参数 中，将 最长语音持续秒数 设为 6-10，最短语音持续毫秒 设为 3000-4000
3. 勾选 合并过短字幕到邻近 和 Whisper预分割音频
4. 使用 OmniVoice-TTS 渠道，对短参考音频兼容性更好
5. 勾选 分离人声背景声，提升参考音频质量

31. 如何使用自定义参考音频？

录制或截取一段 5-10 秒的 WAV 格式音频（单人声、无背景噪声）
将音频复制到软件目录下的 f5-tts 文件夹
打开 菜单 -> TTS 设置 -> 设置参考音频，填写 文件名.wav#音频中的说话文本
在主界面配音角色下拉框中选择该文件名

注意：GPT-SoVITS 的参考音频需要放在 GPT-SoVITS 软件的根目录下，而非 f5-tts 文件夹。

第七部分：视频合成与输出问题

32. 执行过程中报错 `ffprobe exec error` 或 `ffmpeg` 相关异常

原因：文件路径过长或含有特殊符号
解决方案：
1. 将视频文件移动到更浅的目录（如 D:\videos）
2. 重命名为简短的英文或数字名称
3. 删除文件名中的特殊符号（?*、表情符号等）

33. 软件提示视频"不含音轨"

可能原因 1：视频确实没有声音（从某些网站下载时画面和声音分离）
可能原因 2：视频编码格式不支持（如 AV1）
可能原因 3：背景噪音过大，人声被掩盖
解决方案：
1. 用播放器本地播放确认是否有声音
2. 尝试先将视频转换为标准 H.264/MP4 格式
3. 开启降噪或人声分离功能

34. 如何输出无损视频？

当满足以下所有条件时，视频将无损输出（不重新编码）：

原始视频编码为 mp4/h.264/yuv420p
高级选项中 264/265编码 选择 264
未启用 视频慢速
未嵌入 硬字幕（软字幕不影响）

注意：若配音后时长大于视频原时长，超出部分会被截断。

35. 处理后出现声音、字幕、画面不同步

这是语言翻译中的正常现象。

原因：不同语言表达同一个意思时，句子的长度和音节数均不同，发音时长必然发生变化。
解决方案：
1. 启用 音频加速 和/或 视频慢速
2. 设置 配音语速（如 +10%）加快整体速度
3. 启用 二次识别 生成更精准的字幕时间轴
4. 详细原理请参考音频视频时间轴对齐原理说明

36. 总是提示显存不足 (例如 `Unable to allocate` 错误)

这个错误意味着您的显卡没有足够的显存或内存来执行当前任务。

解决方案（按推荐顺序尝试）：
1. 使用更小的模型：将识别模型从 large-v3 更换为 medium、small 或 base
2. 调整高级设置：
  - CUDA数据类型: 将 float32 改为 float16 或 int8
  - beam_size: 将 5 改为 1
  - best_of: 将 5 改为 1
  - 上下文: 将 true 改为 false

37. 已经安装了 CUDA，为什么软件还是无法使用 GPU 加速？

请检查以下可能的原因：

CUDA 版本不兼容：本软件要求 CUDA 12.8 及以上版本
显卡驱动过旧：请更新您的 NVIDIA 显卡驱动到最新版本
缺少 cuDNN：确保已安装 cuDNN 9.x 并配置了环境变量
硬件不兼容：GPU 加速仅支持 NVIDIA 显卡（N卡）。AMD 或 Intel 显卡无法使用 CUDA
环境变量未配置：检查系统环境变量中是否包含 CUDA 的 bin 和 lib 目录

38. GPU 使用率很低，正常吗？

正常。软件的工作流程是：语音识别 -> 文字翻译 -> 文本配音 -> 视频合成。

只有在第一步 "语音识别" 阶段，才会大量使用 GPU 进行运算。其他阶段（如翻译、合成）主要依赖 CPU，因此 GPU 在大部分时间处于低负载状态是符合预期的。

39. 处理几个视频后，发现硬盘空间被占满？

这通常是由于启用了"视频慢速"功能并产生了大量临时文件。

原因：该功能会将视频按字幕切割成许多小片段，并对每个片段进行处理，这会产生远超原视频体积的缓存文件。
解决方案：
1. 手动清理：处理完成后，手动删除软件根目录下的 tmp/ 文件夹内的所有内容
2. 自动清理：正常关闭软件时，程序会自动清理这些缓存

40. 反复处理同一个视频，为什么识别结果和字幕总是不变？

原因：软件默认启用了缓存机制，如果检测到某个视频已经生成过字幕文件，会直接使用缓存结果
解决方案：在软件主界面的左上角，勾选 清理已生成 复选框

第八部分：批量处理问题

41. 批量翻译视频时总是会卡住

默认批量任务时，会将每个任务分为多个阶段，同时交叉并行处理，太多任务时可能导致资源耗尽。

解决方案：选中 高级选项--批量翻译时强制串行，将执行方式改为串行处理

42. 批量处理时如何控制并发数量

在 高级选项 -> 通用设置 中：

CPU同时任务数：最大 CPU 同时任务数，不超过 CPU 核数
GPU同时任务数：GPU 任务同时执行数量，除非多卡或单卡显存 > 24G，否则设为 1
批量翻译视频时每批数量：设为 1 可逐个处理，设为 0 则全部同时处理

第九部分：高级选项详解

43. 音频加速和视频慢速的区别？

选项	效果	适用场景
音频加速	加速配音以匹配字幕时长，音质可能略有损失	配音比字幕长 1-2 倍
视频慢速	慢放视频以匹配配音时长，画面可能略卡	配音比字幕长 2 倍以上
两者同时	各负担一半时间差，效果最佳	配音远长于字幕

44. `发送完整字幕` 有什么作用？

选中后，AI 翻译时会附带行号和时间轴发给 AI，翻译质量更好但可能合并行。建议：

使用在线大模型（DeepSeek、GPT-4o）时选中
使用本地小模型时取消选中

45. `二次识别` 与 `LLM重新断句` 的区别？

选项	时机	作用
LLM重新断句	语音识别后	AI 修正错别字、重新切分长文本
二次识别	配音完成后	对配音音频再次识别，生成更精准的时间轴

使用 clone 角色时，不建议使用 LLM 重新断句。

46. 嵌入字幕类型如何选择？

类型	说明	适用场景
不嵌入字幕	只替换声音，不添加字幕	仅需配音
嵌入硬字幕	字幕永久烧录到画面，无法关闭	任何播放器都能显示
嵌入软字幕	字幕作为独立轨道，播放器可开关	需要灵活控制字幕显示
嵌入硬字幕(双)	中英双语硬字幕	需要双语对照
嵌入软字幕(双)	中英双语软字幕	需要双语对照且可关闭

第十部分：文件与路径问题

47. 输入文件路径有什么要求？

路径长度：Windows 命令行有 260 字符限制，文件路径应尽量简短
特殊符号：文件名中不应包含 ?*、表情符号等特殊符号
中文路径：虽然支持，但建议使用英文路径以避免兼容性问题
空格：路径中可以有空格，但建议避免

48. 输出文件保存在哪里？

默认位置：原视频目录下的 _video_out/ 文件夹
独立功能输出：批量转录、配音、翻译 SRT 等功能输出到 output/ 目录
自定义输出：可在主界面设置输出目录

49. 如何导入已有的 SRT 字幕？

在视频文件同级目录下创建 _video_out/ 文件夹
在其中创建视频同名子文件夹（如 myvideo-mp4，必须带格式后缀）
将字幕文件复制到子文件夹，重命名为 zh-cn.srt（源语言）和 en.srt（目标语言）
导入视频执行翻译，软件会自动跳过 ASR 和翻译阶段

第十一部分：CLI 命令行问题

50. CLI 基本用法

bash

uv run cli.py --task <任务类型> --name "<文件路径>" [其他参数]

任务类型：stt(语音转录)、tts(文字配音)、sts(字幕翻译)、vtv(视频翻译)

51. 如何查看可用的渠道和语言？

bash

uv run cli.py --list providers    # 查看所有渠道
uv run cli.py --list languages    # 查看所有语言代码
uv run cli.py --list models       # 查看 faster-whisper 模型

52. CLI 常见报错

--name is required：未指定输入文件
File not found：文件路径错误或文件不存在
--voice_role is required：TTS 模式下必须指定配音角色
--target_language_code is required：STS/VTV 模式下必须指定目标语言

第十二部分：综合信息

53. 软件是否支持 Docker 部署？

目前不支持。

54. 能否识别视频画面中的硬字幕（OCR 功能）？

不能。本软件的原理是分析视频中的音频轨道，识别出人类的语音并转换为文字。它不具备图像文字识别（OCR）功能。若有需要，可以点击查看另一个项目，提取视频中硬字幕

55. 我可以添加新的语言支持吗？

可以新增目标语言，具体查看

56. 软件是否收费？可以商用吗？

费用：本项目是一个免费且开源的软件，您可以免费使用所有功能。请注意，如果您使用第三方的翻译或TTS或语音转录接口，这些服务商可能会收取费用，但这与本软件无关。
商用：个人和公司均可自由使用本软件。但如果您希望将本项目的代码集成到您自己的商业产品中，则必须遵守 GPL-v3 开源协议。此外某些渠道使用的模型或在线API可能有他们自己的协议要求，是否允许商用，请咨询所使用的渠道对应的平台。

57. 是否提供人工客服？

没有。本项目为个人开发的免费开源软件，没有盈利，因此无法配备专门的人工客服团队。如果您遇到问题，请先仔细阅读本 FAQ。或你也可以选择软件右下角微信二维码打赏，留言你的微信号，获取有偿技术支持。

58. 从哪里下载软件和模型？

软件下载地址：pyvideotrans.com/downpackage
源码仓库地址：github.com/jianchang512/pyvideotrans

59. 报错与日志

日志位置：软件根目录下的 logs 文件夹有当前年月日命名的 log 格式日志文件
反馈方式：报错时点击弹窗的"报告错误"可自动提交至官方论坛；或复制日志底部 30 行内容询问 AI

60. 新版本为什么在发音语言列表中没有了"自动检测"？

在 "批量语音转字幕" 功能面板中可以选择"自动检测"，在"翻译视频或音频"功能中去掉了自动检测。因为视频翻译后续工作如字幕翻译、配音（涉及参考音频）等某些渠道需要明确指定原始语言，否则会报错。如果你仅仅想转录语音为字幕，可单独使用左侧面板中的"批量语音转字幕"功能。

快速问题排查表

问题	可能原因	解决方案
软件无法启动	杀毒软件拦截 / 路径问题	添加信任白名单 / 移至英文路径
缺少 python310.dll	只下载了补丁包	下载完整包再覆盖补丁
识别结果为空	语言选择错误 / 无有效人声	正确选择语言 / 开启降噪
显存不足	模型太大	换小模型 / 改 int8 / 降 beam_size
GPU 未启用	CUDA 未安装 / 驱动过旧	安装 CUDA 12.8+ / 更新驱动
翻译有空白行	AI 合并了字幕行	取消"发送完整字幕" / 用在线模型
Edge-TTS 403	微软限流	降并发 / 加暂停秒数
声音字幕不同步	语言时长差异	启用音频加速 / 视频慢速
ffprobe 报错	路径过长或特殊符号	简化文件名 / 移至浅层目录
硬盘空间占满	视频慢速产生大量临时文件	清理 tmp/ 文件夹
clone 配音差	参考音频时长不当	控制 3-10 秒 / 禁用 LLM 断句
GPT-SoVITS 404	API 版本不匹配	检查 api.py vs api_v2.py

常见错误与解决方法

pyVideoTrans 常见问题与解决方案

第一部分：安装与启动问题

1. 双击 sp.exe 后，软件无法打开或长时间没有反应？

2. 启动时提示缺少 python310.dll 文件怎么办？

3. 软件需要安装吗？

4. 为什么杀毒软件会报病毒或拦截？

5. 软件支持 Windows 7 系统吗？

6. macOS / Linux 如何部署源码？

7. 源码部署后启动报错怎么办？

第二部分：核心功能与设置

8. 如何提升语音识别的准确率？

9. 为什么处理后的视频清晰度/质量降低了？

10. 为什么输出视频超级大？

11. 如何配置网络代理？

12. 如何自定义字幕的字体、颜色和样式？

第三部分：语音识别问题

13. 识别结果为空或乱码

14. 识别速度非常慢

15. 提示显存或内存不足（Unable to allocate、CUDA out of memory）

16. 说话人识别不准确

17. LLM 重新断句后结果更差

18. 配音后字幕和声音不同步

19. 二次识别是什么？什么时候需要？

第四部分：翻译问题

20. 翻译结果有空白行或包含提示词

21. AI 翻译触发安全限制被过滤

22. 翻译结果与原文不对应（字幕行错位）

23. 翻译缓存导致结果异常

第五部分：配音问题

24. Edge-TTS 报错 403 或生成静音

25. F5-TTS / CosyVoice / GPT-SoVITS 无法连接

26. GPT-SoVITS 报错 {"detail":"Not Found"}

27. Index-TTS 报错 Value: 'Same as the voice reference' is not in the list

28. Azure-TTS 报错 Could not find module Microsoft.CognitiveServices.Speech.core.dll

29. 配音后声音有机械感或杂音

第六部分：声音克隆问题

30. 使用 clone 角色配音失败或音质差

31. 如何使用自定义参考音频？

第七部分：视频合成与输出问题

32. 执行过程中报错 ffprobe exec error 或 ffmpeg 相关异常

33. 软件提示视频"不含音轨"

34. 如何输出无损视频？

35. 处理后出现声音、字幕、画面不同步

36. 总是提示显存不足 (例如 Unable to allocate 错误)

37. 已经安装了 CUDA，为什么软件还是无法使用 GPU 加速？

38. GPU 使用率很低，正常吗？

39. 处理几个视频后，发现硬盘空间被占满？

40. 反复处理同一个视频，为什么识别结果和字幕总是不变？

第八部分：批量处理问题

41. 批量翻译视频时总是会卡住

42. 批量处理时如何控制并发数量

第九部分：高级选项详解

43. 音频加速和视频慢速的区别？

44. 发送完整字幕 有什么作用？

45. 二次识别 与 LLM重新断句 的区别？

46. 嵌入字幕类型如何选择？

第十部分：文件与路径问题

47. 输入文件路径有什么要求？

48. 输出文件保存在哪里？

49. 如何导入已有的 SRT 字幕？

第十一部分：CLI 命令行问题

50. CLI 基本用法

51. 如何查看可用的渠道和语言？

52. CLI 常见报错

第十二部分：综合信息

53. 软件是否支持 Docker 部署？

54. 能否识别视频画面中的硬字幕（OCR 功能）？

55. 我可以添加新的语言支持吗？

56. 软件是否收费？可以商用吗？

57. 是否提供人工客服？

58. 从哪里下载软件和模型？

59. 报错与日志

60. 新版本为什么在发音语言列表中没有了"自动检测"？

快速问题排查表

1. 双击 `sp.exe` 后，软件无法打开或长时间没有反应？

2. 启动时提示缺少 `python310.dll` 文件怎么办？

15. 提示显存或内存不足（`Unable to allocate`、`CUDA out of memory`）

26. GPT-SoVITS 报错 `{"detail":"Not Found"}`

27. Index-TTS 报错 `Value: 'Same as the voice reference' is not in the list`

28. Azure-TTS 报错 `Could not find module Microsoft.CognitiveServices.Speech.core.dll`

30. 使用 `clone` 角色配音失败或音质差

32. 执行过程中报错 `ffprobe exec error` 或 `ffmpeg` 相关异常

36. 总是提示显存不足 (例如 `Unable to allocate` 错误)

44. `发送完整字幕` 有什么作用？

45. `二次识别` 与 `LLM重新断句` 的区别？