docs/README_CN.md
Sponsors: Recall.ai - Meeting Transcription API
If you’re looking for a transcription API for meetings, consider checking out Recall.ai , an API that works with Zoom, Google Meet, Microsoft Teams, and more
一款强大的开源视频翻译 / 语音转录 / AI配音 / 字幕翻译工具
</div>pyVideoTrans 致力于无缝地将视频从一种语言转换为另一种语言,包含语音识别、字幕翻译、多角色配音及音画同步等全套流程。支持本地离线部署与多种主流在线 API。
我们为 Windows 10/11 用户提供了预打包的 .exe 版本,无需配置 Python 环境。
D:\pyVideoTrans).sp.exe 启动。注意:
- 请勿直接在压缩包内运行。
- 如需使用 GPU 加速,请确保安装 CUDA 12.8 和 cuDNN 9.11。
推荐使用 uv 进行包管理,速度更快且环境隔离更好。
brew install ffmpeg libsndfile gitsudo apt-get install ffmpeg libsndfile1-dev# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"
# 1. 克隆仓库 (请确保路径无空格/中文)
git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
# 2. 安装依赖 (使用 uv 自动同步环境)
uv sync
# 如果需要 qwen-tts qwen-asr 本地渠道,请执行 `uv sync --extra qwen-tts --extra qwen-asr`
启动 GUI 界面:
uv run sp.py
使用 CLI 命令行:
# 视频翻译示例
uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en
# 语音转字幕示例
uv run cli.py --task stt --name "./audio.wav" --model_name large-v3
# 卸载 CPU 版本
uv remove torch torchaudio
# 安装 CUDA 版本 (以 CUDA 12.x 为例)
uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128
uv add nvidia-cublas-cu12 nvidia-cudnn-cu12
| 类别 | 渠道/模型 | 说明 |
|---|---|---|
| 语音识别 (ASR) | Faster-Whisper (Local) | 推荐,速度快,精度高 |
| WhisperX / Parakeet | 支持时间轴对齐与说话人分离 | |
| 阿里 Qwen3-ASR / 字节火山 | 在线 API,中文效果极佳 | |
| 翻译 (LLM/MT) | DeepSeek / ChatGPT | 支持上下文理解,翻译更自然 |
| MiniMax AI | MiniMax M2.7 大模型,最新旗舰模型,OpenAI兼容接口 | |
| Google / Microsoft | 传统机器翻译,速度快 | |
| Ollama / M2M100 | 完全本地离线翻译 | |
| 语音合成 (TTS) | Edge-TTS | 微软免费接口,效果自然 |
| F5-TTS / CosyVoice | 支持 声音克隆,需本地部署 | |
| GPT-SoVITS / ChatTTS | 高质量开源 TTS | |
| 302.AI / OpenAI / Azure | 高质量商业 API |
本软件为开源免费非商业项目,使用者需自行承担因使用本软件(包括但不限于调用第三方 API、处理受版权保护的视频内容)所产生的一切法律后果。请遵守当地法律法规及相关服务商的使用协议。
本项目主要依赖以下开源项目(部分):
Created by jianchang512