17.6K Star！这款开源视频翻译神器火了！一键实现语音识别+翻译+配音+声音克隆！

开源星探

发布于 2026-05-29 10:59:03

900

文章被收录于专栏：翩翩白衣少年翩翩白衣少年

最近刷B站、油管时，经常会遇到一些精彩的外文视频，但是听不懂怎么办？

虽然很多平台有自动翻译字幕，但要么翻译质量一般，要么没有配音，看着还是费劲。如果能把外文视频一键翻译成中文，还能配上自然的中文语音，那就太完美了。

前几天在 GitHub 上闲逛，发现了一个开源项目——pyVideoTrans，体验了一下，感觉还不错。

这个工具把语音识别、字幕翻译、AI 配音、音视频合成串成了一条自动化流水线，上传视频就能一键输出另一种语言的版本，效果还相当不错。

pyVideoTrans 是什么？

pyVideoTrans 是一款功能强大的开源视频翻译、语音转录、AI 配音、字幕翻译工具，由开发者 jianchang512 维护。

它的核心目标就是将视频从一种语言无缝转换为包含另一种语言配音和字幕的视频。

这个项目在 GitHub 上已经有 17.6K Star 了，属于热门项目了！

核心亮点

1、全自动视频翻译流水线

pyVideoTrans 最吸引人的地方就是它的全自动化流程。一个视频放进去，它会依次完成四个阶段的处理：

• 语音识别（ASR）：识别视频中的语音，生成带时间轴的字幕
• 字幕翻译：将源语言字幕翻译成目标语言
• 语音合成（TTS）：根据翻译后的字幕生成配音
• 视频合成：将新的音频、字幕与原视频合并对齐

整个过程一键完成，不需要你一步步手动操作。

2、声音克隆，让配音听不出换人

这是一个非常惊艳的功能！pyVideoTrans 集成了 F5-TTS、CosyVoice、GPT-SoVITS 等声音克隆模型，支持零样本语音克隆。

也就是说，你只需要提供一小段原说话人的声音，它就能用相同的音色生成目标语言的配音，听起来就像原说话人自己在说另一种语言一样。

这个功能对于处理访谈、讲座等视频特别有用，能保持视频的连贯性和代入感。

3、多说话人识别，对话视频轻松处理

对于有多个人说话的视频，pyVideoTrans 支持说话人识别（Speaker Diarization），能够自动区分不同的说话人。

你可以给不同的说话人分配不同的 AI 配音角色，处理对话类视频时特别实用，不会出现所有人都用同一种声音的尴尬情况。

4、每个阶段都能暂停手动校对

虽然是自动化流程，但 pyVideoTrans 给了你充分的控制权。

在语音识别、字幕翻译、配音的每个阶段，你都可以暂停下来，手动校对和修改，确保最终效果完全符合你的要求。识别不准的地方可以改，翻译不对的地方可以调，不满意的配音可以换。

5、丰富的模型和 API 支持

pyVideoTrans 支持市面上主流的各种模型和 API，你可以根据自己的需求和预算选择：

语音识别（ASR）：

• 本地模型：Faster-Whisper、Qwen-ASR
• 在线 API：OpenAI Whisper、阿里 Qwen、字节跳动火山、Azure、Google 等

字幕翻译：

• AI 翻译：DeepSeek、ChatGPT、Claude、Gemini、MiniMax、Ollama（本地）、阿里百炼等
• 传统翻译：Google、Microsoft 等

语音合成（TTS）：

• 免费：Edge-TTS
• 本地模型：F5-TTS、CosyVoice、GPT-SoVITS、ChatTTS 等
• 在线 API：OpenAI、Azure、Minimaxi、302.AI 等

6、开箱即用的 Windows 安装包

对于 Windows 用户来说，pyVideoTrans 提供了预打包的 .exe 版本，不需要配置 Python 环境，下载解压就能用，非常友好。

其他实用功能

除了核心的视频翻译功能，pyVideoTrans 还集成了很多实用的工具：

• 音频转录/字幕生成：可以批量将音频或视频转换为 SRT 字幕文件，支持说话人识别。
• SRT 字幕翻译：支持批量翻译 SRT 字幕文件，保留原有时间码和格式，提供多种双语字幕样式。
• 文稿对齐与打轴：根据音视频及已有的文字稿，将文字稿转为时间轴精准的 SRT 字幕。
• 实时语音转文字：支持实时监听麦克风，并将说话声转为文字。
• 人声分离：可以分离视频中的人声和背景音乐。
• 命令行支持：提供 CLI 接口，支持无头运行，方便服务器部署或批量处理。

快速上手

Windows 用户（推荐）

Windows 用户使用预打包版本最简单：

1. 下载：访问 GitHub Releases 页面[1]，下载最新的 win-pyvideotrans-v4.00 版本
2. 解压：将压缩文件解压到一个路径，比如 D:\pyVideoTrans（注意：路径不要包含中文、空格或特殊符号，也不要放在 C:\Program Files 等系统文件夹）
3. 运行：双击文件夹内的 sp.exe 启动软件

首次启动可能需要几十秒甚至 2-3 分钟，请耐心等待。

源码部署（macOS / Linux / Windows 开发者）

如果你是开发者，或者使用 macOS/Linux，可以通过源码部署：

1. 环境要求：

• Python 3.10-3.12
• FFmpeg

2. 安装 uv（推荐的包管理工具）：

# macOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

3. 克隆项目并安装依赖：

git clone https://github.com/jianchang512/pyvideotrans.git
cd pyvideotrans
uv sync

4. 启动软件：

# 启动 GUI 界面
uv run sp.py

# 或者使用 CLI
uv run cli.py --help

5. （可选）GPU 加速配置： 如果你有 NVIDIA 显卡，可以安装 CUDA 版本的 PyTorch 加速处理：

uv remove torch torchaudio
uv add torch==2.7 torchaudio==2.7 --index-url https://download.pytorch.org/whl/cu128
uv add nvidia-cublas-cu12 nvidia-cudnn-cu12

命令行使用示例

如果你需要批量处理，可以使用 CLI：

视频翻译：

uv run cli.py --task vtv --name "./video.mp4" --source_language_code zh --target_language_code en

音频转字幕：

uv run cli.py --task stt --name "./audio.wav" --model_name large-v3

字幕翻译：

uv run cli.py --task sts --name "./subtitle.srt" --target_language_code en

文字配音：

uv run cli.py --task tts --name "./subtitle.srt" --voice_role "zh-CN-YunyangNeural" --target_language_code zh-cn

写在最后

pyVideoTrans 是一款功能全面、实用且开源的视频翻译工具，它把复杂的视频翻译流程简化成了一键操作，还支持声音克隆、多说话人识别等高级功能。对于经常需要处理外文视频的朋友来说，这个工具绝对值得一试。

项目的文档也非常完善，官方网站提供了详细的教程和 FAQ，还有在线问答社区，遇到问题可以随时求助。

如果你对这个项目感兴趣，不妨去 GitHub 上给它点个 Star，支持一下开发者。

GitHub： https://github.com/jianchang512/pyvideotrans

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️

在看你就赞赞我！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-28，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自开源星探微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度