京东开源 JoyAI-Echo：5 分钟长视频角色不崩，对话式编辑彻底告别视频开盲盒！

开源星探

发布于 2026-06-09 13:15:20

480

前几天，京东突然在 AI 视频赛道扔下一颗重磅炸弹—— JoyAI-Echo 正式开源了。

这个消息让整个行业都为之一振，因为它直接击中了 AI 长视频生成的三大核心痛点：角色容易“变脸”、声音忽高忽低、生成速度慢得离谱。

就在几个月前，我们还在为能生成几十秒稳定的短视频而兴奋。但只要把时长拉到分钟级，问题就开始暴露：同一个角色，上一个镜头和下一个镜头脸容易变形；说话人的音色不一致；更别说等半天才能看到结果，改个细节还要从头再来。

而 JoyAI-Echo 的出现，彻底打破了这个僵局。它不仅能生成最长 5 分钟的连续故事视频，角色身份、视觉形象和声音音色在整个过程中都能保持高度一致；更让人惊喜的是，它还支持用自然语言进行局部修改，不用重跑整条视频。

今天，我们就来深入了解这个来自京东 Joy Future Academy 的硬核项目。

JoyAI-Echo 是京东 Joy Future Academy 发布的长音视频生成框架，专为分钟级多镜头故事生成设计。

这个项目的核心目标很明确：让 AI 长视频生成从“开盲盒”变成“所想即所得”。

为了实现这个目标，团队提出了四项关键技术创新，逐一击破了行业长期头疼的难题。

目前，JoyAI-Echo 已在 GitHub 和 Hugging Face 全面开放，开发者和创作者可以免费体验和二次开发。项目还提供了 ComfyUI 节点集成，让非技术用户也能轻松上手。

JoyAI-Echo 最让人震撼的能力，就是能生成长达 5 分钟的连续故事视频，而且在整个过程中，角色身份、视觉形象和声音音色都能保持高度一致。

这背后的秘密武器，就是它的跨模态音视频记忆库。

框架内置了一个专门的记忆机制，通过 Slot-Paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中，记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。

传统的长视频生成往往需要漫长的等待，几分钟甚至半小时才能出结果。

而 JoyAI-Echo 通过记忆驱动后训练与 Distribution Matching Distillation（DMD）技术，实现了约 7.5 倍的推理加速。

研发团队创新提出了一套记忆驱动的后训练流程，结合监督微调（SFT）、跨模态 RLHF 及 DMD 技术。

其中 DMD 将原本的多步扩散推理压缩为少步推理，在保持生成质量的同时大幅提升速度，让长视频生成从研究实验逐步走向可实际应用阶段。

JoyAI-Echo 不再是“输入提示词，一次性出结果”的传统工具。

它引入了智能“导演助理”—— Director Agent，让长视频第一次实现“对话式编辑”。

你用自然语言说需求，它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意，直接用对话的方式告诉它修改，它只重新生成有问题的局部镜头，不用重跑整条视频。

为了满足专业内容生产的需求，JoyAI-Echo 还配套了专门的实时超分模块，支持两档分辨率提升：736×1280 → 1152×1920，736×1280 → 1472×2560。

模块通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟的约束下，也能保持稳定的高清表现，让生成的视频能够直接用于专业内容生产。

git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo

参考环境是 Python 3.11 + PyTorch 2.8 + CUDA 12.8。

使用 conda：

conda env create -f environment.yml
conda activate echo-long

或使用 uv：

uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt

注意：ffmpeg 必须在 PATH 中可用（用于镜头拼接）。conda 配方已包含它。如果你使用 uv，请用系统包管理器安装：

# Ubuntu/Debian
sudo apt install ffmpeg

# macOS
brew install ffmpeg

下载 JoyAI-Echo 发布检查点和 Gemma 文本编码器：

文件	描述	大小	链接
echo-longvideo-release.safetensors	完整模型（transformer + VAE + vocoder）	~46 GB	JoyAI-Echo[1]
gemma-3-12b/	指令微调模型（文本编码器）	~24 GB	gemma-3-12b-it[2]

将它们放在 checkpoints/ 目录下：

checkpoints/
+-- echo-longvideo-release.safetensors
`-- gemma-3-12b/

强烈建议先增强提示词！ 项目提供了提示词增强器——系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词：

在 prompts/ 下创建一个 JSON 文件。每个文件是一个单个对象，包含 prompts 列表，其中每个字符串是一个完整镜头。单个字符串产生一个镜头；多个字符串产生多镜头故事，每个新镜头通过配对音视频记忆库以之前的镜头为条件。

在每个字符串中，按顺序编写这些部分：

部分	描述内容
角色与主体	描述所有可见人物的外观，包括年龄、体型、发型、面部、服装，以及适用时的说话音色。
动作与对话	主体做什么和说什么。
风格	整体视觉和情感美学——例如，现实赛车电影语言、凉爽日光、克制的电影张力。
镜头运动	镜头类型和构图或运动——例如，面部稳定特写，或腰部以上的中景。
背景	主体背后的设置和场景细节。
音效与 BGM	场景中的声音和背景音乐——例如，房间音调、风、脚步声和织物，对话下有柔和的低音音乐床或无背景音乐