
前几天,京东突然在 AI 视频赛道扔下一颗重磅炸弹—— JoyAI-Echo 正式开源了。

这个消息让整个行业都为之一振,因为它直接击中了 AI 长视频生成的三大核心痛点:角色容易“变脸”、声音忽高忽低、生成速度慢得离谱。
就在几个月前,我们还在为能生成几十秒稳定的短视频而兴奋。但只要把时长拉到分钟级,问题就开始暴露:同一个角色,上一个镜头和下一个镜头脸容易变形;说话人的音色不一致;更别说等半天才能看到结果,改个细节还要从头再来。
而 JoyAI-Echo 的出现,彻底打破了这个僵局。它不仅能生成最长 5 分钟的连续故事视频,角色身份、视觉形象和声音音色在整个过程中都能保持高度一致;更让人惊喜的是,它还支持用自然语言进行局部修改,不用重跑整条视频。
今天,我们就来深入了解这个来自京东 Joy Future Academy 的硬核项目。
JoyAI-Echo 是京东 Joy Future Academy 发布的长音视频生成框架,专为分钟级多镜头故事生成设计。
这个项目的核心目标很明确:让 AI 长视频生成从“开盲盒”变成“所想即所得”。
为了实现这个目标,团队提出了四项关键技术创新,逐一击破了行业长期头疼的难题。
目前,JoyAI-Echo 已在 GitHub 和 Hugging Face 全面开放,开发者和创作者可以免费体验和二次开发。项目还提供了 ComfyUI 节点集成,让非技术用户也能轻松上手。
JoyAI-Echo 最让人震撼的能力,就是能生成长达 5 分钟的连续故事视频,而且在整个过程中,角色身份、视觉形象和声音音色都能保持高度一致。
这背后的秘密武器,就是它的跨模态音视频记忆库。
框架内置了一个专门的记忆机制,通过 Slot-Paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系。
传统的长视频生成往往需要漫长的等待,几分钟甚至半小时才能出结果。
而 JoyAI-Echo 通过记忆驱动后训练与 Distribution Matching Distillation(DMD)技术,实现了约 7.5 倍的推理加速。
研发团队创新提出了一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 DMD 技术。
其中 DMD 将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时大幅提升速度,让长视频生成从研究实验逐步走向可实际应用阶段。
JoyAI-Echo 不再是“输入提示词,一次性出结果”的传统工具。
它引入了智能“导演助理”—— Director Agent,让长视频第一次实现“对话式编辑”。
你用自然语言说需求,它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意,直接用对话的方式告诉它修改,它只重新生成有问题的局部镜头,不用重跑整条视频。
为了满足专业内容生产的需求,JoyAI-Echo 还配套了专门的实时超分模块,支持两档分辨率提升:736×1280 → 1152×1920,736×1280 → 1472×2560。
模块通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现,让生成的视频能够直接用于专业内容生产。
git clone https://github.com/jd-opensource/JoyAI-Echo.git
cd JoyAI-Echo参考环境是 Python 3.11 + PyTorch 2.8 + CUDA 12.8。
使用 conda:
conda env create -f environment.yml
conda activate echo-long或使用 uv:
uv venv --python 3.11 .venv
source .venv/bin/activate
uv pip install --extra-index-url https://download.pytorch.org/whl/cu128 -r requirements.txt注意:ffmpeg 必须在 PATH 中可用(用于镜头拼接)。conda 配方已包含它。如果你使用 uv,请用系统包管理器安装:
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg下载 JoyAI-Echo 发布检查点和 Gemma 文本编码器:
文件 | 描述 | 大小 | 链接 |
|---|---|---|---|
echo-longvideo-release.safetensors | 完整模型(transformer + VAE + vocoder) | ~46 GB | JoyAI-Echo[1] |
gemma-3-12b/ | 指令微调模型(文本编码器) | ~24 GB | gemma-3-12b-it[2] |
将它们放在 checkpoints/ 目录下:
checkpoints/
+-- echo-longvideo-release.safetensors
`-- gemma-3-12b/强烈建议先增强提示词! 项目提供了提示词增强器——系统提示词可以将简短的故事或想法扩展为结构良好的镜头提示词:
prompts/long_story_writer_system_prompt.md:用于长、多镜头视频prompts/short_story_writer_system_prompt.md:用于单镜头短视频在 prompts/ 下创建一个 JSON 文件。每个文件是一个单个对象,包含 prompts 列表,其中每个字符串是一个完整镜头。单个字符串产生一个镜头;多个字符串产生多镜头故事,每个新镜头通过配对音视频记忆库以之前的镜头为条件。
在每个字符串中,按顺序编写这些部分:
部分 | 描述内容 |
|---|---|
角色与主体 | 描述所有可见人物的外观,包括年龄、体型、发型、面部、服装,以及适用时的说话音色。 |
动作与对话 | 主体做什么和说什么。 |
风格 | 整体视觉和情感美学——例如,现实赛车电影语言、凉爽日光、克制的电影张力。 |
镜头运动 | 镜头类型和构图或运动——例如,面部稳定特写,或腰部以上的中景。 |
背景 | 主体背后的设置和场景细节。 |
音效与 BGM | 场景中的声音和背景音乐——例如,房间音调、风、脚步声和织物,对话下有柔和的低音音乐床或无背景音乐 |
python inference.py这会加载模型一次,并处理 prompts/ 下的所有提示文件。
注意:推理管道针对低 VRAM GPU 进行了优化。默认设置(25 fps × 241 帧 × 1280 × 736)下,峰值 GPU 使用量约为 46–50 GB,代价是每镜头推理时间稍长。
JoyAI-Echo 的推出,标志着京东在长视频生成领域实现重大突破。它用四项实打实的技术创新,彻底打破了长视频生成的“三角问题”:
你可以像聊天一样,持续创作、修改和完善长视频内容,让高一致性、高画质、可交互的视频生成,真正走进每一个内容创作者的工作流程。
目前,JoyAI-Echo 的代码和权重已全部开源,如果你对长视频生成感兴趣,不妨去 GitHub 体验一下。
GitHub:https://github.com/jd-opensource/JoyAI-Echo