首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2张显卡即可20FPS流式生成!SoulX-LiveAct开启“小时级”实时数字人交互新时代

2张显卡即可20FPS流式生成!SoulX-LiveAct开启“小时级”实时数字人交互新时代

作者头像
AI生成未来
发布2026-04-02 13:38:41
发布2026-04-02 13:38:41
1610
举报

作者:Dingcheng Zhen等

解读:AI生成未来

项目页:https://soul-ailab.github.io/soulx-liveact/ 代码仓库:https://github.com/Soul-AILab/SoulX-LiveAct Hugging Face:https://huggingface.co/Soul-AILab/LiveAct

亮点直击

  • 在数字人技术从“实验室点播”迈向“直播间实战”的过程中,行业始终被两大阴云笼罩:一是长时生成的崩溃,视频跑着跑着脸就“化”了;二是算力的黑洞,为了维持流畅度往往需要堆砌昂贵的算力集群。
  • 近日,Soul AI团队发布了最新开源模型 SoulX-LiveAct。该模型通过创新的 Neighbor Forcing 策略和 ConvKV Memory 机制,在仅需2张H100/H200显卡的情况下,实现了20 FPS的实时流式推理,且支持真正意义上的“无限时长”生成,彻底解决了长视频生成的显存爆炸与动作漂移问题。

总结速览

解决的问题

  1. 不一致的学习信号:现有的大多数强制策略在传播样本级表示时,扩散状态不匹配,导致学习信号不一致和收敛不稳定。
  2. 推理效率限制:历史表示无限制增长且缺乏结构,阻碍了缓存状态的有效重用,严重限制了推理效率,无法实现真正无限的视频生成。

提出的方案

  1. Neighbor Forcing
    • 提出了一种扩散步骤一致的自回归(AR)公式,将时间上相邻的帧作为潜在邻居在相同的噪声条件下进行传播。
    • 该设计提供了一个分布对齐且稳定的学习信号,同时在整个AR链中保留了漂移。
    • 通过利用在相同扩散步骤下评估的时间相邻帧的潜在局部平滑性,使得AR建模更加容易和稳定。
  2. ConvKV Memory
    • 引入了一种结构化的ConvKV记忆机制,将因果注意力中的键(keys)和值(values)压缩成固定长度的表示。
    • 这使得恒定内存推理和真正的无限视频生成成为可能,而无需依赖短期运动帧内存。
    • 利用轻量级一维卷积,在不引入额外架构复杂性的情况下,有效总结了长期上下文信息。

应用的技术

  • 自回归(AR)扩散模型:结合扩散建模与因果AR生成,支持流式推理和避免固定长度限制。
  • DiT (Diffusion Transformer):SoulX-LiveAct 采用 DiT 模型,并结合 Flow Matching 技术。
  • 音频交叉注意力:用于注入音频条件,实现唇部同步和情感表达。
  • 块级AR扩散策略:将序列划分为连续的块进行生成。
  • FP8精度、序列并行和操作融合:优化实时系统,提高硬件效率。
  • Emotion and Action Editing Module:辅助模块,用于控制面部表情和姿势。

达到的效果

  • 显著改进:与现有AR扩散方法相比,显著改善了训练收敛性、小时级生成质量和推理效率。
  • 实时性能:SoulX-LiveAct 能够实现小时级实时人物动画,在两块NVIDIA H100或H200 GPU上支持20 FPS的实时流式推理。
  • SOTA性能:在唇部同步准确性、人物动画质量和情感表达方面达到了最先进的性能,同时具有最低的推理成本。
  • 计算效率:每帧512x512分辨率的计算成本为27.2 TFLOPs,远低于之前的AR扩散方法(例如,Live-Avatar的39.1 TFLOPs/帧)。
  • 长视频一致性:在长视频生成中保持了稳定的身份表示和细粒度细节,解决了现有方法中常见的身份漂移和细节不一致问题。

挑战:实时数字人的“长跑”难题

目前的自回归(AR)扩散模型在视频生成上展现了巨大潜力,但在迈向“小时级”甚至“无限时”实时交互时,面临着两大瓶颈:

  • 训练不一致性:传统的Forcing策略在传播过程中存在扩散状态不匹配,导致信号不稳定,数字人容易在长时间生成后“崩坏”。
  • 显存黑洞:随着生成长度增加,KV Cache(键值缓存)呈线性增长,单卡显存难以支撑长达数小时的连续对话。

核心突破:Neighbor Forcing 与 ConvKV Memory

为了攻克上述难题,SoulX-LiveAct 提出了两项核心技术创新:

Neighbor Forcing:让每一帧都有“好邻居”

研究团队提出了一种扩散步一致(diffusion-step-consistent)的自回归公式。通过将时间相邻帧作为“潜在邻居”,并在相同的噪声条件下进行传播,确保了学习信号的分布对齐。这不仅提升了生成的稳定性,还让数字人的动作衔接更加平滑。

ConvKV Memory:告别显存焦虑

受限于长程注意力机制的开销,SoulX-LiveAct 引入了结构化的 ConvKV 存储机制。它将因果注意力中的键(Keys)和值(Values)压缩为固定长度的表示,使得推理时的显存占用保持恒定。无论生成的视频是1分钟还是1小时,显存消耗始终在掌控之中。

性能表现:不仅是快,更是极致的稳

在多项基准测试中,SoulX-LiveAct 展现出了统治级的表现:

  • 实时流式推理:在双卡(H100/H200)环境下达到 20 FPS,满足高频交互需求。
  • 极致一致性:支持小时级别的连续生成,身份特征(Identity)稳定,细节不“掉件”,不会出现常见的面部扭曲或着装突变。
  • 多模态驱动:支持图像、音频及文本指令驱动,能够生成表情生动、情绪可控且拥有丰富全身动作的数字人。

实验结果:刷新 SOTA 榜单

量化指标显示,SoulX-LiveAct 在唇形同步准确度(Lip-sync Accuracy)、人体动画质量以及情绪表达力上均达到了 SOTA 水平,且推理成本远低于同类模型。

原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑:如何重构生成范式?

如果说之前的技术是在“缝补”旧框架,SoulX-LiveAct 则是直接在扩散模型(Diffusion Models)的根基上动了手术。

Neighbor Forcing:从“自顾自”到“步调一致”

在自回归视频生成中,每一帧的生成都依赖于前一帧。传统的 Teacher Forcing 存在一个隐形杀手:扩散步偏移

技术痛点:通常模型在训练时,第 t 帧和第 t-1 帧往往处于不同的噪声水平。推理时,前一帧的微小噪声预测偏差会迅速放大。

SoulX-LiveAct 的解法:我们提出了邻域强迫策略。在训练阶段,强行让相邻帧处于相同的扩散时间步 s

数学直觉:通过这种设计,模型学习到的不再是单一帧的去噪,而是相邻帧之间的条件联合分布。这相当于给模型建立了一个“局部信任域”,确保了在推理无限长序列时,每一帧都在前一帧的“稳健预测范围”内,从而彻底杜绝了面部崩坏。

ConvKV Memory:从“无限增长”到“空间折叠”

Transformer 架构最令人头疼的就是其注意力机制的计算复杂度随长度增长。对于实时数字人,这无异于自杀。

传统做法:缓存所有历史帧的 Key 和 Value,显存随时间“爆炸”。

SoulX-LiveAct 的解法:我们引入了基于卷积的键值记忆网络(ConvKV)。它并不是粗暴地丢弃历史,而是进行空间与维度的重组

时域压缩:利用深度可分离卷积(Depthwise Conv)对旧的 KV 缓存进行下采样,将冗余的背景、静止像素信息压缩。

因果对齐:通过因果掩码(Causal Masking)确保压缩后的记忆只包含过去的语义,而不泄露未来信息。

工程意义:这种设计将注意力机制从 O()降低到了 O(1) 的常数级显存开销。无论对话进行了 10 秒还是 10 小时,模型始终只需处理固定大小的“记忆块”。

开源与未来

Soul AI 团队致力于推动数字人技术的普惠化。目前,SoulX-LiveAct 已全面开源,包括技术报告、代码及预训练模型。

参考文献

[1] SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结速览
    • 解决的问题
    • 提出的方案
    • 应用的技术
    • 达到的效果
  • 挑战:实时数字人的“长跑”难题
  • 核心突破:Neighbor Forcing 与 ConvKV Memory
    • Neighbor Forcing:让每一帧都有“好邻居”
    • ConvKV Memory:告别显存焦虑
  • 性能表现:不仅是快,更是极致的稳
  • 实验结果:刷新 SOTA 榜单
  • 原理详解 -- 深度解析SoulX-LiveAct 的底层逻辑:如何重构生成范式?
    • Neighbor Forcing:从“自顾自”到“步调一致”
    • ConvKV Memory:从“无限增长”到“空间折叠”
  • 开源与未来
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档