
当前文生视频领域正处于快速发展阶段(2022年Make-A-Video、Imagen Video发布,2023年ModelScope、AnimateDiff等相继推出),但行业在落地过程中面临三大核心瓶颈:
由王红法(混元视频生成技术负责人)主导研发的混元视频生成技术,基于扩散模型(当前图像/视频生成主流方法,通过逐步加高斯噪声再逆向去噪实现生成)搭建完整Pipeline:
该技术形成4+X能力矩阵:4大核心能力包括文生视频、图生视频、图文生视频、视频生视频,支持1k~4k分辨率视频生成;X种产品玩法覆盖视频风格化、跳舞视频、运动笔刷、区域重绘、画布扩展、艺术字生成、视频插帧等场景。
混元视频生成技术各场景核心能力指标如下:
人民日报在两会宣传片《江山如此多娇》制作中采用混元视频生成的长视频生成能力,完成宣传片相关内容制作,验证了技术在官方主流媒体宣传内容生产场景的可用性。
混元视频生成技术基于扩散模型构建,相比GAN、VAE等前代生成技术,扩散模型通过逐步加噪再逆向去噪的逻辑,在复杂数据(文本、图像、视频)分布学习上表现更优;同时技术体系支持后续持续迭代:时空扩散模型可进一步优化动作建模效率,超分模型可适配更高分辨率需求,语义编码器可持续补充中文及中国元素语料,覆盖更多垂直场景的视频生成需求。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。