搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
谢赛宁REPA得到大幅改进，只需不到4行代码
而对于 REPA，也有一个类似的问题：全局信息与空间结构，哪个对表征对齐更重要？表征对齐（REPA）可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征，来指导生成式训练。更令人惊讶的是，基于此发现，他们还构建了一种简单方法（代码实现少于 4 行），即 iREPA，其能在各种视觉编码器、模型大小和训练变体（如 REPA、REPA-E、Meanflow、JiT 等）中持续提高 REPA 的收敛速度。然而，当它被用作 REPA 的目标表征时，其生成的图像质量（FID 分数）竟然优于那些准确率比它高出 60% 的模型（如 PE-Core-G）。如下图所示，在横跨所有测试的编码器中，iREPA（红色柱状图）的生成 FID 分数均低于标准 REPA（蓝色柱状图）。
23510编辑于 2025-12-18
来自专栏机器之心
统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍
为了弥合这一差距，REPA 提出通过对齐扩散模型与预训练的视觉模型（如 DINOv2）的表征，可以让扩散模型更高效地学习判别特征，从而提高训练效率和生成质量。然而，REPA 存在几个主要问题： 1. 高昂的计算成本：REPA 依赖于 DINOv2 这样的大规模预训练视觉模型，其预训练需要超过 22,000 GPU 小时（A100），计算资源需求极高。 2. 工作机制（对比 REPA）为了更深入地理解 USP，研究者在 DiT-XL/2 训练过程中，对不同层的线性探测性能进行了分析（见图 4）。方法后的线性探测性能主要发现：与 REPA 不同，USP 不依赖额外的对齐损失，而是通过精心设计的初始化策略，让模型自动找到最适合线性分类的层。 REPA 通过人为设计的表征对齐方式来增强判别能力，但这种方法可能会限制生成模型的潜力。这些实验表明，USP 的初始化策略比基于表征对齐的方法更高效，并且更适用于同时提升分类和生成任务的统一框架。
47210编辑于 2025-03-17
何恺明团队新突破：给扩散模型加正则化，零成本整理内部特征，效果立竿见影
媲美重量级 REPA，成本极低与需要依赖外部强大预训练模型（如 DINOv2）的表征对齐方法 REPA 相比：REPA：FID 1.80 (SiT-XL/2 + CFG + SDE)Dispersive Loss：FID 1.97 (同设置)虽然 REPA 的绝对指标略优，但 Dispersive Loss 是完全自包含的：无需外部预训练模型 (REPA 依赖 11 亿参数、在 1.42 亿图像上预训练的
43810编辑于 2025-06-16
来自专栏机器之心
DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学
我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT，但这需要基于假设、做实验、进行验证，而不是只在脑子里扮演式地做科学…… 否则，你得出的结论不仅仅是错的，而是根本连错都谈不上。过去一年最大的改进点在于内部表示学习：最早是 REPA，但现在有很多方法（例如 tokenizer 层面的修正：VA-VAE / REPA-E，把语义 token 拼接进噪声潜变量、解耦式架构如 DDT 像 VA-VAE 和 REPA-E 只是部分修复，更多进展还在路上。
26310编辑于 2025-08-24
来自专栏全栈程序员必看
OGG安装配置_ogg是什么格式的文件
(2) 添加复制进程： GGSCI(localhost.localdomain 23)>add replicat repa, exttrail . /dirdat/ra，checkpointtable ogg.checkpoint; (3) 投递进程参数配置：编辑repa进程对应的repa.prm参数文件(– 后为注释)： GGSCI(localhost.localdomain 24)>edit param repa;//会在dirrpm文件下自动生成配置文件 REPLICAT repa SETENV (ORACLE_SID="orcl") SETENV (NLS_LANG=AMERICAN_AMERICA.AL32UTF8) --与数据库字符集一致 GGSCI(localhost.localdomain 25)>start mgr; GGSCI(localhost.localdomain 27)>start repa
2.6K30编辑于 2022-11-17
碾压SOTA！腾讯HunyuanVideo-Foley开源：让视频自动生成电影级音效，沉浸感拉满！
REPA训练策略在HunyuanVideo-Foley框架中，引入了REPA损失，该损失涉及将扩散模型中Transformer块中间层的隐藏状态与来自预训练ATST-Frame编码器的帧级音频表示进行对齐公式(6)显示了REPA损失的计算：通过最大化预训练表示与DiT层内部表示之间的余弦相似度，REPA损失能够在音频生成建模过程中提供更有效的语义和声学指导，从而增强语义对齐性和生成音频的质量。所有配置保持相同的实验设置，排除REPA并采用单模态DiT。此外，研究了在不同阶段和层应用REPA的效果。下表7中的结果显示，当在单模态DiT中应用REPA时可获得最佳性能，其他观察表明当应用于单模态块的较浅层时效果更好。讨论平衡的视觉与文本语义。通过REPA策略和数据集扩展增强音频保真度。HunyuanVideo-Foley通过引入REPA训练策略显著提高了基于扩散的生成质量。该方法有效地将DiT的隐藏表示与稳健的自监督特征对齐。
76210编辑于 2025-09-04
来自专栏憧憬博客分享
Elasticsearch基础知识补齐
所谓均衡分配，以情况举例：priX代表主分片，repX代表副本分片索引有1个priA,1个repA，但当前只有一个节点A，那么priA分配到A节点；repA没有分配。优先分配主分片。索引有1个priA,1个repA，当前有两个节点A和B，那么priA分配到A节点；repA分配到B节点（priA分配到B节点也有可能）。索引当前有2个priA,4个repA，有3个节点，那么现在每台节点上有两个分片（但要考虑主分片不能与自己的副本分片同在一个节点上，在下面的主副分片的排斥中由一个例子）。对应的排斥情况就是：索引有1个priA,1个repA，但当前只有一个节点A，那么priA分配到A节点；repA没有分配。索引有1个priA,1个repA，当前有两个节点A和B，那么priA分配到A节点；repA分配到B节点（priA分配到B节点也有可能）。
98111发布于 2020-09-22
来自专栏作图丫
SubCellBarCode方法--识别蛋白的亚定位！
all.prot.pred all.B <- cls[[2]]$all.prot.pred #估计隔间级别的分类阈值 t.c.df <- computeThresholdCompartment(test.repA = test.A, test.repB = test.B) #将阈值应用于隔间级别分类 c.cls.df <- applyThresholdCompartment(all.repA = all.A, threshold.df = t.c.df) #估计邻域级别的分类阈值 t.n.df <- computeThresholdNeighborhood(test.repA = test.A, test.repB = test.B) #将阈值应用于邻域级别分类 n.cls.df <- applyThresholdNeighborhood(all.repA = all.A,
83310编辑于 2022-03-29
来自专栏智能生信
【Nucleic Acids Research】四篇好文简读-专题3
NgAgo与其他具有催化活性的pAgos共享规范结构域，但也包含一个以前未被识别的单链DNA结合结构域(repA)。repA和典型PIWI结构域都参与NgAgo的DNA裂解活动。
62620发布于 2021-10-08
来自专栏小麦苗的DB宝专栏
使用OGG 21.3远程实时互相同步Oracle 11.2.0.4（双主）
.*; 创建replicate进程 ADD REPLICAT repa INTEGRATED EXTTRAIL . /dirdat/eb edit params repa REPLICAT repa USERIDALIAS ora11ga DDL INCLUDE MAPPED DDLOPTIONS REPORT 00:00:03 EXTRACT RUNNING EXTB 00:00:02 00:00:02 REPLICAT RUNNING REPA
2.5K30编辑于 2022-11-07
来自专栏机器之心
人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展
为了能够给社区带来更多的可信的实践经验，我们在 4个超参（学习率，梯度裁剪值，REPA loss的权重以及warmup的步数）上进行了多达80次的随机搜索，总搜索计算量（FLOPs）约是人工手调的3%。在0.18B模型上的超参搜索结果表明，我们学习率，梯度裁剪值，REPA loss都对结果有影响，其中学习率的影响仍是最为关键的。而warmup的步数则对结果影响不大。
30600编辑于 2025-06-28
来自专栏阿dai_linux
shell跳板机（较复杂）转
验证账号登录 while : do printf ''' 请输入登陆跳板机验证标识:''' named name=`cat ~/nameserver.p` repa =`cat /opt/username.p` if [ "$name" == "$repa" ];then echo ''' 认证标识正确,欢迎登陆跳板机......
1.1K20发布于 2019-04-03
原生多模态统一架构比不过单模态专家模型？华为团队出品的EMMA “Say No”
token 和生成token 直接通道拼接而不是token 数拼接，这样在做信息融合的时候避免token爆炸，有利于多模交互场景; 采用共享及解耦网络机制；在原生多模知识共享（这点大家可以参考对照生成需要REPA
49010编辑于 2025-12-21
来自专栏小麦苗的DB宝专栏
【DB宝84】使用OGG for MSSQL微服务快速双向同步RDS数据库（双主）
.*; 创建replicate进程 image-20211227180119727 参数： REPLICAT repa TARGETDB mssql2019b USERIDALIAS MSSQLB
3.1K10编辑于 2022-02-23
来自专栏腾讯开源的专栏
混元开源又+1：视频音效可以自动生成了
亮点三：专业级音频保真度研究团队引入表征对齐（REPA）损失函数，利用预训练音频特征为建模过程提供语义与声学指导，显著提升了音频生成质量和稳定性。
77710编辑于 2025-09-02
来自专栏小麦苗的DB宝专栏
使用OGG for SQL Server微服务快速双向同步SQL Server数据库（双主）
.*; 创建replicate进程 image-20211227180119727 参数： REPLICAT repa TARGETDB mssql2019b USERIDALIAS MSSQLB
3.9K40编辑于 2023-04-26
端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等
结合基线中的标准像素级流匹配损失与REPA对齐损失，最终目标函数可表示为：像素解码器如上图3所示，像素解码器是一个轻量级无注意力网络，由个线性解码块和若干线性投影层构成。本文对比了需要VAE的两阶段DiT-L/2，以及PixelFlow、PixNerd等近期像素扩散模型，同时将DDT适配为像素扩散基线PixDDT，并集成JiT到本文的基线中（结合REPA）以进行公平对比
33210编辑于 2025-11-29
来自专栏AI软件
高质量AI歌曲生成器ACE-Step一键启动整合包，AI自动谱曲自动演唱
它进一步利用 MERT 和 m-hubert 在训练过程中对齐语义表征 (REPA)，从而实现快速收敛。
2.1K00编辑于 2025-05-27
视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR
匹配最先进扩散模型的性能，同时参数量更少：结合高级分词器 AliTok，reAR 以仅 177M 参数实现了 1.42 的 gFID，这与需要 675M 参数的更大规模、最先进的扩散模型 REPA 的性能相匹配值得注意的是，它接近基于扩散的 REPA并优于 Maskbit，同时使用更少的参数（177M vs. 675M/305M），具体数据如表 2 所示。缩放效应。
15310编辑于 2026-04-02
来自专栏腾讯开源的专栏
腾讯混元生图2.1开源！可写字、更高清、更一致、更可玩！
为大幅降低计算量、提升训练和推理效率，模型采用了32倍超高压缩倍率的VAE, 并使用dinov2对齐和repa loss来降低训练难度。因此，模型能高效原生生成2K图。
1.1K10编辑于 2025-09-11

第 2 页

谢赛宁REPA得到大幅改进，只需不到4行代码

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

何恺明团队新突破：给扩散模型加正则化，零成本整理内部特征，效果立竿见影

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

OGG安装配置_ogg是什么格式的文件

碾压SOTA！腾讯HunyuanVideo-Foley开源：让视频自动生成电影级音效，沉浸感拉满！

Elasticsearch基础知识补齐

SubCellBarCode方法--识别蛋白的亚定位！

【Nucleic Acids Research】四篇好文简读-专题3

使用OGG 21.3远程实时互相同步Oracle 11.2.0.4（双主）

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

shell跳板机（较复杂）转

原生多模态统一架构比不过单模态专家模型？华为团队出品的EMMA “Say No”

【DB宝84】使用OGG for MSSQL微服务快速双向同步RDS数据库（双主）

混元开源又+1：视频音效可以自动生成了

使用OGG for SQL Server微服务快速双向同步SQL Server数据库（双主）

端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等

高质量AI歌曲生成器ACE-Step一键启动整合包，AI自动谱曲自动演唱

视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

腾讯混元生图2.1开源！可写字、更高清、更一致、更可玩！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

谢赛宁REPA得到大幅改进，只需不到4行代码

统一自监督预训练！视觉模型权重无缝迁移下游任务，SiT收敛提速近47倍

何恺明团队新突破：给扩散模型加正则化，零成本整理内部特征，效果立竿见影

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

OGG安装配置_ogg是什么格式的文件

碾压SOTA！腾讯HunyuanVideo-Foley开源：让视频自动生成电影级音效，沉浸感拉满！

Elasticsearch基础知识补齐

SubCellBarCode方法--识别蛋白的亚定位！

【Nucleic Acids Research】四篇好文简读-专题3

使用OGG 21.3远程实时互相同步Oracle 11.2.0.4（双主）

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

shell跳板机（较复杂） 转

原生多模态统一架构比不过单模态专家模型？华为团队出品的EMMA “Say No”

【DB宝84】使用OGG for MSSQL微服务快速双向同步RDS数据库（双主）

混元开源又+1：视频音效可以自动生成了

使用OGG for SQL Server微服务快速双向同步SQL Server数据库（双主）

端到端像素扩散天降外挂！北大&华为等开源DeCo：生图质量超越SD3、OmniGen2等

高质量AI歌曲生成器ACE-Step一键启动整合包，AI自动谱曲自动演唱

视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

腾讯混元生图2.1开源！可写字、更高清、更一致、更可玩！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

shell跳板机（较复杂）转