首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    谢赛宁REPA得到大幅改进,只需不到4行代码

    而对于 REPA,也有一个类似的问题:全局信息与空间结构,哪个对表征对齐更重要? 表征对齐(REPA)可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征,来指导生成式训练。 更令人惊讶的是,基于此发现,他们还构建了一种简单方法(代码实现少于 4 行),即 iREPA,其能在各种视觉编码器、模型大小和训练变体(如 REPAREPA-E、Meanflow、JiT 等)中持续提高 REPA 的收敛速度。 然而,当它被用作 REPA 的目标表征时,其生成的图像质量(FID 分数)竟然优于那些准确率比它高出 60% 的模型(如 PE-Core-G)。 如下图所示,在横跨所有测试的编码器中,iREPA(红色柱状图)的生成 FID 分数均低于标准 REPA(蓝色柱状图)。

    23510编辑于 2025-12-18
  • 来自专栏机器之心

    统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

    为了弥合这一差距,REPA 提出通过对齐扩散模型与预训练的视觉模型(如 DINOv2)的表征,可以让扩散模型更高效地学习判别特征,从而提高训练效率和生成质量。然而,REPA 存在几个主要问题: 1. 高昂的计算成本:REPA 依赖于 DINOv2 这样的大规模预训练视觉模型,其预训练需要超过 22,000 GPU 小时(A100),计算资源需求极高。 2. 工作机制(对比 REPA) 为了更深入地理解 USP,研究者在 DiT-XL/2 训练过程中,对不同层的线性探测性能进行了分析(见图 4)。 方法后的线性探测性能 主要发现: 与 REPA 不同,USP 不依赖额外的对齐损失,而是通过精心设计的初始化策略,让模型自动找到最适合线性分类的层。 REPA 通过人为设计的表征对齐方式来增强判别能力,但这种方法可能会限制生成模型的潜力。 这些实验表明,USP 的初始化策略比基于表征对齐的方法更高效,并且更适用于同时提升分类和生成任务的统一框架。

    47210编辑于 2025-03-17
  • 何恺明团队新突破:给扩散模型加正则化,零成本整理内部特征,效果立竿见影

    媲美重量级 REPA,成本极低与需要依赖外部强大预训练模型(如 DINOv2)的表征对齐方法 REPA 相比:REPA:FID 1.80 (SiT-XL/2 + CFG + SDE)Dispersive Loss:FID 1.97 (同设置)虽然 REPA 的绝对指标略优,但 Dispersive Loss 是完全自包含的:无需外部预训练模型 (REPA 依赖 11 亿参数、在 1.42 亿图像上预训练的

    43810编辑于 2025-06-16
  • 来自专栏机器之心

    DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

    我们每天都在用 SiT、REPAREPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学…… 否则,你得出的结论不仅仅是错的,而是根本连错都谈不上。 过去一年最大的改进点在于内部表示学习:最早是 REPA,但现在有很多方法(例如 tokenizer 层面的修正:VA-VAE / REPA-E,把语义 token 拼接进噪声潜变量、解耦式架构如 DDT 像 VA-VAE 和 REPA-E 只是部分修复,更多进展还在路上。

    26310编辑于 2025-08-24
  • 来自专栏全栈程序员必看

    OGG安装配置_ogg是什么格式的文件

    (2) 添加复制进程: GGSCI(localhost.localdomain 23)>add replicat repa, exttrail . /dirdat/ra,checkpointtable ogg.checkpoint; (3) 投递进程参数配置: 编辑repa进程对应的repa.prm参数文件(– 后为注释): GGSCI(localhost.localdomain 24)>edit param repa;//会在dirrpm文件下自动生成配置文件 REPLICAT repa SETENV (ORACLE_SID="orcl") SETENV (NLS_LANG=AMERICAN_AMERICA.AL32UTF8) --与数据库字符集一致 GGSCI(localhost.localdomain 25)>start mgr; GGSCI(localhost.localdomain 27)>start repa

    2.6K30编辑于 2022-11-17
  • 碾压SOTA!腾讯HunyuanVideo-Foley开源:让视频自动生成电影级音效,沉浸感拉满!

    REPA训练策略 在HunyuanVideo-Foley框架中,引入了REPA损失,该损失涉及将扩散模型中Transformer块中间层的隐藏状态与来自预训练ATST-Frame编码器的帧级音频表示进行对齐 公式(6)显示了REPA损失的计算: 通过最大化预训练表示与DiT层内部表示之间的余弦相似度,REPA损失能够在音频生成建模过程中提供更有效的语义和声学指导,从而增强语义对齐性和生成音频的质量。 所有配置保持相同的实验设置,排除REPA并采用单模态DiT。 此外,研究了在不同阶段和层应用REPA的效果。下表7中的结果显示,当在单模态DiT中应用REPA时可获得最佳性能,其他观察表明当应用于单模态块的较浅层时效果更好。 讨论 平衡的视觉与文本语义。 通过REPA策略和数据集扩展增强音频保真度。HunyuanVideo-Foley通过引入REPA训练策略显著提高了基于扩散的生成质量。该方法有效地将DiT的隐藏表示与稳健的自监督特征对齐。

    76210编辑于 2025-09-04
  • 来自专栏憧憬博客分享

    Elasticsearch基础知识补齐

    所谓均衡分配,以情况举例:priX代表主分片,repX代表副本分片 索引有1个priA,1个repA,但当前只有一个节点A,那么priA分配到A节点;repA没有分配。优先分配主分片。 索引有1个priA,1个repA,当前有两个节点A和B,那么priA分配到A节点;repA分配到B节点(priA分配到B节点也有可能)。 索引当前有2个priA,4个repA,有3个节点,那么现在每台节点上有两个分片(但要考虑主分片不能与自己的副本分片同在一个节点上,在下面的主副分片的排斥中由一个例子)。 对应的排斥情况就是: 索引有1个priA,1个repA,但当前只有一个节点A,那么priA分配到A节点;repA没有分配。 索引有1个priA,1个repA,当前有两个节点A和B,那么priA分配到A节点;repA分配到B节点(priA分配到B节点也有可能)。

    98111发布于 2020-09-22
  • 来自专栏作图丫

    SubCellBarCode方法--识别蛋白的亚定位!

    all.prot.pred all.B <- cls[[2]]$all.prot.pred #估计隔间级别的分类阈值 t.c.df <- computeThresholdCompartment(test.repA = test.A, test.repB = test.B) #将阈值应用于隔间级别分类 c.cls.df <- applyThresholdCompartment(all.repA = all.A, threshold.df = t.c.df) #估计邻域级别的分类阈值 t.n.df <- computeThresholdNeighborhood(test.repA = test.A, test.repB = test.B) #将阈值应用于邻域级别分类 n.cls.df <- applyThresholdNeighborhood(all.repA = all.A,

    83310编辑于 2022-03-29
  • 来自专栏智能生信

    【Nucleic Acids Research】四篇好文简读-专题3

    NgAgo与其他具有催化活性的pAgos共享规范结构域,但也包含一个以前未被识别的单链DNA结合结构域(repA)。repA和典型PIWI结构域都参与NgAgo的DNA裂解活动。

    62620发布于 2021-10-08
  • 来自专栏小麦苗的DB宝专栏

    使用OGG 21.3远程实时互相同步Oracle 11.2.0.4(双主)

    .*; 创建replicate进程 ADD REPLICAT repa INTEGRATED EXTTRAIL . /dirdat/eb edit params repa REPLICAT repa USERIDALIAS ora11ga DDL INCLUDE MAPPED DDLOPTIONS REPORT 00:00:03 EXTRACT RUNNING EXTB 00:00:02 00:00:02 REPLICAT RUNNING REPA

    2.5K30编辑于 2022-11-07
  • 来自专栏机器之心

    人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

    为了能够给社区带来更多的可信的实践经验,我们在 4个超参(学习率,梯度裁剪值,REPA loss的权重以及warmup的步数)上进行了多达80次的随机搜索,总搜索计算量(FLOPs)约是人工手调的3%。 在0.18B模型上的超参搜索结果表明,我们学习率,梯度裁剪值,REPA loss都对结果有影响,其中学习率的影响仍是最为关键的。而warmup的步数则对结果影响不大。

    30600编辑于 2025-06-28
  • 来自专栏阿dai_linux

    shell跳板机(较复杂) 转

    验证账号登录 while : do printf ''' 请输入登陆跳板机验证标识:''' named name=`cat ~/nameserver.p` repa =`cat /opt/username.p` if [ "$name" == "$repa" ];then echo ''' 认证标识正确,欢迎登陆跳板机......

    1.1K20发布于 2019-04-03
  • 原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”

    token 和生成token 直接通道拼接而不是token 数拼接,这样在做信息融合的时候避免token爆炸,有利于多模交互场景; 采用共享及解耦网络机制;在原生多模知识共享(这点大家可以参考对照生成需要REPA

    49010编辑于 2025-12-21
  • 来自专栏小麦苗的DB宝专栏

    【DB宝84】使用OGG for MSSQL微服务快速双向同步RDS数据库(双主)

    .*; 创建replicate进程 image-20211227180119727 参数: REPLICAT repa TARGETDB mssql2019b USERIDALIAS MSSQLB

    3.1K10编辑于 2022-02-23
  • 来自专栏腾讯开源的专栏

    混元开源又+1:视频音效可以自动生成了

    亮点三:专业级音频保真度 研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。

    77710编辑于 2025-09-02
  • 来自专栏小麦苗的DB宝专栏

    使用OGG for SQL Server微服务快速双向同步SQL Server数据库(双主)

    .*; 创建replicate进程 image-20211227180119727 参数: REPLICAT repa TARGETDB mssql2019b USERIDALIAS MSSQLB

    3.9K40编辑于 2023-04-26
  • 端到端像素扩散天降外挂!北大&华为等开源DeCo:生图质量超越SD3、OmniGen2等

    结合基线中的标准像素级流匹配损失与REPA对齐损失,最终目标函数可表示为: 像素解码器 如上图3所示,像素解码器是一个轻量级无注意力网络,由个线性解码块和若干线性投影层构成。 本文对比了需要VAE的两阶段DiT-L/2,以及PixelFlow、PixNerd等近期像素扩散模型,同时将DDT适配为像素扩散基线PixDDT,并集成JiT到本文的基线中(结合REPA)以进行公平对比

    33210编辑于 2025-11-29
  • 来自专栏AI软件

    高质量AI歌曲生成器ACE-Step一键启动整合包,AI自动谱曲自动演唱

    它进一步利用 MERT 和 m-hubert 在训练过程中对齐语义表征 (REPA),从而实现快速收敛。

    2.1K00编辑于 2025-05-27
  • 视觉AR逆袭!177M效果媲美675M最新SOTA扩散模型,仅需一个“即插即用”的正则化reAR

    匹配最先进扩散模型的性能,同时参数量更少: 结合高级分词器 AliTok,reAR 以仅 177M 参数实现了 1.42 的 gFID,这与需要 675M 参数的更大规模、最先进的扩散模型 REPA 的性能相匹配 值得注意的是,它接近基于扩散的 REPA并优于 Maskbit,同时使用更少的参数(177M vs. 675M/305M),具体数据如表 2 所示。 缩放效应。

    15310编辑于 2026-04-02
  • 来自专栏腾讯开源的专栏

    腾讯混元生图2.1开源!可写字、更高清、更一致、更可玩!

    为大幅降低计算量、提升训练和推理效率,模型采用了32倍超高压缩倍率的VAE, 并使用dinov2对齐和repa loss来降低训练难度。因此,模型能高效原生生成2K图。

    1.1K10编辑于 2025-09-11
领券