Meta 宣布发布 DINOv3,这是一个前沿的自监督视觉基础模型,在广泛的计算机视觉任务中实现了前所未有的性能。 随着 DINOv3 的发布,我们在密集任务上显著超过了弱监督模型,通过最佳类别的 WSL 模型的相对性能来展示(b)。 我们还使用在自然图像(c)和航拍图像(d)上训练的 DINOv3 生成了特征的 PCA 图。 DINOv3 通过采用全面的模型套件来扩展自监督学习的应用范围,以满足不同的用例需求。 DINOv3 集成了架构创新,特别采用了 Gram anchoring 来解决密集特征图退化问题,以及轴向 RoPE 结合抖动的方法来提高在不同图像分辨率和宽高比下的鲁棒性。 DINOv3模型家族 通过 DINOv3,我们显著改善了密集特征图的退化问题,这要归功于 Gram anchoring。随着 SSL 导致的训练模型规模扩大,结果是显着的性能提升。
本文将详细介绍如何使用DINOv3进行目标检测任务,以血细胞分类为例,展示从数据准备到模型训练再到推理部署的完整流程。1. """血细胞分类训练脚本 - 使用DINOv3特征 + 随机森林分类器这种方法更简单直接,通常在小数据集上效果更好DINOv3 使用 patch_size=16,**要求输入图像尺寸必须是 16 的倍数 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3✓ DINOv3模型加载完成 提取train集特征...处理train集: 100%|██ 模型: dinov3_vits16 使用本地仓库: /data/william/Workspace/dinov3✓ DINOv3模型加载完成模式: 使用标注框进行分类图像: BCCD_Dataset/BCCD 通过结合强大的DINOv3特征提取能力和灵活的随机森林分类器,我们实现了一个既简单又有效的目标检测系统。希望这篇文章能够帮助读者理解并应用DINOv3进行实际的目标检测任务。
为什么现在要关注DINOv3 首先是训练数据的规模优势。 Token结构和特征图处理 DINOv3的输出结构是[CLS] + 4个register token + patch grid。 实际应用场景 DINOv3最适合的场景是那些需要"零微调"的应用。 据他们的报告,DINOv3基本上是开箱即用的,而且在不同传感器之间的泛化能力很强。 这才是DINOv3真正超模的地方。 喜欢就关注一下吧: 点个 在看 你最好看!
提出了AD-DINOv3,这是首个将DINOv3适配于零样本异常检测的框架,填补了自监督视觉编码器与异常检测任务之间的空白。 引入了一种带有轻量级适配器的跨模态对比学习策略,以充分利用DINOv3的层次化表征进行零样本异常检测。 架构与方法 我们采用DINOv3作为AD-DINOv3的视觉主干网络。如图2所示,图像分支会提取图像块标记和一个CLS标记,这些标记通过轻量级适配器与异常感知校准模块共同进行优化处理。 实现细节 在我们的实验中,默认采用Meta AI发布的ViT-L/16架构预训练DINOv3作为图像编码器,同时使用预训练CLIP(OpenAI)的文本编码器生成文本嵌入。 DINOv3主干网络包含24个Transformer层,我们将其划分为四个阶段,分别从第6、12、18和24层提取图像块嵌入。
前不久,Meta 发布的 DINOv3 让我们见识了视觉基础模型的强大能力。而就在大家还沉浸于 DINOv3 的震撼时,中山大学的研究团队顺势出手,提出了一个新框架——AD-DINOv3。 这不仅仅是“把 DINOv3 用起来”那么简单,而是一次针对异常检测场景的精心设计。为什么异常检测这么难? DINOv3 的登场在这个节点上,DINOv3(Meta 提出的超大规模自监督视觉模型)出现了。它通过对大量自然图像的训练,学到了非常强的通用视觉特征。 中山大学的思路:AD-DINOv3于是,中山大学的研究团队提出了AD-DINOv3,一个把 DINOv3 真正带入 ZSAD 的框架。 仅用 DINOv3 特征:AUROC 只有 76.2%,F1 只有 20.49%。+ CMCL:AUROC 飙升到 90.98%,说明跨模态对齐是关键。
一、执行摘要:一分钟看懂DINOv3它是什么?DINOv3是Meta开源的一个自监督视觉骨干网络家族。它能产生强大的、密集的特征表示,直接用于图像分类、目标检测、语义分割和深度估计等任务。为什么重要? DINOv3正极大地拓展这片“无标签”的疆域。 三、实力说话:DINOv3基准测试表现DINOv3的核心主张非常强硬:一个单一的冻结骨干网络,在密集预测任务(如语义分割、目标检测、深度估计)上可以匹配甚至击败许多专门的解决方案,并且大幅超越了之前的自监督基线模型 四、DINOv3解锁的多模态能力DINOv3 primarily是一个视觉骨干网络,但其强大的密集特征使其成为连接多种模态和下游能力的天然桥梁。 添加图片注释,不超过 140 字(可选)▲ 冻结的DINOv3产生密集特征,可输入多种任务适配器五、按需取用:蒸馏模型与实战部署变体Meta发布了一系列DINOv3骨干网络(包括ConvNeXt和ViT
图:DINOv3在4096×4096超高分辨率下的特征表现。 通过PCA将特征映射为RGB,清晰展示了模型对细节的精准捕捉能力 一、数据说话:DINOv3的硬核实力 "无需人工标注,仅通过观察世界就能理解万物"——这不是科幻小说,而是Meta最新发布的DINOv3 二、技术揭秘:DINOv3的三大核心突破 1. 智能数据引擎:从170亿图像中提炼精华 DINOv3团队面临的首要挑战:如何从海量无序图像中提取有效信息? 五、真实挑战:DINOv3的局限性 尽管DINOv3表现出色,但了解其局限性同样重要: 1. 六、实践指南:如何开始使用DINOv3 1.
之前的 DINOv3 + YOLO26 方案解决了一部分问题。但今天想聊聊另一个选择:EUPE + YOLO26。 语义特征更强 DINOv3 是纯自监督,特征空间偏向几何/纹理。但工业缺陷检测有时候需要语义理解——比如判断"这是划痕还是压痕",纯几何特征有时候不够用。 小模型就能用 DINOv3 想达到好效果,通常需要 ViT-B (86M)。但 EUPE-ViT-S (21M) 就能接近 ViT-B 的精度。 这意味着什么? 如果以后想加个缺陷分类头,不需要双模型,共享同一个 backbone 就行: 整体框架 和 DINOv3 + YOLO26 一样的思路: 区别只在特征提取层。 如果你的场景纯粹是大图小目标检测且数据量充足,DINOv3 依然是个好选择。 可以在实际数据上做个对比实验,再决定用哪个。
工业缺陷检测新范式:VisualAD + DINOv3 实现「训练一次,检测万物」 本文基于 CVPR 2026 VisualAD 与 Meta DINOv3,从零实现端到端异常检测。 适配:本文的核心工程贡献 官方 VisualAD 基于 CLIP ViT,本文迁移到 DINOv3,踩坑不少: ① 架构差异 特性 CLIP ViT DINOv3 (Eva) 位置编码 固定可学习 RoPE ② 为什么 DINOv3 更适合工业检测? CLIP 是图文对齐模型,特征受语言语义牵引;DINOv3 是纯视觉自监督,特征更聚焦图像本身的视觉结构。 DINOv3 的判别间距是 CLIP 的 2 倍。 ③ 输入尺寸陷阱 DINOv3 patch16 要求输入为 16 的倍数。官方常用 518(14 的倍数),需改为 512。不改的话模型能跑,但精度掉档。
这个由Intellindust AI Lab和厦门大学联合推出的实时检测器家族,将实时 DETR 与视觉基础模型DINOv3相结合。 技术突破:当DINOv3遇上实时检测DEIMv2的核心创新在于解决了基础模型与实时检测任务之间的适配难题。 空间调优适配器:巧妙的桥梁设计DINOv3作为当前最强大的视觉基础模型,语义理解能力出色,但其单尺度输出特性与目标检测所需的多尺度特征存在矛盾。 这个设计既保留了DINOv3的强大能力,又补充了检测必需的细节信息,堪称工程上的巧思。 特别值得注意的是,DEIMv2在中大型物体检测上表现尤为突出,证明了DINOv3强大语义能力与STA模块的有效性。
开创性地将DINOv3适配于零样本异常检测(ZSAD)任务论文首次将DINOv3这一强大的自监督视觉基础模型作为视觉主干网络(visual backbone)引入到零样本异常检测(Zero-Shot Anomaly 近期,DINOv3等视觉基础模型展现出强大的可迁移表征能力。 相比之下,像DINOv3[35]这样的自监督视觉编码器在该任务中尚未得到充分探索。 图1展示了原始DINOv3与我们提出的AD-DINOv3之间的差异。 这推动研究者探索更强的视觉骨干网络DINOv3,并开发专用于异常检测的自适应提示学习机制。
MAE + YOLO26:掩码重建自监督的新选择 DINOv3 和 EUPE 都是基于对比学习的自监督方法。 学到了强大的视觉表征: 模型 参数量 ImageNet Top-1 MAE ViT-B 86M 87.8% MAE ViT-L 300M 89.0% MAE ViT-H 600M 89.1% 对比一下 DINOv3 预训练权重更容易获取 DINOv3 的预训练权重需要向 Meta AI 申请,文件大(330MB),流程麻烦。 mosaic: 0.8 mixup: 0.1 和 DINOv3 的对比实验 MAE 和 DINO 到底哪个更适合你的工业检测任务? 三种自监督范式总结 结语 MAE + YOLO26 不是一个「替代」DINOv3 或 EUPE 的方案,而是第三种选择。
与 SAM3,总结令牌匹配 SigLIP2 与 DINOv3。 实践中,DINOv3 常在总结项中压制 SigLIP2。C-RADIOv4 以角度归一化损失替代原有方案。学生与教师嵌入间的夹角平方值,除以该教师自身的角分散度。 在 k-NN 分类任务中,C-RADIOv4-H 相较 RADIOv2.5 与 C-RADIOv3 均有提升,并在约 256 px 起与 DINOv3 相当或更优。 DINOv3 在 192–256 px 达到峰值后性能下降,而 C-RADIOv4 在高分辨率下仍保持稳定或持续提升。密集与 3D 感知指标呈现出预期的权衡效果。 均衡多教师蒸馏:角度归一化的总结损失平衡了 SigLIP2 与 DINOv3 的贡献,同时保留了对齐文本与密集表征的质量。
一种大图小目标检测的思路:DINOv3预训练特征 + YOLO26检测头 最近在梳理项目,顺手把 DINOv3 和 YOLO26 结合这套方案的做法整理一下。 DINOv3 的特征质量给这种方案提供了新的选择。 整体框架 核心思路就三步:提特征 → 多尺度化 → 检测输出。 关于DINOv3的特征 DINOv3是Meta在2025年放出来的自监督模型,用的是ViT架构。它在LVD-1689M这个大规模数据集上训练过,这个规模大概是之前一些方案的几十倍。 多中间层输出 DINOv3的 get_intermediate_layers 可以取多层输出。不是所有层都同等重要——浅层保留更多底层信息,深层偏语义。 多尺度Neck怎么做的 DINOv3输出的是单尺度 40×40 特征图(640输入的情况下),但YOLO检测需要 P3/P4/P5 三个尺度。
本文直接在高维 VFM (DINOv3) 特征空间上训练骨干网络,使用方程 (2) 中定义的流匹配目标函数。 本文观察到从 DINOv3 特征重建图像时存在明显的与分辨率相关的行为,如下图3所示。虽然低分辨率输入的重建在精细结构上存在退化,但高分辨率输入会产生明显更详细和忠实的结果。 这表明 DINOv3 表示本质上能够有效地在高分辨率下保留详细的视觉线索。至关重要的是,这种能力表明 DINOv3 编码器本身足以进行高分辨率重建,从而无需辅助残差编码器。 它们的跨分辨率余弦相似度接近 1.0,而 DINOv3 和 DINOv2 特征则变化更大。这一观察结果表明,VFM 派生特征在不同尺度上经历了不可忽略的偏移。 然而,在研究过程中,本文也发现了一个关键挑战:现有 VFM 编码器(例如 DINOv2 和 DINOv3)在以不同输入分辨率编码相同图像时,会产生内部一致性较差的表示。
在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。 这次,它请来的老师阵容堪称豪华:文本理解高手 SigLIP2、自监督学习标杆 DINOv3,以及那个能“分割万物”的 SAM3。三位老师,三种绝活,而 C-RADIOv4 要做的,就是融会贯通。 SigLIP2 带来了更精准的图文对齐能力,DINOv3 在语义理解和密集预测上几乎做到了极致。 DINOv3 这样的老师,个性强烈,输出的特征分布范围很广;而 SigLIP2 则相对内敛。如果不加调节,学生很容易被声音大的老师吸引,而忽略了其他。为此,团队重新设计了“平衡摘要损失”。
HUVR会跟随一个强大的预训练“教师”模型(如DINOv3)学习。通过蒸馏损失函数,HUVR编码器和解码器的输出特征会模仿教师模型的对应特征,从而获得高级语义理解能力。 相比之下,将强大的DINOv3特征用PCA暴力降到8维,准确率仅有16.1%。当维度放宽到32维,HUVR的准确率飙升至79.4%,这已经接近甚至超过了很多早期轻量化模型的完整性能。 在多项任务中达到SOTA水平除了压缩空间中的惊人表现,HUVR在标准维度下的性能也足以与业界顶尖模型媲美:在ImageNet-1k分类任务上,ViT-B尺寸的HUVR取得了85.0%的Top-1准确率,略高于DINOv3 在ADE20K语义分割任务上,HUVR以52.0 mIoU的成绩击败了DINOv3的50.8 mIoU。在NYUv2深度估计任务上,也取得了更低的误差。
你的 DINOv3 mAP 高五个点又怎么样?推理一张图 200ms,线上服务延迟就爆了。 YOLO 的优势不在于它多牛,而在于它多稳。它像一头老黄牛,不挑活,不挑食,给点草就能干活。 推理延迟对比 第三章:大模型的沉重肉身 DINOv3 泛化强但推理难伺候,SAM 分割一切也吃掉一切显存 显存消耗对比 一、DINOv3:泛化能力的诱惑 DINOv3 是一个让人又爱又恨的模型。 DINOv3 的推理速度在 A100 上大约是 150-200ms 一张图,这还是最优情况。如果你的输入图像比较大,或者你需要处理多尺度特征,那就更慢了。 你的场景是固定的,类别是固定的,这时候你用 DINOv3 的泛化能力就是在浪费。就好比你用一架波音飞机去赶集市,能到是能到,但你花的油钱比集市里买的东西还贵。 以 DINOv3 为例,假设你用它做开放词汇检测,类别数 100: 指标 DINOv3 + A100 (10卡) YOLO + T4 (2卡) 倍数 单帧延迟 250ms 15ms 16x 并发支持 10
本次更新不仅加入了8个重要的新模型,包括计算机视觉领域的DINOv3和SAM 2,音频处理领域的X-Codec,多模态模型Kosmos 2.5、Ovis 2等,还带来了缓存系统重构、量化支持增强、训练推理优化等多项改进 DINOv3:视觉基础模型新标杆 DINOv3是一种无需微调即可在各种视觉任务上超越专业最新技术的通用视觉基础模型。 DINOv3的核心优势在于其强大的泛化能力,这使得它在分类、分割、检测等任务上都能取得令人印象深刻的表现,而无需针对特定任务进行微调。 2.
该框架不仅引入DINOv3补充细粒度视觉特征,更通过一种创新的“语义-视觉协同”机制,使提示词(Prompt)不再是静态文本,而是能根据图像内容动态生成的“灵动指令”。 层级语义-视觉协同模块(HSVS)该模块引入DINOv3作为“视觉专家”,与CLIP的语义特征进行深度融合。