首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >1张正常图就够了:CLIP-FSAC++ 如何用“视觉-语言对话”颠覆工业缺陷分类

1张正常图就够了:CLIP-FSAC++ 如何用“视觉-语言对话”颠覆工业缺陷分类

作者头像
OpenCV学堂
发布2026-04-15 18:19:32
发布2026-04-15 18:19:32
100
举报

介绍

在工业质检场景中,异常分类 是保证产品质量和安全生产的核心任务。然而,真实工业环境往往面临两大痛点:

代码语言:javascript
复制
异常样本极难获取 – 缺陷产品本就稀少,收集足够异常数据几乎不可能。
冷启动问题 – 产线初期可能仅有极少量正常样本可用。

传统无监督方法只训练正常样本,但在“只有几张正常图”的少样本异常分类(FSAC) 场景下,性能往往急剧下降。而近期基于视觉-语言模型(VLM) 的方法,如 CLIP,虽然展现了强大的开放词汇识别能力,却面临两个新挑战:

  • 文本提示(prompt)难以精准设计 – 描述“正常”与“异常”的词汇选择对结果影响极大。
  • 领域差异 – CLIP 预训练自自然图像,与工业图像分布差异明显。

为此,来自西安交通大学、深圳大学等机构的论文《CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP》中,提出了一种全新的少样本异常分类框架 CLIP-FSAC++。该方法仅用 1~8 张正常样本,就在 VisA 和 MVTEC-AD 两个工业异常检测基准上取得了 SOTA 结果,甚至超越了部分使用全量数据的传统方法。

关键创新

下图是 CLIP-FSAC++ 的整体框架,它建立在 CLIP 的图像编码器 ff 和文本编码器 gg 之上,并引入图像适配器、文本适配器和核心的异常描述器(Anomaly Descriptor)

1. 合成异常:解决“没有负样本”的窘境

由于训练集中只有正常样本,作者首先生成合成的异常图像。对于不同数据集,他们采用了两种策略:

  • 随机扰动:在正常图像中随机选取方形区域,填入高斯噪声(适用于 MVTEC-AD)。
  • 自然合成异常(NSA):通过泊松图像编辑和基于 Gamma 分布的块形状采样,生成更逼真的异常(适用于 VisA)。

2. 适配器:将 CLIP 从自然图像“微调”到工业域

为了避免遗忘 CLIP 原有的通用知识,作者采用残差连接的适配器结构:

  • 图像适配器 AfAf:将原始视觉特征 FF 转化为更适配工业域的表示 AFAF。
  • 文本适配器 AgAg:对正常/异常文本提示集合(如“a photo of a normal [object]”)的特征 TT 进行重分布,得到 ATAT。

适配后的特征为:

AF=α1Af(F)+α2F,AT=β1Ag(T)+β2TAF=α1Af(F)+α2F,AT=β1Ag(T)+β2T

3. 异常描述器(AD):让图像与文本“相互理解”

这是本文的核心创新点。AD 由两个交叉注意力模块组成,实现模态互增强:

  • 图像→文本:计算图像特征与文本特征的相似度,生成视觉驱动的文本特征 TFTF,并加回图像特征中,使图像包含文本先验。
  • 文本→图像:类似地,生成文本驱动的视觉特征 VTVT,并加回文本特征中。

通过这种方式,图像和文本不再是独立匹配,而是相互引导、相互增强,显著提升了少样本下的跨模态对齐能力。

4. 联合训练 + 三部分损失

CLIP-FSAC++ 摒弃了前代版本的两阶段训练,采用端到端联合优化,损失函数包括三部分:

代码语言:javascript
复制
图像到文本的对比损失
文本到图像的对比损失
传统分类交叉熵损失

这种设计不仅简化了训练流程,还带来了更好的分类性能。

实验与结果

在 VisA 数据集上,CLIP-FSAC++ 在 1/2/4/8-shot 设置下的 I-AUROC 分别达到 97.6%、97.4%、97.6%、97.7%,比之前的 SOTA 方法 WinCLIP 大幅提升 10%~13%。在 MVTEC-AD 上,同样取得了极具竞争力的结果(2-shot 下 96.3% I-AUROC)

结论

LIP-FSAC++ 提供了一套优雅且高效的解决方案,通过轻量级适配器 + 交叉注意力异常描述器 + 合成异常,成功将强大的 CLIP 模型迁移到工业少样本异常分类任务中。

未来的AI,必将是感知与认知交融的“全能思考者”。率先掌握多模态与视觉语言模型(VLM)这项技术,就是掌握了塑造新产业、定义缺陷检测新规则的核心主动权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档