
介绍
在工业质检场景中,异常分类 是保证产品质量和安全生产的核心任务。然而,真实工业环境往往面临两大痛点:
异常样本极难获取 – 缺陷产品本就稀少,收集足够异常数据几乎不可能。
冷启动问题 – 产线初期可能仅有极少量正常样本可用。传统无监督方法只训练正常样本,但在“只有几张正常图”的少样本异常分类(FSAC) 场景下,性能往往急剧下降。而近期基于视觉-语言模型(VLM) 的方法,如 CLIP,虽然展现了强大的开放词汇识别能力,却面临两个新挑战:

为此,来自西安交通大学、深圳大学等机构的论文《CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP》中,提出了一种全新的少样本异常分类框架 CLIP-FSAC++。该方法仅用 1~8 张正常样本,就在 VisA 和 MVTEC-AD 两个工业异常检测基准上取得了 SOTA 结果,甚至超越了部分使用全量数据的传统方法。
关键创新
下图是 CLIP-FSAC++ 的整体框架,它建立在 CLIP 的图像编码器 ff 和文本编码器 gg 之上,并引入图像适配器、文本适配器和核心的异常描述器(Anomaly Descriptor)

1. 合成异常:解决“没有负样本”的窘境
由于训练集中只有正常样本,作者首先生成合成的异常图像。对于不同数据集,他们采用了两种策略:

2. 适配器:将 CLIP 从自然图像“微调”到工业域
为了避免遗忘 CLIP 原有的通用知识,作者采用残差连接的适配器结构:
适配后的特征为:
AF=α1Af(F)+α2F,AT=β1Ag(T)+β2TAF=α1Af(F)+α2F,AT=β1Ag(T)+β2T
3. 异常描述器(AD):让图像与文本“相互理解”
这是本文的核心创新点。AD 由两个交叉注意力模块组成,实现模态互增强:

通过这种方式,图像和文本不再是独立匹配,而是相互引导、相互增强,显著提升了少样本下的跨模态对齐能力。
4. 联合训练 + 三部分损失
CLIP-FSAC++ 摒弃了前代版本的两阶段训练,采用端到端联合优化,损失函数包括三部分:
图像到文本的对比损失
文本到图像的对比损失
传统分类交叉熵损失这种设计不仅简化了训练流程,还带来了更好的分类性能。
实验与结果
在 VisA 数据集上,CLIP-FSAC++ 在 1/2/4/8-shot 设置下的 I-AUROC 分别达到 97.6%、97.4%、97.6%、97.7%,比之前的 SOTA 方法 WinCLIP 大幅提升 10%~13%。在 MVTEC-AD 上,同样取得了极具竞争力的结果(2-shot 下 96.3% I-AUROC)


结论
LIP-FSAC++ 提供了一套优雅且高效的解决方案,通过轻量级适配器 + 交叉注意力异常描述器 + 合成异常,成功将强大的 CLIP 模型迁移到工业少样本异常分类任务中。
未来的AI,必将是感知与认知交融的“全能思考者”。率先掌握多模态与视觉语言模型(VLM)这项技术,就是掌握了塑造新产业、定义缺陷检测新规则的核心主动权。