1张正常图就够了：CLIP-FSAC++ 如何用“视觉-语言对话”颠覆工业缺陷分类

OpenCV学堂

发布于 2026-04-15 18:19:32

100

介绍

在工业质检场景中，异常分类是保证产品质量和安全生产的核心任务。然而，真实工业环境往往面临两大痛点：

异常样本极难获取 – 缺陷产品本就稀少，收集足够异常数据几乎不可能。
冷启动问题 – 产线初期可能仅有极少量正常样本可用。

传统无监督方法只训练正常样本，但在“只有几张正常图”的少样本异常分类（FSAC）场景下，性能往往急剧下降。而近期基于视觉-语言模型（VLM）的方法，如 CLIP，虽然展现了强大的开放词汇识别能力，却面临两个新挑战：

文本提示（prompt）难以精准设计 – 描述“正常”与“异常”的词汇选择对结果影响极大。
领域差异 – CLIP 预训练自自然图像，与工业图像分布差异明显。

为此，来自西安交通大学、深圳大学等机构的论文《CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP》中，提出了一种全新的少样本异常分类框架 CLIP-FSAC++。该方法仅用 1~8 张正常样本，就在 VisA 和 MVTEC-AD 两个工业异常检测基准上取得了 SOTA 结果，甚至超越了部分使用全量数据的传统方法。

关键创新

下图是 CLIP-FSAC++ 的整体框架，它建立在 CLIP 的图像编码器 ff 和文本编码器 gg 之上，并引入图像适配器、文本适配器和核心的异常描述器（Anomaly Descriptor）

1. 合成异常：解决“没有负样本”的窘境

由于训练集中只有正常样本，作者首先生成合成的异常图像。对于不同数据集，他们采用了两种策略：

随机扰动：在正常图像中随机选取方形区域，填入高斯噪声（适用于 MVTEC-AD）。
自然合成异常（NSA）：通过泊松图像编辑和基于 Gamma 分布的块形状采样，生成更逼真的异常（适用于 VisA）。

2. 适配器：将 CLIP 从自然图像“微调”到工业域

为了避免遗忘 CLIP 原有的通用知识，作者采用残差连接的适配器结构：

图像适配器 AfAf：将原始视觉特征 FF 转化为更适配工业域的表示 AFAF。
文本适配器 AgAg：对正常/异常文本提示集合（如“a photo of a normal [object]”）的特征 TT 进行重分布，得到 ATAT。

适配后的特征为：

AF=α1Af(F)+α2F,AT=β1Ag(T)+β2TAF=α1Af(F)+α2F,AT=β1Ag(T)+β2T

3. 异常描述器（AD）：让图像与文本“相互理解”

这是本文的核心创新点。AD 由两个交叉注意力模块组成，实现模态互增强：

图像→文本：计算图像特征与文本特征的相似度，生成视觉驱动的文本特征 TFTF，并加回图像特征中，使图像包含文本先验。
文本→图像：类似地，生成文本驱动的视觉特征 VTVT，并加回文本特征中。

通过这种方式，图像和文本不再是独立匹配，而是相互引导、相互增强，显著提升了少样本下的跨模态对齐能力。

4. 联合训练 + 三部分损失

CLIP-FSAC++ 摒弃了前代版本的两阶段训练，采用端到端联合优化，损失函数包括三部分：

图像到文本的对比损失
文本到图像的对比损失
传统分类交叉熵损失

这种设计不仅简化了训练流程，还带来了更好的分类性能。

实验与结果

在 VisA 数据集上，CLIP-FSAC++ 在 1/2/4/8-shot 设置下的 I-AUROC 分别达到 97.6%、97.4%、97.6%、97.7%，比之前的 SOTA 方法 WinCLIP 大幅提升 10%~13%。在 MVTEC-AD 上，同样取得了极具竞争力的结果（2-shot 下 96.3% I-AUROC）