- 发布时间:2024-06-14
- 作者:光明实验室
- 浏览:2143次
光明实验室工业视觉与智能系统团队的文章“CLIP-FSAC: Boosting CLIP for Few-Shot Anomaly Classification with Synthetic Anomalies”(作者:左佐、吴垚、李宝强、董嘉豪、周游、周磊、曲延云、吴宗泽)已被人工智能领域CCF-A类会议International Joint Conference on Artificial Intelligence (IJCAI 2024) 正式录用。该研究尝试将CLIP强大的泛化能力和图文匹配能力迁移到工业异常检测中,并取得了极具竞争力的性能。
内容简介
异常检测(Anomaly Detection)在于通过分类或分割的方式将给定图像中的诸如入侵、欺诈或缺陷等非正常状态识别与定位出来,在不同行业均有着广泛应用。当下,深度学习凭借其强大的自动特征提取能力取得了在该领域的主导地位。特别是在工业中,异常检测起着至关重要的作用,它能保障生产工艺安全和保证产品质量。然而,该类任务面临着极大挑战,主要原因在于:首先,异常缺陷种类多样且数据量稀少;其次,对缺陷无论是分类还是分割标签的制作均费时费力。使用少量的带标签异常缺陷图像进行监督式训练会导致模型精度较低,较难满足工业实际需求。基于此,越来越多的研究采用无监督的方式来训练异常检测网络。该类方法只需无缺陷的正常样本,且无需标注。但在工业场景中,正常样本数量也较为稀缺。针对该问题,提出了一种基于CLIP(Contrastive Language-Image Pre-Training)的少样本工业异常分类方法CLIP-FSAC。只需给定少量正常图像,该方法能自主生成缺陷样本来微调CLIP,从而将其强大的泛化和图文本匹配能力迁移至工业异常检测中。具体而言,CLIP-FSAC首先通过图像Adapter和文本Adapter来分别迁移原始CLIP图像和文本编码器提取到的特征,然后通过一个Image-to-Text Cross-Attention模块将抽象的文本信息引入到图像特征中,以增强后者的表征,从而达到强化图文匹配的目的。
方法概述
该工作利用CLIP通过大量图像-文本对进行预训练获得的强泛化能力和图文匹配能力来进行小样本异常检测任务。该工作用于训练的正常样本数量少于4,其训练过程可分为两步:首先,预定义文本信息和正常图像,并通过随机扰动和 Natural Synthetic Anomalies构造异常图像;接着,使用CLIP的语言编码器和图像编码器分别对预定义的文本和图像进行编码。在第一阶段,使用融合-文本对比损失函数来优化图像适配器AF;在第二阶段,首先冻结图像适配器AF,再使用相同的损失函数来优化文本适配器AG。通过这两个阶段的训练来消除域误差,使得CLIP在面向工业图像时能拥有更加准确的分类性能。总体而言,该工作将视觉-语言模型应用于工业异常检测中,改善了因样本数量稀缺导致的模型精度低的问题。
实验结果
下方的表格展示了所提方法CLIP-FSAC在VisA和Mvtec-AD两个数据集中取得的少样本异常分类结果。可见,在面向这两个数据集时,CLIP-FSAC分别在样本1、样本4和样本1、样本2、样本4取得的分类结果中超过了其他先进方法,验证了其优越性。
原文
Zuo Zuo, Yao Wu, Baoqiang Li, Jiahao Dong, You Zhou, Lei Zhou, Yanyun Qu and Zongze Wu. CLIP-FSAC: Boosting CLIP for Few-Shot Anomaly Classification with Synthetic Anomalies, International Joint Conference on Artificial Intelligence, accepted, Aug. 2024.
参考文献
Reference
[1] Jongheon Jeong, Yang Zou, Taewan Kim, Dongqing Zhang, Avinash Ravichandran, and Onkar Dabeer. WinCLIP: zero-/few-shot anomaly classification and segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19606-19616, 2023.
[2] Chaoqin Huang, Haoyan Guan, Aofan Jiang, Ya Zhang, Michael Spratling, and Yanfeng Wang. Registration based few-shot anomaly detection. In Proceedings of the European Conference on Computer Vision, pages 303-319, 2022.
[3] Jaehyeok Bae, Jaehan Lee, and Seyun Kim. Pni: industrial anomaly detection using position and neighborhood information. In Proceedings of the International Conference on Computer Vision, pages 6373–6383, 2023.
END
素 材 丨 工业视觉与智能系统团队
编 辑 丨 李沛昱