科研动态丨光明实验室城市三维创新团队：基于高斯形式 logit 校正的长尾视觉识别

光明实验室城市三维创新团队的研究工作Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition（基于高斯形式logit校正的长尾视觉识别）已发表在人工智能新兴期刊IEEE Transactions on Artificial Intelligence上。第一作者为光明实验室李梦柯副研究员。

主要内容

数据的长尾分布是目前深度学习模型面临的重要挑战之一，因为它造成模型更偏向于对头类的准确识别而忽视了尾类，从而导致尾类的识别准确率极低。现有方法一般通过减少分类器偏差来解决这个问题，前提是使用长尾数据得到的特征具有足够的代表性。然而，我们发现直接在长尾数据上训练会导致特征空间分布严重不均匀，即头部类的特征空间严重压缩了尾类，这对后续分类器的学习不利。因此，本工作从特征层面研究了长尾视觉识别问题，提出利用高斯形式的扰动来增强尾类特征，对不同类别施加不同幅度的高斯形式的扰动。基于这些扰动的特征，提出了两种新颖的logit调整方法，增加的计算开销可忽略不计，模型性能能够得到显著的提升。在基准数据集上进行的大量实验表明，所提出的方法优于现有方法。

该工作推导出两种简单而有效的高斯云logit校正形式：归一化欧几里得距离形式GCL（GCL-E）和角度形式GCL（GCL-A）。这两种形式都优先考虑对尾类施加较大扰动幅度，从而扩展尾类特征空间分布。此外从多种角度分析了方法的原理，为提升模型在长尾数据上的学习能力提供了新视角。在获得平衡的嵌入空间后，通过使用类平衡采样重平衡分类器可以进一步减少分类偏差。

原文

Mengke Li, Yiu-ming Cheung*, Yang Lu, Zhikai Hu, Weichao Lan, Hui Huang: Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition. TAI 2024.

END

素材来源丨光明实验室城市三维创新团队

编辑丨李沛昱