科研动态丨光明实验室城市三维创新团队:基于高斯形式 logit 校正的长尾视觉识别
  • 发布时间:2024-05-31
  • 作者:光明实验室
  • 浏览:1903次


动图

光明实验室城市三维创新团队的研究工作Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition(基于高斯形式logit校正的长尾视觉识别)已发表在人工智能新兴期刊IEEE Transactions on Artificial Intelligence上。第一作者为光明实验室李梦柯副研究员。


主要内容

数据的长尾分布是目前深度学习模型面临的重要挑战之一,因为它造成模型更偏向于对头类的准确识别而忽视了尾类,从而导致尾类的识别准确率极低。现有方法一般通过减少分类器偏差来解决这个问题,前提是使用长尾数据得到的特征具有足够的代表性。然而,我们发现直接在长尾数据上训练会导致特征空间分布严重不均匀,即头部类的特征空间严重压缩了尾类,这对后续分类器的学习不利。因此,本工作从特征层面研究了长尾视觉识别问题,提出利用高斯形式的扰动来增强尾类特征,对不同类别施加不同幅度的高斯形式的扰动。基于这些扰动的特征,提出了两种新颖的logit调整方法,增加的计算开销可忽略不计,模型性能能够得到显著的提升。在基准数据集上进行的大量实验表明,所提出的方法优于现有方法。

该工作推导出两种简单而有效的高斯云logit校正形式:归一化欧几里得距离形式GCL(GCL-E)和角度形式GCL(GCL-A)。这两种形式都优先考虑对尾类施加较大扰动幅度,从而扩展尾类特征空间分布。此外从多种角度分析了方法的原理,为提升模型在长尾数据上的学习能力提供了新视角。在获得平衡的嵌入空间后,通过使用类平衡采样重平衡分类器可以进一步减少分类偏差。


原文

Mengke Li, Yiu-ming Cheung*, Yang Lu, Zhikai Hu, Weichao Lan, Hui Huang: Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition. TAI 2024.


特征空间校准动机


真实数据特征空间可视化


不同方法头类和尾类之间的决策边界比较


END


素材来源 丨光明实验室城市三维创新团队

编 辑 丨 李沛昱