大模型推理加速新进展:光明实验室发布 Nüwa,重塑 VLM 空间感知的 Token 裁剪新框架
  • 发布时间:2026-02-06
  • 作者:光明实验室
  • 浏览:108次

近日,由光明实验室媒体智能团队马飞研究员主导的大模型Token裁剪工作Nüwa被人工智能领域顶级国际会议ICLR接收(作者:Yihong Huang,Fei Ma,Yihua Shao,Jingcai Guo,Zitong Yu,Laizhong Cui,Qi Tian),其他合作单位还包括西安电子科技大学、香港城市大学、大湾区大学、深圳大学、华为等。

Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning
Yihong Huang,Fei Ma,Yihua Shao,Jingcai Guo,Zitong Yu,Laizhong Cui,Qi Tian

背景介绍
视觉语言模型(VLMs)虽然在图文理解上表现出色,但其推理由海量视觉Token驱动,计算开销巨大。现有的视觉Token剪枝技术虽然能有效提升推理速度,且在视觉问答(VQA)任务中表现尚可,但在视觉定位(Visual Grounding, VG)任务上却遭遇了严重的性能滑坡。为了探究这一现象,研究团队深入分析了VLM的处理流水线,发现现有的基于全局语义相似度或注意力分数的剪枝策略,往往破坏了由Token位置信息构建的全局空间参考系(Global Spatial Reference Frame)。为了解决这一痛点,提出了Nüwa——一种空间感知的两阶段Token剪枝框架,成功在保持高压缩率的同时,修复了模型的空间感知能力。

图1:Nüwa在视觉问答(VQA)和视觉生成(VG)任务上效果比较


核心痛点与研究发现
研究团队通过系统性实验,解决了三个核心问题:

  1. 为什么现有剪枝方法在不同任务上表现差异巨大?
  2. 视觉信息是如何在VLM流水线中编码和使用的?
  3. 如何在剪枝设置下“修补”定位性能的裂痕?
图2:不同类型的注意力流


实验表明,VLM的视觉处理在早期阶段具有通用的多模态交互特征,而在中期阶段则根据任务需求(特别是VG任务对视觉信息的高度依赖)表现出显著的分化与适应性。更进一步,研究团队通过两个指标,视觉注意力熵(AVE)和物体中心聚合度(OCC),来揭示了中间层对视觉特征的处理:

图3:分层分析结果


最后,研究团队针对现有方法的裁剪机制做了分析,发现他们在中间层之前的裁剪破坏了视觉信息的全局结构特征。因此研究团队通过简单的位置信息重建进行有损修复,一定程度上提升了在定位任务的性能。

表1:位置信息重建修复结果



Nüwa 框架
研究团队基于之前的实验分析,开发了Nüwa 框架,其采用了独特的两阶段空间感知剪枝(Two-stage Spatial-aware Token Pruning)策略:

图4:Nüwa 框架


在第一阶段,基于群体智能的空间拓扑保留(Vision Encoder层) 在视觉编码器之后,Nüwa 引入了受 Boids(鸟群/群体智能)算法启发的三大操作:分离(Separation)、对齐(Alignment)、聚合(Aggregation),从而在在视觉语义空间中减少冗余并保持空间拓扑。
在第二阶段,当多模态特征对齐进入大语言模型(LLM)后,Nüwa 利用文本语义信息指导进一步的剪枝,精准保留与任务相关的视觉Token。

评测结果
研究团队在LLaVA-1.5、LLaVA-Next、Qwen2.5-VL等多个主流模型上进行了广泛测试,涵盖多个基准数据集。

表2:VQA性能对比(基于LLava-1.5 7B模型)
表3:RefCOCO系列基准测试性能对比(基于LLava-1.5 7B模型)
表4:VQA基准测试性能(基于QwenVL2.5 7B模型)
表5:RefCOCO系列基准测试性能(基于QwenVL2.5 7B模型)
表6:模型效率比较


实验数据表明,Nüwa 取得了令人瞩目的成果:

  1. 在视觉定位(VG)方面,在保留同等数量Token的情况下,VG任务性能从 7% 提升至 47%,部分基准上甚至从 18% 跃升至 75%。
  2. 在视觉问答(VQA)方面, 在10个VQA基准测试中,Nüwa 保持了 95% 的原始性能,优于当前所有高效VLM方法。
  3. 在效率提升方面,实现了 88.9% 的Token减少,推理阶段的 TFLOPs 降低了 89%,Prefill时间减少了 62%。

    未来计划
    Nüwa 的发布并未止步于剪枝技术本身,它揭示了空间完整性在多模态理解中的关键作用。该研究证明,通过合理的空间感知聚合,我们可以在不牺牲模型“空间智商”的前提下,实现极致的推理加速。这将极大地推动VLM在端侧设备、实时交互机器人等资源受限场景中的落地应用。
    目前,Nüwa 的代码已开源:github.com/Man-PaperRej,欢迎社区进一步探索。
    此外,媒体智能团队近期其他大模型与AIGC研究成果还包括Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks Preserving Action Understanding Ability(ICLR 2026)、EmoPrefer: Can Large Language Models Understand Human Emotion Preferences?(ICLR 2026)、A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment(AAAI 2026)、D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies(AAAI 2026)、Universal Visuo-Tactile Video Understanding for Embodied Interaction(NeurIPS 2025)、RoMa: A Robust Model Watermarking Scheme for Protecting IP in Diffusion Models(NeurIPS 2025)等。

    光明实验室媒体智能团队:
    长期致力于以人为中心的多模态内容理解与生成、世界模型等工作,具体包括多模态大模型、数字人及交互生成,及与情感智能的结合等方向。长期招聘研究序列(研究员、副研究员)与研究型实习生,欢迎联系与交流:mafei@gml.ac.cn。