发布时间:2025-04-17
作者:光明实验室
浏览:80次
光明实验室在多模态大语言模型应用于事件流理解的研究中取得了突破性进展!研究团队依托国产昇腾算力平台,率先提出了EventGPT——首个专门针对事件数据流理解设计的多模态大语言模型。该模型通过创新的三阶段训练流程,在针对极端光照变化和高速运动等复杂场景的理解方面显著提升了性能,从而为复杂场景的理解提供了高效的解决方案,推动了跨模态对齐研究的发展。
该项工作已被国际计算机视觉会议CVPR 2025接收。该研究首次将Event Camera与语言模型结合,受到了学术界同行的广泛关注,如收到事件相机领域著名学者苏黎世大学机器人与感知实验室主任Davide Scaramuzza(2023年IROS最佳论文奖、2022年IEEE机器人与自动化快报最佳论文奖、2018年IEEE机器人学报最佳论文奖等获得者)的合作邮件,并被美国著名AI开发平台Prompt Layer以“EventGPT: Giving AI The Power Of Superhuman Vision”为题专题报道。
EventGPT:开创多模态大语言模型在事件数据流场景理解中的应用
针对现有多模态大语言模型在处理事件流理解中的局限性,光明实验室研究团队提出了EventGPT,一种专门为事件数据流理解设计的多模态大语言模型。该模型通过结合事件编码器、时空聚合器、线性投影器、事件-语言适配器以及大语言模型,采用三阶段优化范式,从而逐步实现事件特征与语言空间的对齐。在第一阶段,研究团队利用来自LLaVA的图像-文本数据对模型进行预热,初步建立场景与语言之间的联系;在第二阶段,重点训练时空聚合器和事件-语言适配器,从而将事件帧的时空信息映射到语言空间;最后,通过大规模自采集的事件-文本数据集进行微调来提升模型的泛化能力。在实验中,EventGPT在极端光照变化和高速运动等复杂场景下,展现出比现有多模态大语言模型更强的鲁棒性和更高的场景理解能力,能够精准识别关键场景细节并进行有效推理,充分验证了其在事件场景理解中的卓越性能。
此研究成果不仅展现了国产算力在事件流理解任务中的强大潜力,也进一步推动了多模态大语言模型在复杂场景理解中的应用,从而为智能视频分析、自动驾驶等领域提供坚实的技术支撑。
该工作得到了于非院士的指导和支持。团队成员包括光明实验室研究员李明、特聘副研究员许刚。光明实验室工程师尤联忠提供了技术支持。
END
素材来源 丨光明实验室智绘空间团队
编 辑 丨 李沛昱
审 核 丨 许 刚 李沛昱 郭 锴