光明实验室泛在感知与空间智能团队最新综述文章:探索具身多模态大模型的发展、数据集与未来方向
  • 发布时间:2025-02-26
  • 作者:光明实验室
  • 浏览:366次

光明实验室泛在感知与空间智能团队发布最新具身智能综述文章《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》。这项具有重要意义的工作深入探讨了具身多模态大模型(Embodied Multimodal Large Models,EMLMs)这一快速发展的研究领域,系统梳理了关键技术进展、核心数据集以及未来研究趋势。作者:Shoubin Chen (陈首彬), Zehao Wu, Kai Zhang , Chunyu Li , Baiyang Zhang , Fei Ma , Fei Richard Yu , Qingquan Li。


摘要

具身多模态大模型通过整合视觉、听觉、触觉等多种感知输入,使人工智能系统能够以更接近人类的方式感知环境、理解信息并进行交互。近年来,随着多模态大模型的发展,具身智能体也有了新的突破。然而,目前尚缺乏对于多模态大模型在具身智能体的应用的综述。因此,为了填补这一空白,该综述对300篇左右研究论文进行了系统的回顾。


主要内容

首先,该综述系统回顾了现有 EMLMs 的发展进程,详细分析了不同模态(视觉,听觉,触觉)在具身智能中的多样化应用及其所带来的优势。

EMLMs 的发展进程


然后,文章从四个关键方面系统回顾了实现具身智能体所需的基本步骤,包括具身感知(embodied perception)、具身导航(embodied navigation)、具身交互(embodied interaction)和仿真(simulation)。这四个环节密切衔接,共同构建了具身智能体的核心能力框架,使机器人和其他智能体能够具备在复杂环境中自主感知、决策与执行任务的能力。

实现具身智能体所需的基本步骤


此外,文章强调了高质量数据集在 EMLMs 训练过程中的核心作用,分析了不同模态数据融合、模型效率与泛化性、数据收集方法以及道德与伦理问题等方面仍面临的挑战,并对未来研究方向提出了具有前瞻性的建议。



原文

Shoubin Chen, Zehao Wu, Kai Zhang , Chunyu Li , Baiyang Zhang , Fei Ma , Fei Richard Yu, Qingquan Li. Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions, arXiv:2502.15336. arxiv.org/abs/2502.1533


团队简介

光明实验室泛在感知与空间智能团队由中国工程院院士李清泉领衔,致力于从事:

(1)精密定位与自主导航

(2)多场景感知与动态探测

(3)具身智能与协同感知

(4)数据挖掘与空间智能

等方面的工作。长期招聘博士后、全职序列(研究员、副研究员)和研究型实习生,招收优秀硕博研究生。

欢迎联系与交流:chenshoubin@gml.ac.cn。


END

素材来源 丨光明实验室泛在感知与空间智能团队

编 辑 丨 李沛昱

审 核 丨 陈首彬 李沛昱 郭 锴