光明实验室泛在感知与空间智能团队最新综述文章：探索具身多模态大模型的发展、数据集与未来方向

发布时间：2025-02-26
作者：光明实验室
浏览：1305次

光明实验室泛在感知与空间智能团队发布最新具身智能综述文章《Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions》。这项具有重要意义的工作深入探讨了具身多模态大模型（Embodied Multimodal Large Models，EMLMs）这一快速发展的研究领域，系统梳理了关键技术进展、核心数据集以及未来研究趋势。作者：Shoubin Chen (陈首彬), Zehao Wu, Kai Zhang , Chunyu Li , Baiyang Zhang , Fei Ma , Fei Richard Yu , Qingquan Li。

摘要

具身多模态大模型通过整合视觉、听觉、触觉等多种感知输入，使人工智能系统能够以更接近人类的方式感知环境、理解信息并进行交互。近年来，随着多模态大模型的发展，具身智能体也有了新的突破。然而，目前尚缺乏对于多模态大模型在具身智能体的应用的综述。因此，为了填补这一空白，该综述对300篇左右研究论文进行了系统的回顾。

主要内容

首先，该综述系统回顾了现有 EMLMs 的发展进程，详细分析了不同模态（视觉，听觉，触觉）在具身智能中的多样化应用及其所带来的优势。

然后，文章从四个关键方面系统回顾了实现具身智能体所需的基本步骤，包括具身感知（embodied perception）、具身导航（embodied navigation）、具身交互（embodied interaction）和仿真（simulation）。这四个环节密切衔接，共同构建了具身智能体的核心能力框架，使机器人和其他智能体能够具备在复杂环境中自主感知、决策与执行任务的能力。

此外，文章强调了高质量数据集在 EMLMs 训练过程中的核心作用，分析了不同模态数据融合、模型效率与泛化性、数据收集方法以及道德与伦理问题等方面仍面临的挑战，并对未来研究方向提出了具有前瞻性的建议。

原文

Shoubin Chen, Zehao Wu, Kai Zhang , Chunyu Li , Baiyang Zhang , Fei Ma , Fei Richard Yu, Qingquan Li. Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions, arXiv:2502.15336. http://arxiv.org/abs/2502.15336

团队简介

光明实验室泛在感知与空间智能团队由中国工程院院士李清泉领衔，致力于从事：

（1）精密定位与自主导航

（2）多场景感知与动态探测

（3）具身智能与协同感知

（4）数据挖掘与空间智能

等方面的工作。长期招聘博士后、全职序列（研究员、副研究员）和研究型实习生，招收优秀硕博研究生。

欢迎联系与交流：chenshoubin@gml.ac.cn。

END

素材来源丨光明实验室泛在感知与空间智能团队

编辑丨李沛昱

审核丨陈首彬李沛昱郭锴

上一篇：科研动态 | 光明实验室生成式大模型团队最新进展：Cappuccino——DeepSeek赋能GUI Agent

下一篇: 科研动态 | 光明实验室生成式大模型团队新进展：自适应循环思考为小模型赋能 —— 小模型推理新路线