科研动态 | 光明实验室自主机器智能团队具身智能新进展:基于多模态大模型的具身智能操作性研究
  • 发布时间:2024-07-04
  • 作者:光明实验室
  • 浏览:1718次

在最新的科研突破中,光明实验室自主机器智能团队的杰出成果再次受到国际学术界高度认可。该团队提交的论文《LLaKey: Follow My Basic Action Instructions to Your Next Key State》,由赵哲一、贺颖、于非、李鹏腾、卓凡和孙喜龙等研究人员共同撰写,已成功被IEEE/RSJ国际智能机器人与系统会议(IROS 2024)接收。IROS作为全球机器人技术领域内极具规模与影响力的顶级学术会议,其认可度在CSRankings中亦有显著地位。


论文的第一作者赵哲一,目前是光明实验室的二年级研究生,他的这一成就不仅彰显了其个人的学术潜力,也体现了光明实验室在培养下一代科研人才方面的卓越能力。这一论文的录用,无疑将进一步推动具身智能操作性研究的深入发展,为该领域的学术探索与技术创新贡献重要力量。


摘要

在三维物体操作任务中,收集专家数据用于端到端模仿学习已成为主流方法。尽管这些方法取得了一定成功,但先前的研究忽视了语言在动作执行中的指导作用。这些方法缺乏对动作语义的理解,其中多个动作序列由一类指令引导,导致物体语义的过度学习和动作语义的模糊理解。为了解决上述局限性,本研究提出了一个名为LLaKey的新型框架。该框架基于关键状态将技能指令分解为更详细的动作指令,以实现精细化的动作控制。具体而言,LLaKey首先利用预训练大规模模型中编码的知识来微调一个动作指令指挥器。随后,生成的详细指令由下游动作执行模型实施。LLaKey在九个复杂多变的技能任务中显著优于基准方法,相对提升达15%,展示了本研究方法的优越性。


主要内容

在3D物体操作领域,收集专家数据用于端到端模仿学习是一种标准方法。这种方法能够直接从人类专家的演示中学习复杂任务,捕捉细微的操作技巧,且无需明确编程每个动作,从而降低开发难度并适应各种操作环境。然而,尽管这种方法取得了成功,但先前的方法大多采用一类动作指令监督整个任务的执行,导致模型过度关注物体语义信息而忽视动作语义信息的学习,结果对动作语义的理解模糊不清。缺乏动作语义的指导会导致模型无法根据环境的变化有效调整动作,且无法充分利用之前学习到的知识,从而导致性能下降。


为了解决上述问题,具身智能是一种富有前景的解决方案。具身智能将大模型引入到机械臂操作任务中,利用大型语言模型在代码编写、人类语言理解以及工具调用方面的卓越能力,来提升任务执行的效率和灵活性。然而,传统的具身智能方法仍存在一些局限性:通常需要人类预先定义动作API,或编写多种提示(prompt)来指导大模型执行不同的任务操作,又或者依赖具有代码生成能力的大型模型。这些要求不仅增加了系统的复杂性和开发成本,还限制了小型大语言模型在实际应用中的部署和微调。因此,如何使用不具备代码生成能力的小型大语言模型来实现高效的具身智能,成为了待解决的技术难题。


为了解决这些问题,本文提出了一种基于多模态大模型的机器人操作算法“LLaKey: Follow My Basic Action Instructions to Your Next Key State”(LLaKey)整体的算法框架图如图1所示,算法流程图如图2所示,通过将大模型的语言理解和推理能力与模仿学习相结合,实现了可靠的机器人操作过程。该算法具有以下主要特征:


  1. 创新的具身智能算法:本算法利用语言大模型与环境进行交互,实现动作决策的自然语言输出。随后,将这些输出作为新的语言指导,用于指挥下游模仿学习模型执行动作指令,从而推动机械臂操作任务的有效执行。
  2. 任务分解与语义标注:将机械臂操作任务按照关键帧拆解为多个子任务,并为每一个子任务添加动作描述,以提高模型对动作语义的理解。其中,关键帧定义为机械臂加速度为0的时刻,或连续5帧机械臂所有关节速度为0的情况,如图3所示。动作描述由人类专家进行标记。
  3. 增强的动作纠错与连续预测能力:本算法突破性地激发了大模型的动作纠错能力和连续预测能力。与传统具身智能算法相比,本算法确保子任务处于执行下一个子任务的最佳状态,或在必要时返回上一个子任务甚至任务起始位置重新执行,体现了其动作纠错能力。当机械臂位于执行下一个子任务的最佳状态时,算法能够成功预测下一个子任务,展示了其连续预测能力。这两项能力共同保证了机械臂任务的稳定和高效执行。大模型训练样本如图4所示。


图1 LLaKey整体框架图



图2 LLaKey算法流程图



图3 任务指令拆解样例图



图4 大模型微调数据样例图


表1中的多技能部分展示了LLaKey的多技能表现,揭示了本研究的方法比基准方法高出15.5%。此外,“综合预测能力”部分显示了不同数量的输入图像和不同规模的多模态大模型对这两种能力的影响。其中白色代表连续预测能力,灰色代表纠错能力。我们观察到,一个具有13B参数的模型在接收来自不同角度的三张图像作为输入时,在两种能力上的有效性达到了85%。


表1 多任务验证结果以及大模型综合预测能力


本研究对真实世界数据采用与模拟环境中相同的训练方法。对于每个任务的每个操作序列,我们进行了十次重复测试。在玩具操作任务中,涉及提取玩具的动作序列成功率达到100%,而在桌子上的二维拾取和放置操作成功率为60%。在杯子操作任务中,短序列的拾取和放置任务成功率达到80%,而涉及提起和倒置任务的长序列成功率为60%,图5展示了落地实验测试过程图。


图5 算法落地实验图



原文

Zheyi Zhao, Ying He, Fei Yu*, Pengteng Li, Fan Zhuo, Xilong Sun. LLaKey: Follow My Basic Action Instructions to Your Next Key State Conference: 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Current status: Accepted. Submission number: 1897.


参考文献

[1] Homanga Bharadhwaj, Jay Vakil, Mohit Sharma, Abhinav Gupta, Shubham Tulsiani, and Vikash Kumar. Roboagent: Generalization and efficiency in robot manipulation via semantic augmentations and action chunking. arXiv preprint arXiv:2309.01918, 2023.


[2] Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, et al. RT-1: Robotics transformer for real-world control at scale. arXiv preprint arXiv:2212.06817, 2022.


[3] Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, and Dieter Fox. RVT: Robotic view transformer for 3d object manipulation. arXiv preprint arXiv:2306.14896, 2023.


[4] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744, 2022.


[5] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. GPT-4 Technical Report. arXiv preprint arXiv:2303.08774, 2023.



END

素 材 丨 光明实验室自主机器智能团队

编 辑 丨 李沛昱