国产算力赋能,光明实验室发布基于DeepSeek多模态版本的具身智能导航系统DeepSeek-Nav,机械狗导航再上新台阶
  • 发布时间:2025-02-27
  • 作者:光明实验室
  • 浏览:358次

DeepSeek作为国产AI领域的重要力量,其多模态模型DeepSeek Align-DS-V在多模态理解与生成方面表现出色。多模态训练之后,模型不仅在文本模态任务上的表现有所提升,在科学任务、复杂推理、数学代码等方面的表现亦均有提升,在部分视觉理解表现评测集上超越GPT-4o。此次光明实验室将其应用于具身智能导航系统,充分发挥了DeepSeek Align-DS-V 的技术优势,结合国产算力的强大支持,使得DeepSeek-Nav导航系统在复杂环境下的感知、决策和路径规划能力大幅提升。


DeepSeek Align-DS-V在DeepSeek R1开源的基础之上,基于框架Align-anything,将纯文本模态的Deepseek R1系列模型拓展至了图文模态,提升了系统的扩展性和灵活性。此外,国产算力的赋能为该导航系统提供了强大的计算支持,使其在实时性、准确性和稳定性方面均达到了新的高度。

图1 DeepSeek-Nav导航框架


DeepSeek-Nav在技术实现上,首先根据观测进行开放物体检测,利用DeepSeek Align-DS-V模型的跨模态穿透特性,得到实时观测的物体,并更新物体之间、房间之间与物体和房间之间的关系,生成以物体和房间为节点(如"厨房"、"转角储物柜")的层级式拓扑地图,地图中的边表示两者之间的关系。与传统的SLAM(即时定位与地图构建)技术相比,这种层级式的拓扑地图突破了仅仅依赖几何信息的限制。它不仅能够记录环境的静态特征,还能够通过持续更新来反映环境的变化,如新物体的出现或旧物体的消失。这种能力使得系统能够支持长期的环境记忆,即使环境发生了显著的变化,系统也能够迅速适应并更新其地图‌。DeepSeek-Nav作为导航模块,充分利用了这种结构化表示的优势。它不仅能够根据场景拓扑地图规划出最优的导航路径,还能够结合当前的观测信息和用户的命令来实时调整导航策略。例如,如果用户要求前往“转角储物柜”拿取某物,DeepSeek-Nav会首先根据拓扑地图确定大致的导航方向,然后在接近目标时利用实时的视觉信息来精确定位储物柜的位置。

我们在真实环境中验证了机械狗多楼层导航任务。当给机械狗下发到达指定楼层的任务时,系统会通过图片和文字输入将当前环境观测和任务信息传递至服务器。模型能够准确理解任务需求,并根据实时感知的环境信息,为机械狗下发精确的执行动作指令。


具体过程:

首先,机械狗通过 RGB 传感器为DeepSeek-Nav模型提供场景图片,模型则像人类一样通过图片理解场景,理解对应指令,并执行相关动作,使机械狗可以从起始点移动到目标点。

动图封面
动图封面
图2 & 图3 机械狗导航到电梯间并按下按钮进入电梯


在导航过程中,机械狗会遇到未开启的门,模型通过实时场景图片给机械狗下发等待指令,当门打开后,结束等待继续前进。到达电梯间后,通过模型的判断,机械狗可以确定按哪个按钮。按下按钮后,模型判断电梯门是否开启,若开启则进入电梯到达指定楼层,实现机械狗自主探索多楼层建筑。

图4 DeepSeek Align-DS-V对自动门的判断


图5 DeepSeek Align-DS-V 根据图片中提供的楼层信息下发需要点击的按钮


综上所述,利用DeepSeek Align-DS-V的多模态功能和DeepSeek-Nav的智能导航模块,我们可以实现一个高效、智能且灵活的开放物体检测与导航系统。这一系统不仅能够为用户提供精准的导航服务,还能够通过持续学习和更新来适应不断变化的环境。此次成果不仅展示了国产算力在 AI 领域的巨大潜力,也为具身智能技术的落地应用提供了有力支撑。未来,光明实验室将继续深耕 AI 技术,推动国产算力与更多前沿技术的深度融合,助力具身智能系统在更多场景中实现高效、精准的运行。


该工作得到了李清泉院士和于非院士的指导和支持,团队成员包括尹鹏帅老师,陈首彬老师和工程师尤联忠,研究生梁文生、吴泽昊。



END

素 材 丨 光明实验室自主机器智能团队

光明实验室泛在感知与空间智能团队

编 辑 丨 李沛昱

审 核 丨 尹鹏帅 陈首彬 李沛昱 郭 锴