搜狗9
关闭广告

四足机器人首次同时「思考+走路」,北大提出链式推理MobileVLA-R1

新智元1455人阅读


新智元报道

编辑:LRST

【新智元导读】在「大模型+机器人」的浪潮中,让机器人「听懂人话」已经不难,真正难的是——既要听得懂,还要走得对、走得稳。北京大学最新工作MobileVLA-R1把大模型的「链式思考(Chain-of-Thought)」真正搬进了四足机器人,在VLN导航仿真和真实Unitree Go2实验中,对标GPT-4o、NaVILA等强基线,在成功率和路径效率上实现全线提升,向「既会想、又会走」的具身智能迈出关键一步。

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实。但一旦落地到四足机器人上,两大老问题依然突出:

  • 语义和控制断层模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;

  • 决策黑盒,难以纠错大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管。

简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。


论文链接:https://arxiv.org/pdf/2511.17889

项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1

项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/


MobileVLA-R1 总体架构。模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT,把一条任务轨迹拆成

  • 「去哪、做什么」的高层目标,

  • 「从哪绕、先避什么」的中层规划,

  • 以及「当前是加速、转向还是减速等待」的低层意图;

Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令,驱动四足机器人沿着右侧示例中那样的路径完成任务。

这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。


MobileVLA-R1在真实室内环境中的三段示例任务。从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前。上方展示第三人称轨迹叠加,下方为相应视频片段。

CoT+强化学习

把「说得对」变成「走得好」

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」。

第一步:监督阶段(SFT)

先把「内心独白」造出来。

如下左图所示,研究人员构建了多粒度的MobileVLA-CoT 数据引擎

  • 既有面向单步控制的Step-CoT,也有覆盖整条任务轨迹的Episode-CoT / Nav-CoT

  • 输入同时包含RGB–Depth视觉、导航轨迹和指令文本,再交给Gemini-2.5生成结构化的 … … 链式推理;

  • 通过半自动校验,确保每一步「想法」都和动作、轨迹对得上。

在这一阶段,模型通过监督微调学会像人一样分步思考、拆解任务,也就是先学会「说得对」。


MobileVLA-CoT数据引擎。通过导航数据、Step/Episode级别视觉输入和结构化Prompt,借助Gemini-2.5生成多粒度链式推理标注。

第二步:强化阶段(GRPO 风格)

再把「想得清楚」变成「走得漂亮」。

研究人员在CoT之上构建了一条GRPO强化学习流水线

  • 对同一条指令,策略模型一次性生成多条 CoT + 动作方案;设计了三类奖励:

  • Movement Reward:速度、转向等连续控制是否接近专家轨迹;

  • Action Reward:离散动作选择是否正确;

  • Format Reward:是否严格遵守 / 结构,保证推理可解析;

  • 综合奖励和KL约束,只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做奖励,MobileVLA-R1的优化目标直接对齐到真实轨迹与动作质量,真正把「大模型式慢思考」压进了四足机器人的行走行为中。


MobileVLA-R1的强化学习流水线。策略模型针对同一指令生成多条CoT+动作方案,结合Movement / Action / Format三类奖励和KL约束进行GRPO更新。

从VLN仿真到真实Go2

对标GPT-4o、NaVILA全面超越

在实验上,MobileVLA-R1覆盖了从仿真到真实机器狗的完整评估链路:

VLN-CE R2R-CE、RxR-CE等经典 Vision-and-Language Navigation 基准上,在「未见环境」下的成功率(SR)、路径效率(SPL)均显著高于现有导航模型和 VLA 基线;


在四足控制基准QUARD六大任务上,MobileVLA-R1将平均成功率提升至0.73,在「穿越狭窄区域、复杂绕障、货物卸载」等高难度任务上依然保持稳定;


在真实平台Unitree Go2上,研究人员将MobileVLA-R1部署在Jetson Orin机载计算平台上,结合L2 LiDAR+RGB-D摄像头+3D地图的多模态感知,在室外街道、室内走廊等典型场景中执行长时语言指令(如「绕开垃圾桶到门口停下」「找到黑色自行车并趴在旁边」),对比GPT-4o、NaVILA,在简单与复杂长指令下都取得更高完成率和更低导航误差。


下方两个demo分别展示了MobileVLA-R1 在室内Corridor场景和室外Outdoor场景中执行长时语言指令时的真实表现。

视频 1:室内 demo

MobileVLA-R1根据指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真实室内走廊中完成多模态感知(RGB/ Depth / 3D 点云)–链式推理–连续控制的完整闭环:自主前进、识别纸箱、在目标前精确停下并执行最终动作。

视频 2:室外demo

MobileVLA-R1 根据指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真实户外场景中完成上台阶、直行、定点停下、下台阶等连续动作,结合 RGB、深度和点云信息实现稳定的路径规划与地形适应能力。

如下图和上方视频所示,MobileVLA-R1能在真实环境中将视觉、深度和地图信息统一到同一推理链路中,一边「内心独白式」规划路径,一边稳定完成导航与避障。


MobileVLA-R1在Unitree Go2上的真实部署示意。左:机载Jetson Orin+LiDAR + RGB-D摄像头的硬件与部署流程;右:在室外街道、室内走廊等场景中执行长时语言指令时的逐步视觉 / 深度 / 地图可视化。

具身智能迈向

解释得清、走得稳、可持续优化

相比现有VLA,MobileVLA-R1的意义不只在于多了几分成功率,而是在于构建了一个更具「工程可用性」的范式:

  • 可解释:每个动作前都有清晰的CoT,方便线上排查和安全审计;

  • 可优化:可以直接在CoT + 轨迹层面设计新的奖励与人类偏好反馈;

  • 可扩展:天然可以与3D-R1、3D CoCa等3D场景理解模型、长期记忆模块结合,走向更大尺度的具身智能系统。


结语

从一条走廊,到更大的世界

当我们看着一只四足机器人,在拥挤的走廊里绕开行人、玻璃门和随机放置的障碍物,听懂「帮我把快递送到前台,再自己回充电桩」这样的指令,并稳稳完成任务时,

我们看到的不只是单个模型的性能提升,而是具身智能的一次范式升级

MobileVLA-R1告诉我们:

只要把「看懂世界」「想清路径」「走好每一步」真正连成一条可学习、可强化的链,机器人距离真正的「聪明可靠」就不再那么遥远。

参考资料:

https://arxiv.org/pdf/2511.17889

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

纳斯达克称申请将工作日交易时长延长至23小时

财联社 浏览 1332

法拉第未来 Super One 迈入批量试制及生产阶段

IT之家 浏览 1580

胡歌现身为电影宣传,现场人山人海全场欢呼,胡歌照顾后辈好暖心

扒虾侃娱 浏览 1630

智己LS8官图发布:5米车长增程动力 理想L8怕了吗

大李说车 浏览 906

重马一跑者倒地去世 跑友:他在跑圈被称为"破三大神"

红星新闻 浏览 3540

智能座舱也能“深度思考”?荣威M7 DMH做到了

IT之家 浏览 1588

事实证明,被向太“戳破”婚变的窦骁,早就找好了退路

温柔娱公子 浏览 1831

礼来下调Zepbound减肥药现金价格,最低至每月299美元,股价下挫1%

华尔街见闻官方 浏览 1398

董明珠的言语经常惹争议,但是她做的事为何都做对了?

BT财经 浏览 914

大衣,白色的更优雅不凡!

Yuki女人故事 浏览 868

中国核聚变技术获国际原子能机构肯定,“环流三号”亮相聚变能国际大会

上观新闻 浏览 1893

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 4074

运营商 AT&T“人人免费得 iPhone 16 Pro”广告被裁定为虚假宣传

IT之家 浏览 1695

美国脱口秀主持人讽刺特朗普:他演都不演了

环球网资讯 浏览 4040

伊姐周六热推:电视剧《亦舞之城》;电视剧《时差一万公里》......

伊周潮流 浏览 1303

特斯拉撞树后打不开车门 5人被困燃烧的车内身亡

每日经济新闻 浏览 1661

埃尔多安专机在空中一直盘旋 确认以总理不参会才降落

红星新闻 浏览 8578

美军打击“箭在弦上” 伊朗有哪些应对手段?

澎湃新闻 浏览 907

Intel大小核根本停不下来!甚至要做“统一核心”

快科技 浏览 607

13.99万元起 深度解读深蓝L06三大黑科技

第五冲程 浏览 1751

徐峥这一出手,若不出意外,这部耗资7亿的大片估计得“封神”

娱乐圈笔娱君 浏览 881
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1