公众号致力于点云处理,SLAM,三维视觉,具身智能,自动驾驶等领域相关内容的干货分享,欢迎各位加入,有兴趣的可联系dianyunpcl@163.com。
文章:CReF: Cross-modal and Recurrent Fusion for Depth-conditioned Humanoid Locomotion
作者:Yuan Hao, Ruiqi Yu, Shixin Luo, Guoteng Zhang, Jun Wu and Qiuguo Zhu
编辑:点云PCL
摘要
过去几年,人形机器人在平地上的行走能力已经越来越成熟,但一旦进入楼梯、碎石、空洞托盘、护栏、反光地面、杂乱户外等复杂场景,很多系统仍然会迅速失效。问题并不一定出在控制器本身,而往往出在“感知”这一层。
很多已有的人形机器人感知行走方案,都依赖于某种中间几何表达,例如高度图、2.5D 栅格地图、局部地形重建,或者通过额外监督让网络去学习坡度、台阶、落脚区域等人工定义的几何信息。这些方法虽然直观,但有一个天然缺陷:它们把真实世界压缩成了有限的几何形式。一旦场景中出现垂直结构、空洞障碍、复杂遮挡、强反光、稀疏支撑点,传统的地形表示方式就容易丢失关键信息,最终导致机器人踩空、绊倒或者策略失效。
最近浙江大学团队提出的 CReF,试图彻底绕开这一问题。它不再要求机器人先把环境转换成高度图或者地形网格,而是直接从原始深度图像中学习“什么地方可以踩、什么地方不能踩、什么时候该调整步态”。

提出的 CReF 框架实现了鲁棒的真实世界人形机器人运动能力,包括连续跨越超过20级楼梯、40厘米高的平台、80厘米宽的间隙,以及真实世界中台阶高度为20厘米、踏步深度为26厘米的楼梯。同时,该方法还能在超出训练地形范围的场景中保持良好的泛化能力。
为什么传统感知行走方法容易失效
在很多经典方案中,深度相机采集到的信息会先经过一系列几何处理:
这些中间表示本质上都是人为定义的“先验”。它们在规则场景中很好用,例如连续楼梯、平缓坡道、规则石块。但现实世界往往比这些抽象复杂得多。例如:
因此,传统方法的问题不是“控制不够强”,而是“感知表达本身丢失了信息”。CReF 的核心思路,就是让模型直接面向原始深度输入,而不是依赖人工设计的几何中间层。
CReF 的主要内容
CReF 的全称是 Cross-modal and Recurrent Fusion,可以理解为“跨模态融合 + 时序记忆”的人形机器人感知控制框架。整个系统的输入主要包括两部分:
传统方法一般会先把深度图转换成几何地图,而 CReF 直接对深度图编码,然后和机器人本体状态进行融合。它的关键不在于“看到了什么”,而在于“当前机器人状态下,应该关注深度图中的哪些区域”。例如:
因此,视觉信息并不是独立处理,而是受到当前身体状态的调制。CReF 使用了一种“本体状态查询视觉特征”的跨模态注意力机制,即机器人先根据自己的运动状态提出“我现在最需要什么信息”,然后再从深度图特征中提取最相关的部分。

CReF框架。所提出的单阶段深度感知策略结合了跨模态注意力、门控残差融合、循环融合以及地形感知落脚点奖励机制,从而实现鲁棒的复杂地形运动能力。
跨模态融合:为什么不是简单拼接特征
很多多模态机器人模型会直接把视觉特征和状态特征拼接在一起,再送入后续网络。但这种做法的问题是:
CReF 没有采用简单拼接,而是引入了“proprioception-queried cross-modal attention”。也就是说,机器人当前的关节状态、身体姿态和运动意图,会作为 Query 去“查询”深度图中的视觉 Token,而视觉特征则作为 Key 和 Value。这意味着,机器人并不是“看完整张图再做决定”,而是在当前动作上下文中,主动寻找与自己最相关的视觉信息。这种设计非常像人在行走时的注意力机制:
相比传统的早期融合或者特征拼接,这种方式能让视觉感知更具有任务相关性。

时序建模:机器人不是只看当前一帧
复杂地形行走还有一个非常关键的问题:仅看当前深度图往往不够。因为很多障碍物会出现:
如果每一步都只依赖当前这一帧图像,机器人很容易出现策略震荡。为了解决这个问题,CReF 在融合之后加入了循环时序模块,即 GRU 和记忆门控机制。网络会保留历史时刻的重要信息,并根据当前状态动态决定:
这样即使当前画面中出现短暂遮挡、深度噪声或者局部信息缺失,机器人依然可以依靠历史上下文保持稳定行走。

落脚奖励设计:不仅要走过去,还要踩得稳
除了网络结构之外,CReF 还有一个非常值得关注的创新点:terrain-aware foothold placement reward。很多强化学习步态策略的奖励函数更关注:
但这些奖励很难直接告诉机器人“脚应该踩在哪里”。CReF 引入了一种基于点云采样的落脚奖励机制。系统会从机器人脚底附近采样局部点云,并寻找真正具有支撑能力的位置,然后鼓励机器人在落脚时尽量接近这些可支撑区域。这意味着机器人不只是“能跨过去”,而是会主动学习:
对于托盘、栏杆、碎石、格栅等场景,这种奖励设计尤其重要,因为这些场景里“能通过”和“能安全落脚”并不是一回事。

CReF泛化能力
CReF 的一个重要亮点是它在真实世界中的泛化能力。作者展示了机器人在以下场景中的零样本迁移能力:
这些场景有一个共同点:传统高度图或者规则几何表示都很难稳定描述。CReF 之所以有效,不是因为它学到了某一种固定障碍物,而是因为它直接从深度图中学习了“哪些视觉模式意味着可通行、哪些意味着危险”。这种思路其实和近年来人形机器人领域的很多趋势一致:
对于未来的人形机器人来说,这类方法可能比单纯提升控制器精度更重要。因为真正限制机器人进入现实世界的,往往不是“腿不够强”,而是“看不懂环境”。

CReF 在多种地形和部署场景中的代表性真实世界运行结果。图中包括带侧边护栏的楼梯通行、门槛与平台式过渡、室外道路以及其他真实世界地形配置。红框标出了由于环境因素导致深度观测超出分布范围的示例,例如感知到的深度图像中存在大面积无效区域。
总结
CReF 代表了一种新的感知行走范式:不再依赖人为定义的地形几何,而是让机器人自己从原始深度图中学习什么是危险、什么是可通行、什么是安全落脚点。从技术角度看,它把跨模态注意力、时序记忆和强化学习奖励设计结合在了一起,解决的不是单纯“走得稳”的问题,而是“在复杂环境下仍然知道该怎么走”。这也是人形机器人真正走向现实世界之前,必须跨过的一道门槛。
以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除