佰感交融 机智过人
仅用三视角图像完成语言导航?Fast-SmartWay+Hello Robot机器人展示具身智能新范式
在具身智能(Embodied AI)快速发展的今天,如何让机器人在未知环境中仅凭自然语言指令完成导航任务,仍是极具挑战的研究方向。近期,来自阿德莱德大学澳大利亚机器学习研究所与瑞士洛桑联邦理工学院(EPFL)CREATE Lab 的研究团队提出了一种名为 Fast-SmartWay 的全新端到端零样本视觉语言导航(VLN-CE)框架,显著提升了导航效率与鲁棒性,并成功部署于 Hello Robot 移动操作机器人平台。
传统视觉语言导航方法通常依赖360度全景图像输入,并采用“航点预测器+导航决策”的两阶段流程。这类方法不仅感知耗时长、计算开销大,且难以适配仅配备前视摄像头的紧凑型机器人。Fast-SmartWay 则彻底摒弃了全景观测与中间航点模块,仅使用三个前向RGB-D图像(左、中、右30度视角),通过多模态大语言模型(MLLM)直接输出转向角度与前进距离,实现真正意义上的端到端推理。


为增强决策可靠性,该研究还引入了“不确定性感知推理”机制,包含两个核心组件:一是消歧模块,可在指令模糊或环境冲突时触发全景重规划;二是未来-过去双向推理(FPBR),通过模拟未来观察并回溯历史决策,确保路径规划的全局一致性。实验表明,在R2R-CE仿真基准上,Fast-SmartWay 在成功率(SR)和路径加权成功率(SPL)等关键指标上优于多个基于全景输入的零样本基线。
更值得关注的是其在真实机器人上的表现。研究团队将系统部署于 Hello Robot移动操作机器人 平台,搭载Intel RealSense D435i RGB-D相机。结果显示,相比依赖全景观测的SmartWay方法,Fast-SmartWay 将单步总延迟从29.25秒大幅降低至12.39秒,同时将真实环境中的导航成功率提升至36%,导航误差降至2.78米。这充分验证了该方法在资源受限、动态变化的真实场景中的实用性。


Hello Robot具身智能平台 凭借其开源架构、灵活的移动-操作一体化设计以及良好的传感器兼容性,成为验证前沿AI算法的理想载体。此次Fast-SmartWay的成功部署,再次凸显了 Stretch3移动操作机器人 作为科研平台在具身智能、人机交互、自主导航等领域的强大支撑能力。其模块化设计允许研究者快速集成新型感知、规划与控制策略,加速从仿真到现实的迁移验证。
随着多模态大模型与具身智能的深度融合,像 Hello Robot 这样的通用移动操作平台正成为连接基础研究与实际应用的关键桥梁。Fast-SmartWay 的工作不仅为高效、鲁棒的零样本导航提供了新思路,也为未来家庭服务、仓储物流、医疗辅助等场景中的智能体部署铺平了道路。

素材来源:
Shi, X., Li, Z., Qiao, Y., & Wu, Q. (2025). Fast-SmartWay: Panoramic-Free End-to-End Zero-Shot Vision-and-Language Navigation. arXiv preprint arXiv:2511.00933v1.
