佰感交融   机智过人

  • 首页
    • 1F 热销产品
    • 2F 机器人相关产品
    • 3F 传感器相关产品
    • 4F 测量工具和运动控制
    • 5F 工业耗材
    • 6F 特价处理
  • 关于我们
    • 公司简介
    • 理念文化
    • 合作品牌
  • 产品中心
    • 机器人相关产品
    • 传感器相关产品
    • 测量工具和运动控制
    • 工业耗材
  • 新闻动态
    • 公司新闻
    • 行业动态
    • 视频中心
    • 资料百科
    • 解决方案
  • 联系我们
  • 商城入口
  • 끅
    • 客服电话

    • 010-62360224
    • 18001131966
    • 联系邮箱
    • sales@cnbestec.com
  • 뀩
    • QQ客服
  • 뀥
    • 服务时间

    • 周一至周五 9:30-18:30
  • 낃
    • 微信二维码

  • 녕
  • 简体中文
  • English
끠
  • 机器人
  • 夹爪
  • 传感器
  • 机器视觉
  • 运动控制
  • 机器人工具
  • 安全产品
  • 电气耗材
  • 测量工具

VidBot:让Stretch3机器人看视频就能学动作,零样本执行成现实

在机器人技术的发展历程中,如何让机器人高效学会执行各类复杂动作,一直是科研人员探索的关键课题。

 

近期,一项名为 VidBot 的技术“横空出世”,为该领域带来了突破性进展。它实现了机器人直接从视频学习生成执行动作,为机器人的智能化发展开辟了新路径。

 

引言:机器人如何像人类一样学习?​​

想象一下,如果机器人能够像人类一样通过观看视频学习新技能,那将是多么高效和便捷!

传统的机器人训练需要大量人工演示和编程,成本高且难以规模化。然而,慕尼黑工业大学、苏黎世联邦理工与微软的最新研究 ​​VidBot​​ 提出了一种创新方法:​​

机器人仅需观看人类日常视频,就能学会执行复杂的操作任务​​,无需人工训练或机器人专用演示。

 

传统困境与 VidBot 的创新突破

传统机器人学习执行动作的方式,往往依赖大量真实世界数据或仿真训练。收集这些数据不仅耗费大量人力、物力,而且针对不同硬件形态的机器人,还需单独进行训练,这无疑极大地限制了机器人技术的推广与应用。

VidBot 则另辟蹊径,它能从自然单目 RGB 人类视频中学习三维空间表征(3D affordance),构建起一个零样本机器人操作框架。

简单来说,就是机器人无需针对特定任务进行复杂的前期训练,就能依据视频中的人类动作,直接执行相应操作。其技术核心在于通过精妙的算法,从视频里提取出 3D 手部轨迹,再利用独特的学习模型,将这些轨迹转化为机器人可执行的动作指令。

 

 

 

VidBot的核心技术:从视频到机器人动作​​

​​1. 从2D视频提取3D动作​​

VidBot的核心创新在于​​从单目RGB视频中提取3D手部轨迹​​,并结合​​深度估计模型(如Depth Anything)和运动恢复结构(SfM)技术​​,重建出​​时序一致、度量尺度的三维空间表征(3D affordance)​​。

  • 3D手部轨迹提取​​:VidBot利用​​SfM优化相机位姿​​,并结合​​手-物检测模型​​(如Segment Anything)分割手和物体,最终生成​​3D交互轨迹​​。
  • Affordance学习​​:机器人不仅能识别“接触点”,还能预测“目标点”和​​完整的交互路径​​,例如“如何打开抽屉”或“如何拿起水壶”。

 

 

2. 从粗到细的动作生成​​

VidBot 采用“两阶段学习模型”​​:

  1. ​​粗预测(Coarse Prediction)​​:识别​​接触点和目标点​​(如“抽屉把手”和“拉开方向”)。
  2. ​​细预测(Fine Prediction)​​:利用​​扩散模型(Diffusion Model)​​生成​​平滑的3D轨迹​​,并结合​​测试时刻约束​​(如避障、多目标优化)确保动作合理。

 

实验结果:零样本泛化能力惊人!​​

VidBot在​​13个日常操作任务​​(如开橱柜、推抽屉、拿水壶)上进行了测试,​​成功率高达88.2%​​,远超现有方法(如VRB、GAPartNet)。在​​Hello Robot Stretch3(7DOF开源移动操作机器人)​​上,VidBot成功执行了​​推拉、抓取、开关​​等任务,成功率80%以上。

 

 

VidBot 的实际应用大放异彩

家庭服务领域

在家庭场景中,移动操作机器人的需求持续增长。Hello Robot Stretch3搭载VidBot技术后,能通过观看人类日常动作视频,快速模仿执行开橱柜、推抽屉等任务。例如在厨房场景中,它可精准识别目标位置,规划运动路径完成取物操作,为家庭生活增添便利。

教育科研场景

7DOF 开源移动操作机器人(如Stretch3)结合VidBot技术,能成为教育科研的得力工具。科研人员可通过视频让其掌握实验流程,学生则能直观观察机器人的学习过程,加深对编程与运动控制的理解,激发对机器人技术的探索兴趣。

结语与展望

VidBot的技术突破,让机器人通过视频学习技能成为可能,而Hello Robot Stretch3作为适配该技术的移动操作机器人,在家庭服务、教育科研等场景中展现出显著优势。

 

随着技术迭代和Hello Robot 移动操作机器人Stretch 3的广泛社区支持,在未来Stretch3有望更深度融入多元场景,为用户带来更智能的体验。

 

 

【版权声明】

本文部分技术内容及数据援引自论文《VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation》(arXiv:2503.07135v2)。项目网站:https://hanzhic.github.io/vidbot-project/ 

创建时间:2025-07-28 17:28
넶浏览量:0
끄收藏
ꄴ前一篇: 无
ꄲ后一篇: 无

新闻动态

NEWS INFORMATION

  • 公司新闻
  • 行业动态
  • 视频中心
  • 资料百科
  • 解决方案
首页  ꄲ  VidBot:让Stretch3机器人看视频就能学动作,零样本执行成现实

业务咨询:010-62360224/18001131966

商务合作:sales@cnbestec.com

简历投递:sales@cnbestec.com

公司地址:北京市海淀区北太平庄路25号北京豪威大厦108A

  • 首页
  • 关于我们
  • 产品中心
  • 新闻动态
  • 视频中心
  • 联系我们
  • 商城入口
  • 资料百科
  • 解决方案

扫二维码

关注欣佰特科技

为您提供先进产品,前沿科技 

 

 

 

微信公众号

微信视频号

百家号

去逛我们的首页

京ICP备14006604号-3

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6