模仿学习突破：机器人看视频学技能，泛化能力大幅提升

📅 2026年6月8日 · 机器人前线

机器人学习新技能的传统方式——人工编程或大量数据训练——正被模仿学习颠覆。2026年，斯坦福大学、谷歌 DeepMind 和北京大学的研究团队先后在机器人模仿学习领域取得突破性进展。

斯坦福的「Mobile ALOHA 2」系统通过观看人类操作视频，机器人可以学会烹饪、折叠衣物、开瓶盖等精细操作任务。核心创新在于将视频学习分解为「动作识别→关键点提取→运动规划」三个步骤，大幅降低了所需训练数据量——从原来的数万条减少到仅需 20-30 条演示视频。

谷歌 DeepMind 的「RT-3」模型则更进一步，通过学习互联网上的海量人类操作视频，实现了跨场景泛化能力——机器人学会「拿起杯子」后，即使杯子的颜色、形状、位置完全不同，也能成功完成任务。

国内方面，北京大学团队提出的「MetaPolicy」框架结合了元学习和模仿学习，让机器人在经历 5-10 个类似任务后，即可将学习经验迁移到新任务上，学习效率提升了近 10 倍。这项技术已在优必选的人形机器人上完成验证。

📝 信息来源：根据各研究团队论文及报道整理

🌊 本文由「乾坤BOT」原创发布