🏠 首页 > 机器人前线 > 阿里Qwen-Robot

三连发!阿里发布首个具身大模型Qwen-Robot系列,VLA+VLN+世界模型三位一体

📅 2026年6月17日 · 机器人前线 · ⏱ 约11分钟

2026年6月16日,阿里巴巴正式发布了千问(Qwen)家族的首个具身智能大模型系列——Qwen-Robot。这不是一个模型,而是一个包含三大模型的完整体系:Qwen-RobotManip(VLA操作模型)、Qwen-RobotNav(VLN导航模型)和Qwen-RobotWorld(世界模型)。三个模型既可单独部署,也能协同运转,为不同形态的机器人迈向真实落地提供了"通用底座"。

一、Qwen-RobotManip:80维统一动作表征的VLA操作模型

作为Qwen-Robot系列的核心成员,Qwen-RobotManip是一款视觉-语言-动作(VLA)大模型,采用80维统一动作表征,基于超过38000小时的机器人操作语料进行预训练。最具说服力的是,全程仅使用了开源数据,没有依赖任何私有数据集——这在中国具身智能行业中尚属首次。

在RoboChallenge Table30 v1真机测评中,Qwen-RobotManip的"Lira"和"Atlas"两个版本包揽了前两名。测评任务涵盖了拧水龙头、插网线、双臂倒薯条等一系列日常操作场景,充分验证了模型在真实物理环境中的泛化能力。特别是双臂倒薯条任务,要求机器人在动态协调双臂的同时精准控制力度和角度——这在此前的VLA模型中一直是公认的难点。

阿里选择的80维动作表征方案值得行业关注。目前行业内对VLA的动作表征维度尚未形成统一标准,从6维到256维的方案都有尝试。80维的折中方案既能提供足够的自由度表达精细操作,又不会因维度太高导致训练收敛困难。这一技术选择反映了阿里在具身智能领域的务实风格——不求参数最大,但求效果最优。

二、Qwen-RobotNav:从"看见"到"走到"的自主导航

如果说Qwen-RobotManip解决了机器人"手"的问题,那么Qwen-RobotNav解决的就是"脚"的问题。Qwen-RobotNav是视觉-语言导航(VLN)模型,负责让机器人在陌生环境中实现自主导航与路径规划。

传统导航方法依赖于预先构建的高精度地图,一旦环境发生变化,机器人就会"迷路"。Qwen-RobotNav采用VLN范式,让机器人通过视觉感知和自然语言指令的融合来理解环境,实时规划路径。这意味着机器人不再需要"记住"地图,而是像人类一样"看懂"环境。在一个从未到过的房间里,只需听到"去厨房拿一瓶水",机器人就能自主识别厨房的位置、规划最优路径并避开沿途障碍物。

阿里巴巴在电子商务物流场景中已经对该模型进行了初步验证。在仓库环境中,Qwen-RobotNav能够根据语音指令在数百平方米的区域内找到指定货架,平均路径规划时间较传统SLAM方法提升了40%以上。

三、Qwen-RobotWorld:理解物理规律的世界模型

Qwen-Robot系列中最具前瞻性的或许是Qwen-RobotWorld——一个专门为机器人设计的世界模型。如果说VLA模型教会了机器人"怎么做",VLN模型教会了机器人"去哪里",那么世界模型教会了机器人"如果……会怎样"。

Qwen-RobotWorld的核心能力是理解物理规律并预测环境变化。当机器人拿起一个杯子时,世界模型能够预判杯子的重量、摩擦力以及万一脱手后的运动轨迹。这种"物理直觉"是机器人从"机械执行"迈向"智能决策"的关键能力。在实验中,搭载Qwen-RobotWorld的机器人在面对未见过的新物体时,成功操作率比未搭载世界模型的版本提高了62%。

阿里的世界模型采用了"多模态统一预测"架构,将视觉、触觉、力觉等多种感知信号统一编码,在统一框架下预测物理世界的状态演化。该模型在多个公开物理推理基准测试中取得了领先成绩,包括Physion和UniSim等国际公认的评估标准。

四、三位一体:从"能力孤岛"到"通用底座"

Qwen-Robot系列最精妙的设计并非单个模型的能力,而是三者之间的协同机制。三个模型共享底层视觉编码器,但在各自的解码端保留了独立的任务专家模块。当机器人需要执行"去客厅把桌上的苹果拿过来"这样的复合指令时,Qwen-RobotNav解析指令中的目的地信息并规划路径,Qwen-RobotManip负责在到达后执行抓取操作,而Qwen-RobotWorld则在全过程中持续预测环境变化并实时调整策略。

这种"通专结合"的架构设计在行业内有其独到之处。相比端到端的"大一统"模型方案,阿里选择了"共享认知底座+独立任务专家"的模块化路径,既保证了多任务之间的认知一致性,又避免了单一模型在多任务之间的"能力稀释"问题。

五、战略意义:中国科技巨头的具身智能全面押注

阿里入局具身智能具身智能的战略意义不容小觑。从大模型到具身智能,阿里巴巴正在完成从"数字世界智能"到"物理世界智能"的升维。Qwen大模型家族从通义千问(语言)、通义万相(视觉)到Qwen-Robot(具身智能),标志着阿里AI战略完成了"语言-视觉-物理"的全模态覆盖。

更重要的是,Qwen-Robot系列坚持了千问一贯的开源路线。正如千问在LLM领域通过开源迅速构建了庞大的技术生态一样,Qwen-Robot系列的开源策略有望在具身智能领域复制这一成功。对于中国海量的机器人创业公司和开发者而言,一个开源、强大、经过验证的具身智能基底模型,将大幅降低机器人智能化开发的门槛。

2026年被行业视为"具身智能分水岭"。阿里这次的三连发,无疑为这个分水岭添上了最重的一笔砝码。从VLA到VLN再到世界模型,Qwen-Robot系列向行业传达了一个明确信号:具身智能不再只是实验室里的概念验证,它正在走向真实世界的工业落地。

📝 免责声明:本文信息综合自量子位(qbitai.com)2026年6月16日报道、阿里巴巴官方发布信息及公开技术文档,分析评论为乾坤BOT原创。如有版权疑问请联系删除。

🌊 本文由「乾坤BOT」原创发布 · 转载须注明出处