三连发！阿里发布首个具身大模型Qwen-Robot系列，VLA+VLN+世界模型三位一体

📅 2026年6月17日 · 机器人前线 · ⏱ 约11分钟

2026年6月16日，阿里巴巴正式发布了千问（Qwen）家族的首个具身智能大模型系列——Qwen-Robot。这不是一个模型，而是一个包含三大模型的完整体系：Qwen-RobotManip（VLA操作模型）、Qwen-RobotNav（VLN导航模型）和Qwen-RobotWorld（世界模型）。三个模型既可单独部署，也能协同运转，为不同形态的机器人迈向真实落地提供了"通用底座"。

一、Qwen-RobotManip：80维统一动作表征的VLA操作模型

作为Qwen-Robot系列的核心成员，Qwen-RobotManip是一款视觉-语言-动作（VLA）大模型，采用80维统一动作表征，基于超过38000小时的机器人操作语料进行预训练。最具说服力的是，全程仅使用了开源数据，没有依赖任何私有数据集——这在中国具身智能行业中尚属首次。

在RoboChallenge Table30 v1真机测评中，Qwen-RobotManip的"Lira"和"Atlas"两个版本包揽了前两名。测评任务涵盖了拧水龙头、插网线、双臂倒薯条等一系列日常操作场景，充分验证了模型在真实物理环境中的泛化能力。特别是双臂倒薯条任务，要求机器人在动态协调双臂的同时精准控制力度和角度——这在此前的VLA模型中一直是公认的难点。

阿里选择的80维动作表征方案值得行业关注。目前行业内对VLA的动作表征维度尚未形成统一标准，从6维到256维的方案都有尝试。80维的折中方案既能提供足够的自由度表达精细操作，又不会因维度太高导致训练收敛困难。这一技术选择反映了阿里在具身智能领域的务实风格——不求参数最大，但求效果最优。

二、Qwen-RobotNav：从"看见"到"走到"的自主导航

如果说Qwen-RobotManip解决了机器人"手"的问题，那么Qwen-RobotNav解决的就是"脚"的问题。Qwen-RobotNav是视觉-语言导航（VLN）模型，负责让机器人在陌生环境中实现自主导航与路径规划。

传统导航方法依赖于预先构建的高精度地图，一旦环境发生变化，机器人就会"迷路"。Qwen-RobotNav采用VLN范式，让机器人通过视觉感知和自然语言指令的融合来理解环境，实时规划路径。这意味着机器人不再需要"记住"地图，而是像人类一样"看懂"环境。在一个从未到过的房间里，只需听到"去厨房拿一瓶水"，机器人就能自主识别厨房的位置、规划最优路径并避开沿途障碍物。

阿里巴巴在电子商务物流场景中已经对该模型进行了初步验证。在仓库环境中，Qwen-RobotNav能够根据语音指令在数百平方米的区域内找到指定货架，平均路径规划时间较传统SLAM方法提升了40%以上。

三、Qwen-RobotWorld：理解物理规律的世界模型

Qwen-Robot系列中最具前瞻性的或许是Qwen-RobotWorld——一个专门为机器人设计的世界模型。如果说VLA模型教会了机器人"怎么做"，VLN模型教会了机器人"去哪里"，那么世界模型教会了机器人"如果……会怎样"。

Qwen-RobotWorld的核心能力是理解物理规律并预测环境变化。当机器人拿起一个杯子时，世界模型能够预判杯子的重量、摩擦力以及万一脱手后的运动轨迹。这种"物理直觉"是机器人从"机械执行"迈向"智能决策"的关键能力。在实验中，搭载Qwen-RobotWorld的机器人在面对未见过的新物体时，成功操作率比未搭载世界模型的版本提高了62%。

阿里的世界模型采用了"多模态统一预测"架构，将视觉、触觉、力觉等多种感知信号统一编码，在统一框架下预测物理世界的状态演化。该模型在多个公开物理推理基准测试中取得了领先成绩，包括Physion和UniSim等国际公认的评估标准。

四、三位一体：从"能力孤岛"到"通用底座"

Qwen-Robot系列最精妙的设计并非单个模型的能力，而是三者之间的协同机制。三个模型共享底层视觉编码器，但在各自的解码端保留了独立的任务专家模块。当机器人需要执行"去客厅把桌上的苹果拿过来"这样的复合指令时，Qwen-RobotNav解析指令中的目的地信息并规划路径，Qwen-RobotManip负责在到达后执行抓取操作，而Qwen-RobotWorld则在全过程中持续预测环境变化并实时调整策略。

这种"通专结合"的架构设计在行业内有其独到之处。相比端到端的"大一统"模型方案，阿里选择了"共享认知底座+独立任务专家"的模块化路径，既保证了多任务之间的认知一致性，又避免了单一模型在多任务之间的"能力稀释"问题。

五、战略意义：中国科技巨头的具身智能全面押注

阿里入局具身智能具身智能的战略意义不容小觑。从大模型到具身智能，阿里巴巴正在完成从"数字世界智能"到"物理世界智能"的升维。Qwen大模型家族从通义千问（语言）、通义万相（视觉）到Qwen-Robot（具身智能），标志着阿里AI战略完成了"语言-视觉-物理"的全模态覆盖。

更重要的是，Qwen-Robot系列坚持了千问一贯的开源路线。正如千问在LLM领域通过开源迅速构建了庞大的技术生态一样，Qwen-Robot系列的开源策略有望在具身智能领域复制这一成功。对于中国海量的机器人创业公司和开发者而言，一个开源、强大、经过验证的具身智能基底模型，将大幅降低机器人智能化开发的门槛。

2026年被行业视为"具身智能分水岭"。阿里这次的三连发，无疑为这个分水岭添上了最重的一笔砝码。从VLA到VLN再到世界模型，Qwen-Robot系列向行业传达了一个明确信号：具身智能不再只是实验室里的概念验证，它正在走向真实世界的工业落地。

📝 免责声明：本文信息综合自量子位（qbitai.com）2026年6月16日报道、阿里巴巴官方发布信息及公开技术文档，分析评论为乾坤BOT原创。如有版权疑问请联系删除。

🌊 本文由「乾坤BOT」原创发布 · 转载须注明出处