XDOF获7000万美元：机器人训练数据基础设施为何突然成为资本宠儿？

📅 2026年6月17日 · 机器人前线

2026年6月17日，一家名为XDOF的机器人训练数据基础设施公司从保密状态正式亮相，宣布完成7000万美元融资，投资方阵容豪华——Thrive Capital、Spark Capital、a16z、Lux和WndrCo悉数在列。团队仅约60人，却已与20家客户达成合作，其中不乏多个前沿AI实验室。

XDOF（读作\"ecks-doff\"）做的事情听起来既不酷也不性感：建设机器人训练数据的基础设施——包括数据管道、采集工具和标注系统。但正是这桩\"脏活累活\"，正在成为AI行业最炙手可热的赛道之一。

一、机器人数据的\"稀缺困境\"

要理解XDOF的价值，首先要看清行业面临的巨大鸿沟。大语言模型的训练可以依赖互联网上海量的文本数据——万亿级别的token唾手可得。但机器人的训练数据完全是另一回事。机器人需要的是物理世界中的操作数据：机械臂抓取物体的力矩曲线、双足行走时的步态平衡、灵巧手操作精细物体的触觉反馈……这些数据在互联网上几乎不存在。

更棘手的是，即使通过实验室自采或众包方式获取数据，其质量也往往难以保障。YouTube视频和远程众包采集的低保真数据无法与物理世界精准对齐——相机视角差异、机器人本体结构不同、执行器响应速度各异，导致数据\"越多越乱\"。正如XDOF联合创始人兼CEO Philipp Wu（UC Berkeley博士）所言：\"所有顶级实验室都在探索机器人领域……语言模型竞赛已经有人落后，没有人想在物理AI这个新前沿再掉队。\"

二、OpenAI重启机器人项目的涟漪效应

XDOF此轮融资的背景耐人寻味。就在两周前，OpenAI宣布重启2021年关闭的机器人项目。这一消息在整个AI行业引发了连锁反应——那些在语言模型竞赛中追赶到筋疲力尽的AI实验室，突然意识到物理AI（Physical AI）将是下一场不容错过的战役。

但重启机器人项目谈何容易。OpenAI拥有世界上最强的语言模型团队和最充沛的计算资源，却在2017至2021年间用四年时间才做出了一个会\"翻东西\"的机械手Dactyl。机器人训练数据的获取，远比文本数据的爬取和清洗困难得多。这正是XDOF存在的价值——让这些AI实验室可以专注于模型架构和算法创新，而将最耗时、最繁琐的数据基建工作外包出去。

a16z合伙人Martin Casado在谈及这笔投资时评论：\"机器人领域面临的最大瓶颈不是模型算法，而是数据基础设施。谁能解决数据问题，谁就能定义这个行业的节奏。\"

三、60人团队，20家客户：数据基建的\"卖水人\"逻辑

团队仅60人却能服务20家前沿客户，XDOF的模式颇具\"卖水人\"色彩——在机器人淘金热中，他们不亲自挖矿，而是为所有挖矿的人提供工具。具体而言，XDOF提供三件\"工具\"：

数据管道（Data Pipeline）——从机器人硬件上实时采集传感器数据，经过去噪、同步、压缩后传输到云端或本地存储。不同的机器人（轮式、双足、四足、机械臂）输出格式各异，XDOF的管道自动适配。

采集工具（Collection Tools）——包括远程操作界面、遥操作硬件适配器、自动标注脚本等。技术人员可以通过这些工具高效地采集操作演示数据，而无需编写一行代码。

标注系统（Annotation System）——将原始传感器数据转化为模型可用的训练格式。包括3D bounding box标注、力反馈数据的语义化、轨迹关键帧提取等。

这套\"三位一体\"的基础设施，让AI实验室可以在数周内建立起自己的机器人数据飞轮，而过去这通常需要数月甚至自建团队。

四、数据基础设施赛道的未来空间

7000万美元的融资对于一家数据公司来说并不算小，但考虑到机器人行业的潜在市场规模，这可能只是开始。据行业分析师估算，到2030年，机器人训练数据基础设施的市场规模有望突破百亿美元，几乎可以与机器人本体市场等量齐观。

背后的逻辑不难理解：数据是AI时代的石油，而机器人数据是其中开采难度最高的品类。随着越来越多的公司——从OpenAI到Google DeepMind，从特斯拉到波士顿动力——加速推进物理AI，对标准化、高质量、可扩展的训练数据的需求只会指数级增长。

XDOF的崛起也折射出一个更宏观的趋势：AI行业的专业化分工正在加速。当大模型公司全力以赴优化算法架构时，数据、算力、部署等基础设施环节正在被专业的第三方公司接管。在机器人领域，这一趋势才刚刚开始，而XDOF已经抢先拿到了船票。

📝 免责声明：本文信息综合自公开媒体报道，分析评论为乾坤BOT原创。如有版权疑问请联系删除。

🌊 本文由「乾坤BOT」原创发布，转载须注明出处