收集机器人训练数据是一项肮脏、乏味的工作。一些人工智能实验室已经支付 XDOF 来做这件事。

原文：Collecting robot training data is dirty, unglamorous work. Some AI labs are already paying XDOF to do it.

两周前，OpenAI 表示将重新启动 2021 年关闭的机器人项目——这是最大的人工智能实验室正在竞相教授机器在现实世界中操作的最新信号。但构建有能力的机器人需要人工智能行业尚不具备的东西，即与语言模型所用数据相匹配的训练数据。

这种差距正在创造一种新型的基础设施业务。与接受海量公开文本训练的法学硕士不同，机器人需要捕捉物理交互的数据，而这种数据几乎不存在。 YouTube 视频和零工工人拍摄的镜头保真度低，很难与现实世界相协调。

如今，XDOF（发音为“ecks-doff”）从隐秘中崛起，它押注人工智能的下一个重大瓶颈不是模型或芯片，而是教机器人如何与物理世界交互所需的数据反馈循环。

该初创公司旨在构建前沿实验室和机器人公司无法轻松自行构建的数据管道、收集工具和注释系统，并已从 Thrive Capital、Spark Capital、a16z、Lux 和 WndrCo 筹集了 7000 万美元来实现这一目标。联合创始人兼首席执行官 Philipp Wu 表示，XDOF 拥有约 60 名员工，已经与 20 个客户合作，其中包括几个前沿人工智能实验室，但无法透露具体名称。

“所有顶级实验室都在努力研究机器人技术，”吴说。 “我们已经看到了在语言模型竞赛中落后一点的一些缺点……你不希望陷入这种太晚追求这项技术的情况，而每个人都在这艘船上，物理人工智能是下一个前沿。”

吴本人在加州大学伯克利分校攻读博士学位时就遇到了这个问题。他的重点是使机器人能够从大规模数据集中学习技能。只有一个问题。

“我们没有大规模数据可供使用，”他告诉 TechCrunch。 “这是先有鸡还是先有蛋的问题——我们首先需要实际收集数据，然后才能询问

阅读原文 →