2026-05-08 09:10:44

物理AI时代核心“卖铲人”:数据采集是机器人下一个风口?

人工智能的底层逻辑正从大语言模型的“语言理解”转向世界模型的“预测世界”。在这一跃迁中,物理数据的质量与采集能力成为发展核心。作为解决世界模型与具身智能“数据燃料”问题的关键,具身数据采集正开启下一代数据基建浪潮。

国泰海通最新报告指出,具身智能发展的最大障碍已不再是算法,而是数据缺口。其对数据的需求量呈指数级膨胀,远超传统AI模型。在这一背景下,能够率先填补数据缺口的数据供应商与基础设施商,将作为物理AI时代的“卖铲人”,占据产业链核心价值节点,有望享受显著的估值溢价。

技术路线上,真实数据、仿真/合成数据、视频数据各有利弊:纯真实数据成本过高,纯仿真数据存在“Sim2Real”(仿真到现实)鸿沟。未来主流路径逐渐清晰:仿真/视频数据用于大规模预训练 + 真实数据用于微调与强化学习。

随着主流技术路线日渐清晰,资本正加速涌入数据采集工具链(动捕、遥操作)、视频数据升维平台及仿真训练场——这些数据采集基础设施,正成为机器人产业真正的风口与“铲子”生意。

范式转移:世界模型重塑AI基石,数据需求膨胀至EB级

AI正从“数据相关性”驱动转向“物理因果性”驱动,2025年已成为世界模型应用落地的元年。具身智能对数据的需求量及复杂度正呈指数级爆发。

传统神经网络与大语言模型本质上依赖模式识别与概率关联,而“世界模型”的核心在于内建物理规律(如重力、惯性),并具备预测时空演化的能力。自2025年起,该领域迎来集中突破:Meta的V-JEPA 2、谷歌的Genie、OpenAI的Sora以及World Labs的RTFM相继问世。

世界模型将赋能游戏、自动驾驶与具身智能三大核心场景。其中,具身智能的爆发对数据提出了前所未有的苛刻要求。与大语言模型及自动驾驶(PB级数据量、以文本或视觉为主)不同,具身智能需适应形态各异的硬件平台,数据需求高达EB级,且极度强调物理交互(力觉、触觉、关节反馈)。目前行业仍处早期阶段,预训练数据极度紧缺,“数据孤岛”与异构数据融合难题已成为制约产业爆发的核心瓶颈。

三大主流数据采集方案利弊共存,视频数据成为业内关注新焦点

构建高效的数据闭环,是具身智能能力跃升的核心。当前,资本与技术主要围绕三大数据采集方案展开

产业演进趋势:Generalist AI的GEN-0模型(≥7B参数)已证明,在海量真实交互数据下,模型性能呈幂律增长。在真实数据成本被彻底打下来之前,“仿真/视频数据预训练 + 真实数据微调/强化学习”的虚实结合方案将是绝对主流。

与此同时,底层数据基建正在国家力量与开源生态的推动下加速成型:上海落地了全国首个具身智能领域国家级标准化试点(“1+N”模式训练场),北京建立了首个基于真实场景的数据训练基地。谷歌、星海图、傅利叶、智元等纷纷发布开源数据集,中国信通院则牵头制定了国内首个具身智能数据集质量评价标准。

机器人本体厂商的“数据站队”与战略分化

正是由于真实数据成本高、仿真数据存在迁移鸿沟、视频数据噪声大,国内外主流机器人本体厂商在数据路线上出现了明显分化。这一分化,反过来为数据采集基建的方向提供了最直接的产业验证。

这三条路线的并存恰恰说明:当前尚无单一数据来源能独立解决具身智能的数据瓶颈。无论最终哪条路线收敛,数据采集工具链、仿真平台与视频升维技术——即物理AI时代的“卖铲人”——都将是确定性受益的方向。

数据“卖铲人”全景图

随着具身智能对数据的需求量级与复杂度指数级上升,能够有效解决数据获取成本与效率问题的供应商,正迎来一轮估值重估。这一重估覆盖四个关键方向:视频数据转化、仿真平台、多模态硬件采集,以及综合数据服务。

在二级市场视角下,综合性数据服务商通过多元方案(遥操作、动捕、合成数据)建设具身智能数据训练场与工程化平台;仿真平台公司则通过收购整合打通虚实数据壁垒,提供全生命周期物理AI解决方案。

整体来看,无论是视频转化、仿真生成、硬件采集还是综合服务,能够显著提升数据“可获得性”与“成本效率”的供应商,正在从产业边缘走向估值中枢。

风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

阅读原文