具身智能数据采集成“铲子生意”:新创公司与大厂纷纷入局,2026年或迎规模化元年
1. 具身智能数据采集火热新创公司融资订单双丰收2023年开始火热的“百模大战”让算力硬件商赚得盆满钵满。如今类似的情况正在具身智能产业“情景再现”数据采集从业者正在密集融资且收获大量订单。3月光轮智能完成10亿元融资成为全球第一个具身数据独角兽并透露今年第一季度拿下5.5亿元订单4月无问智科完成超亿元融资并透露今年第一季度签下的订单金额达到数亿元量级4月弈人科技完成Pre - A轮及Pre - A轮连续两轮亿元级融资同时宣布2025年收入破亿并盈利2026年Q1具身订单超去年全年营收智元也已分拆成立觅蜂科技。2. 互联网大厂盯上具身智能数据采集“肥肉”不只是新创公司互联网大厂也盯上了这块肥肉。京东发布具身智能数据全链路基础设施计划发动60万人众包采集如快递员、骑手佩戴设备目标两年内积累1000万小时人类真实场景视频数据百度选择了“数据超市”的模式。3. 具身智能数据来源与采集赛道流派具身智能的数据来源主要包含四类位于金字塔顶层的是遥控真机即遥操作获得“真机数据”数据质量最精准成本也最贵但却是人形机器人落地的关键仿真数据/合成数据处于中层成本低、可规模化能够弥补当前真机数据的不足人类视频包含互联网视频、人类行为数据处于金字塔底层来源广泛、泛化性强UMIUniversal Manipulation Interface通用操作接口协议是具身智能领域的一种低成本、无本体的数据采集范式与技术标准。发展至今数据采集赛道大致也可以分为四大流派“真机数据”对应的如智元等头部机器人公司“本体 数据”闭环运作数据业务是内部能力的自然外溢仿真数据/合成数据对应的则是定位为数据基础设施服务商的初创公司比如光轮智能跨界平台型巨头如京东、中国移动等依靠产业场景等优势入局采用混合采集模式“UMI型公司”如鹿明机器人、松灵机器人等则专注于提供标准化、模块化的采集硬件。4. 2026年具身智能数据规模化元年不难发现2026年已然成为“具身智能数据规模化元年”各类厂商正依靠“数据服务商”的新定位凭借刚性需求、高壁垒和可复制的商业模式在具身智能产业攫取利益。具身智能大模型VLA/世界模型的训练需要海量、多模态、高保真的物理交互数据。然而截至2026年初全球高质量真实物理交互数据总量仅约50万小时而行业共识认为训练通用具身模型至少需要千万小时级数据缺口超过99%。这种供需失衡导致数据成为稀缺资源买方处于“有多少买多少”的状态。于是数据采集便成为了具身智能产业细分赛道的新型“铲子”也再一次印证“数据先行、铲子先富”的逻辑。5. 新创公司发展历程与成果需要注意的是光轮智能、无问智科、弈人科技等明星初创公司并非全部诞生在具身智能产业发展期更多则是成立于智能驾驶浪潮中且多选择走“仿真数据/合成数据”路线并逐步向“真机数据”扩展走上融合发展新道路。光轮智能成立于2023年1月定位于合成数据公司致力于为企业落地AI提供合成数据解决方案。2026年3月该公司官宣完成10亿元A及A轮融资本轮融资完成后该公司也成为了全球首个具身数据领域的独角兽企业5月光轮智能又获得由蚂蚁集团领投的新一轮融资投后估值超过20亿美元在短短两个月内实现估值翻倍。无问智科成立于2022年11月2023年5月正式启动运营。在其官网介绍中无问智科多次提及智能驾驶主要是应用AI驱动的大模型仿真技术为智能驾驶汽车上路保驾护航。2024年具身智能产业热度持续攀升明星独角兽中的智元、宇树科技均在这一年接连获得2轮投资。于是乘着具身智能热潮无问智科在2024年8月官宣天使轮融资时适时提到“公司立足和深耕于智能驾驶/自动驾驶赛道将逐渐拓展到机器人及具身智能赛道”。2026年4月无问智科官宣超亿元新融资时公司定位已更新为“物理AI数据基座企业”。据介绍基于全国首个虚实融合闭环的长三角德清具身智能数据采集训练场无问智科日产数据上千小时形成万级规模化合成数据与千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业2026年Q1更与字节跳动、无界动力、章鱼动力等签署订单目前在手订单数亿元本年度营收将突破超亿元。光轮智能则已经将人类数据与仿真打造成一套闭环的基础设施并且人类数据交付量全球第一。它的人类视频数据产品覆盖2.5万 环境节点、10万 任务种类累计交付超150万小时高质量人类数据。2025年该公司全年营收实现10倍增长4月份官宣公司2026年Q1单季预计收入超过25年全年总和5月份官宣2026年Q1新增5.5亿元订单。弈人科技成立于2013年3月利用自动驾驶积累的车辆感知网络适时转型采集具身智能数据于2025年实现AI数据业务收入过亿元在国内率先完成AI数据正向盈利。同时公司在具身智能领域已落地多场景应用并斩获头部客户订单仅2026年一季度就获得了具身智能数据新增订单超亿元。宇树科技成立于2016年招股书显示2022年该公司用时6年实现约1.23亿元营业收入但2024年方才“扭亏为盈”实现约9547.47万元净利润。作为对比光轮智能、无问智科等新创公司成立仅3年便在2026年实现过亿营收已然成为“卖数据的先赚钱”的例证之一。6. 智元及大厂在具身智能数据领域的布局随着硬件本体的逐步成熟高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据成为了未来五年决定具身智能商业化落地的胜负手。智元合伙人、高级副总裁、具身业务部总裁姚卯青早在2004年5月就牵头建成行业规模最大4000平米、场景最丰富的数采超级工厂——部署近百台远征A2 - D专机实现单机单日千条数据的极速采集也是当前“真机数据”的代表性玩家。仅仅半年后智元就联合上海人工智能实验室、国家地方共建人形机器人创新中心及上海库帕思共同开源了全球首个基于全域真实场景的百万真机数据集AgiBot World。凭借于此选择“本体 - 数据 - 模型 - 场景”重度耦合战略闭环的智元作为整机厂商代表在2026年4月的评选中与独立数据提供商——光轮智能、国家级公共平台——国家地方共建人形机器人创新中心成为国内具身智能数据赛道的Top 3。姚卯青不止一次地强调当前机器人行业的瓶颈不是算力而是数据“高质量的真机数据是实现智能涌现的关键前提”。他还指出当前行业中存在大量仿真模拟数据但仿真模拟数据无法替代真实物理交互中产生的细粒度感知信息。智元的策略是“以真机数据为主仿真模拟为辅”只有真实场景中采集的数据才能真正驱动机器人智能的质变。公司内部也有一个清晰的量化目标两年内积累千万小时级别的真实场景数据。2026年2月姚卯青推动智元业务拆分出觅蜂科技并出任董事长兼CEO。该公司聚焦具身智能数据基础设施赛道深度应用并推广UMI技术但并非单一的“UMI型公司”打造独立开放的一站式物理AI数据服务平台。成立仅10天觅蜂科技就完成了数亿元种子轮与天使轮融资。据澎湃科技消息具身智能数据当前总体定价区间在200 - 500元/小时。其中机器人在现实场景中实际操作采集的真机数据因最适合训练落地模型需求最旺盛价格也最贵当前国内市场价格在500 - 1000元/小时。另据姚卯青透露随着产能逐步稳定不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时1000元无本体数据未来可能稳定在300 - 400元。数据稀缺、价格处于“高点”于是在具身智能玩家之外嗅觉灵敏的互联网大厂、工业巨头步调一致地快速行为今年以来接连下场盯上数据采集“这块肥肉”强势跻身具身智能产业链。其中互联网大厂如百度走上了“数据超市”模式。4月10日百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业推出“具身智能数据超市Beta版”首创层级化、可扩展的数据标签体系加速具身智能规模化落地。值得一提的是尽管以“UMI协议”数据为主鹿明机器人同样选择了“数据超市”这一模式该公司于2026年3月推出了行业首个“FastUMI Pro数据超市”。以京东为例今年3月16日其宣布建设一个具身智能数据采集中心计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景记录视觉、触觉、空间轨迹等多维度数据。将发动包括内部超10万员工及外部最多50万人员在内的数十万人参与采集计划于一年内积累500万小时人类真实场景视频数据两年内总时长突破1000万小时并同步采集100万小时机器人本体数据。据悉京东具身智能数据采集中心主要采用基于可穿戴设备的人类第一视角Egocentric真实场景数据采集方式并辅以真机遥操作采集属于无本体数据No - Body Data与多模态真实交互数据相结合的混合采集模式。中国移动同样如此5月8日其宣布围绕家庭生活场景推出1200平米的“灵犀数霄”具身智能训练场核心是一套覆盖数据采集、数据合成、数据处理、数据应用全链路的数据闭环是融合了真机遥操作与无本体轻量化采集的混合数据采集体系并辅以仿真合成数据。不难发现在具身智能产业链上数据采集这个“铲子生意”已经成为具身智能数据从“分散采集”走向“平台化供给”。它不再是某家机器人公司的附属业务而是正在独立跑出一套商业逻辑成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。需要提醒读者关注具身智能数据的信任问题在数据采集和使用过程中确保数据的真实性和可靠性至关重要。