一年磨一剑,今年最炸机器人Demo来了!1亿美元种子轮团队出手,单个模型解锁单手打蛋解魔方弹钢琴
henry 发自 凹非寺量子位 | 公众号 QbitAI看过的人已经傻眼了因为这可能是今年为止最炸的机器人demo。刚刚Genesis AI发布首个机器人基础模型GENE-26.5让机器人能自主打鸡蛋拧试管盖弹钢琴玩魔方切番茄。全程自主运行1倍速同一个模型。亮相后前1x副总裁Eric Jang宋舒然教授等业内大佬纷纷转发评论表示赞叹。如果你对这个半路杀出的团队感到陌生下面这个gif可能会让你想起些什么。一年多以前他们在GitHub上发布了那个炸穿互联网的Genesis物理引擎。一句话生成物理世界28.6k Star学术圈半壁江山参与。创始团队在2025年中拿了1.05亿美元种子轮出来创业沉默了将近一年。现在回来了。今年为止最炸的机器人demoGENE-26.5的demo大概是机器人领域今年到目前为止最值得认真看的咱们来速通一下。烹饪场景四分钟20个子任务串成完整流水线。单手打蛋五指配合控制裂纹走向。双手切番茄一只手调整角度另一只手下刀。毛巾、盐磨、打蛋器、刀、铲、煎锅轮番上阵。搞笑的是打完鸡蛋他还拿毛巾擦了一下手怪干净的……实验室移液操作从抓移液器到装离心机全流程毫米级精度。最难的是拧试管盖和手内换握姿势。解魔方双臂协作连续空中翻转实时闭环。此前不靠专用夹具完成魔方的标杆还是2019年OpenAI那只单手Genesis称这是通用双臂系统的首次。△图源OpenAI做冰沙语言指令驱动的长序列任务固体、可变形物体、液体全涉及。吸管翻转测试极脆弱半透明物体的处理最后一步手内翻转需要多根手指高度同步。多物体抓取单手同时抓四个不同尺寸物体四种抓握方式并行展示灵巧手相比传统夹爪的效率差距。线束整理汽车产业的「圣杯任务」。双手操控柔性线缆打捆、挂架、缠胶带公认最难的工业操控任务之一。弹钢琴Rush-E约130BPM专门压测控制栈极限策略用RL在仿真中单独训练。以上大多数复杂技能GENE只需要不到1小时的任务专属机器人数据不到200个episode。值得一提的是Genesis CEO周衔在接受Business Insider采访时表示烹饪大多数步骤成功率在90%到95%但单手打蛋和用刀转移切好的番茄只有50%到60%。整体操作速度大约是人类的六七成。全栈怎么做的Genesis博客里说了一句话把整个技术思路讲透了操控不是一个纯模型训练问题是一个系统问题。任何一层的短板都会传导到整个系统。所以他们选择每一层都自己做。硬件一双和人手一样大的手Genesis在demo中使用的灵巧手20个可反向驱动的自由度与人手1:1尺寸匹配手掌和手指覆盖柔软材料模拟皮肤接触力学。这种设计让人手动作可以直接映射到机械手上不需要复杂的重定向算法。值得一提的是不少业内人士指出这双手与国内灵巧手公司舞肌科技Wuji Tech的产品高度相似。Genesis官方博客将其称为Genesis Hand 1.0但未详细说明硬件来源。回到手的尺寸上为什么要做到与人手1:1是因为机器人领域存在一个叫「具身差距」的老问题人手和机械手形态不一样人类动作数据就没法直接迁移到机器人上。Genesis的解法很粗暴把手做成一模一样差距就消失了。控制栈也一并重写。Genesis把机械臂供应商的出厂控制器整个换掉自研中间件跑在PREEMPT_RT实时内核上EtherCAT通信500Hz端到端延迟最低压到3毫秒。原厂控制器画一个15厘米的圆追踪误差20毫米换上Genesis的控制器后降到2毫米提升一个数量级。单关节追踪延迟从80毫秒降到9毫秒。这层的意义在于当训练数据来自人类动作而不是机器人遥操作时控制系统的延迟和误差会在训练信号和实际执行之间制造鸿沟。延迟越低人类数据就越好用。数据让工人上班顺便采集在数据采集方面Genesis主要采用一双与灵巧手配套的数据采集手套。机器人手和人手尺寸一致手套记录的手指运动可以无损映射到机器人上不需要复杂的重定向算法。硬件成本是传统方案的百分之一采集效率是遥操作的五倍。数据引擎总共有三层来源。手套数据提供最高保真度的手部运动和触觉信号。第一人称视频捕捉自然行为和任务多样性。第三人称互联网视频提供海量覆盖。三层数据在质量和规模上做了帕累托分布Genesis和合作伙伴已经收集了超过20万小时的多模态数据。Genesis总裁Gervet对TechCrunch说了一句有意思的话这只手套可以让实验室技术员、制造业工人在干日常工作的时候顺便采集数据不打断工作流。当然TechCrunch也追问了一个尖锐的问题工人会愿意戴着手套和摄像头来训练最终可能取代自己的机器人吗Gervet的回答是这个得看客户和员工之间怎么谈具体细节还没敲定。模型一个统一的轨迹联合分布GENE-26.5的模型目标是学一个能同时吸收语言、视觉、本体感觉、触觉和动作的统一模型。用flow matching对轨迹建模联合分布捕捉多模态的未来可能性。几个关键设计。第一支持异构、部分可观测数据的可扩展训练第一人称视频流、手套数据、机器人控制数据、互联网视频不需要显式对齐就能一起训练。第二同一个模型处理所有任务控制、状态估计、逆动力学、目标推断都变成对联合分布的条件查询缺失的模态通过去噪推断。第三可以灵活吸收预训练模型的先验VLM提供语义理解世界模型提供时序和物理动态。简单说就是一个模型吃所有模态的数据做所有类型的任务。demo里展示的几个场景除了钢琴演奏是单独用RL训练的之外其余全部共享同一套权重。训练和评估仿真是加速器Genesis团队在博客里放了三张scaling曲线透露了训练recipe的关键信息。预训练阶段open-loop评估显示模型规模和计算量增加时验证损失持续下降符合经典的scaling law。但他们强调open-loop指标对机器人来说远远不够关键是closed-loop表现就是模型的动作会影响后续观测的闭环场景。这里Genesis物理引擎的老本行就派上用场了。他们用最新版Genesis World仿真器做大规模闭环评估不需要在仿真数据上做任何co-training仿真环境的保真度已经足够直接评估真实世界训练的模型。每个数据点对应200个评估设置和超过150小时的机器人执行时间整张图如果在真实世界跑需要2700个人-机器人小时。结论是预训练数据量越大zero-shot泛化能力越强。到fine-tuning阶段回到真实世界。他们专门构造了预训练中完全没见过的新任务在超低数据量条件下测试每个任务只用20到30分钟的数据。demo里展示的那些复杂技能大多数只需要不到1小时的任务专属机器人数据换算下来不到200个episode。预训练规模越大fine-tuning也越快、数据需求越少、最终表现越好。周衔对TechCrunch说模型迭代速度的真正瓶颈是评估仿真帮他们大幅加速了这个循环。从物理引擎到通用机器人2024年底CMU博士周衔牵头开源了Genesis物理引擎。这款纯Python仿真平台比英伟达Isaac Gym快10到80倍GitHub上迅速成为最大的具身智能开源项目吸引了20多个研究机构参与。周衔本科毕业于新加坡南洋理工是Genesis物理引擎的发起人。2025年初Genesis AI在法国注册成立由周衔担任CEO总裁是Théophile Gervet同样来自CMU曾在具身智能独角兽Skild AI任早期研究员后加入Mistral AI做研究科学家。两人师出同门导师都是Katerina Fragkiadaki。成立几个月后团队拿到1.05亿美元种子轮Eclipse和Khosla Ventures领投谷歌前CEO Eric Schmidt、法国电信大亨Xavier Niel个人参投法国国家投资银行Bpifrance也在投资方名单里。作为参考此前具身智能赛道最大的种子轮是Physical Intelligence的7000万美元。拿到钱之后团队没有急着发产品而是花了将近一年时间闷头搭全栈。今天GENE-26.5。模型、硬件、控制栈、仿真器一次性全部亮相。团队从创始时的几个人扩展到60人巴黎、加州、伦敦三地办公欧美大约四六开。已经收集了超过20万小时的多模态数据正在与多个行业客户洽谈合作。周衔告诉TechCrunch接下来很快会公布第一个通用机器人全身的不只是手。参考链接[1]https://x.com/gs_ai_/status/2052050956272230577[2]https://x.com/zhou_xian_/status/2052051823742312861[3]https://www.aol.com/articles/look-hands-genesis-ai-says-130001205.html[4]https://github.com/Genesis-Embodied-AI/genesis-world[5]https://www.genesis.ai/blog/gene-26-5-advancing-robotic-manipulation-to-human-level[6]https://techcrunch.com/2026/05/06/khosla-backed-robotics-startup-genesis-ai-has-gone-full-stack-demo-shows/一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—5月20日我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。首波嘉宾阵容已公布昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷都来了了解详情请你和我们一起不再只是讨论AI的未来而是现在就用起来。 报名参会一键关注 点亮星标