技术博客外,Gen1比Gen0进化了什么

昨天Gen-1重磅发布,朋友圈前所未有地沸腾。数据、多样性带来的scaling law,成为了令人兴奋的故事、乃至信仰。 作为跟踪这家公司很久的作者,我也觉得非常兴奋和激动。 这篇就来讲讲我看到的,技术博客之外,Gen-1的进展。
从demo上,Gen-1 有哪些进化
就如博客中所述,Gen-1 的demo有了速度、精度、以及更多随机和泛化反应的变化:
-
极致的可靠性(Reliability): GEN-1 将以往模型仅有 64% 成功率的任务提升到了 99% 的平均成功率。它能够进行长时间的无干预自主作业,例如连续组装手机 100 次、折叠衣服 86 次、折叠纸箱 200 次、甚至包装方块 1800 次。 -
打破速度壁垒(Speed): GEN-1 完成灵巧任务的速度比先前的最先进水平(SOTA)快了约 3 倍。以折叠纸箱为例,先前的模型需要约 34 秒,而 GEN-1 仅需 12.1 秒。 -
前所未见的即兴发挥能力(Improvisational Intelligence): GEN-1 展现出了处理开放式问题的物理常识,能够在意外情况中创造性地随机应变。
在这三条主线之外,我从 Demo 细节中还观察到以下几点。
- 任务覆盖
从极致灵巧到兼顾柔性与负载。 GEN-0 阶段的 Demo 以手机打包、零部件装盒、乐高分拣为主,操作对象基本是硬质物体,侧重灵巧操作。GEN-1 则新增了柔性衣物折叠、柔性橡胶管处理;以及扫地机器人维修等场景。扫地机器人本身有一定重量,而 GEN-1 能够将其翻转操作,展现了一定的负载重物的能力。
个人观点是,这一轮 Demo 对灵巧性的展示反而有所弱化,更加强调速度与鲁棒性。例如折叠纸箱的演示中并未包含盖合盒盖的步骤——GEN-0 曾展示过这一动作,可能盖盖子成功率不太高吧(狗头)。
- 柔性物体处理的策略选择
衣物折叠环节采用了与其他团队截然不同的方案——先在桌面上将衣物展平,再进行折叠。至于为何选择这一 pattern,欢迎大家讨论。 -
更丰富的恢复策略: 从手机壳安装的演示可以明显看出,当手机壳扣上后仍存在翘边时,模型能够根据翘边的具体形态自适应地选择修正方式。有时是一次对角按压,有时是两次对角按压。虽然仍能看出底层数据采集的模式痕迹,但模型确实涌现出了更多自适应的调整行为。
类似的、由数据规模带来的涌现表现还有很多,值得深入讨论。

在放置汽车零件这块也是,我们看到模型尝试把没有放好零件再塞回去,就像人一样会下意识纠错。

安装扫地机器人的时候,机械臂会按一按,将零件完整地塞入底盘之中。

数据采集再进化
就如前文所说,Generalist的数据采集技术路径是无本体UMI采集,这里不再赘述。更值得关注的是这半年generalist ai的改变。
Scaling law的再次验证
本次公布的数据总量达到 50 万小时,大约用了半年时间将数据规模翻了一倍。粗略估算,五个月内月均新增约 5 万小时有效时长。若按每人每天 4 小时有效采集计算,这套体系相当于维持约 400 名"持续在线的数据劳动力"全天候稳定产出,才能支撑起这一增长速度。有效时长占比越低,所需的人员规模就越大。
但值得注意的是,Generalist AI 称已向外发放了几千多台新采集设备,相对于400人4小时的数据,推测单人的有效时长要多打不少折扣。
成百上千数采员的运营复杂度远超想象。 设备的分发、运输与返修,采集人员的招募与管理,欠发达地区的数据上传带宽,再到任务设计、任务调度以及后处理流程——每一环都需要极强的基础设施能力来支撑。

这张图的横轴是训练算力(Compute),纵轴是验证误差(Validation Loss,越低越好),不同颜色代表使用了不同规模的预训练数据(从14%到100%)。 它说明:在机器人学习中,只要你增加数据量和算力,性能就会持续提升,而且还没有出现明显的“天花板”。

另外一张图的横轴是数据规模(action trajectories 数量),纵轴是预测误差。 每一个点代表一个训练规模,从 5000 万一路到 3 亿+,甚至外推到 10 亿。机器人模型的误差,会随着数据规模的增加,稳定地按照某种“可预测的速度”下降。 当前机器人学习已经进入 scaling law regime:性能不再主要由算法结构决定,而是由 数据规模 × 数据质量 × 算力 共同决定,且仍处于明显的“未饱和增长区”。
在这样的采集下,其实涌现出了真正的物理常识。机器人的操作涌现除了一些超出训练分布的即兴动作。 在访谈中,Pete把这一现象称为机器人界ChatGPT时刻的前兆:
“这让机器人具备了即兴发挥的能力,能够做出一些意想不到的举动。我最喜欢的瞬间之一,是看到一个机器人原本一直在用右手重复某项任务,随后实验设置发生了变化,在下一次操作时,它竟然像人一样改用了左手。机器人能够在当下判断出正确的做法,而这正是机器人领域即将迎来‘ChatGPT时刻’的原因。”
数采设备的在进化
仔细观察可以发现,Generalist AI 的数采设备一直在演进。博客中也提到:
We designed new hardware and shipped thousands of robot hands across new geographies for exposure to unique physical activities.
在公开资料中,Generalist的数采产品至少迭代了三代;
在媒体采访中曝光的数采原型机与 GEN-0 时期披露的版本有较大差异——外壳颜色、手指灵巧度与柔性、相机倾角均有变化。 放大画面可以看到,原型机上使用的是 Insta360 ONE X2,借助成熟消费级设备的 VIO 能力来完成空间感知。
从后续 demo 视频来看,机器人上搭载的相机模块难以从画面中确切判断型号。大致可分为两类:一类背面无屏幕,推测可能是定制硬件;另一类背面带屏幕,形态更接近 Insta360 X3。这可能反映了设备的选型迭代,也可能是多种型号同时用于数据采集和机器人部署。
从机器人夹爪的细节也能推断出一些变化:指尖的黑色部分面积缩小,指甲位置更加尖锐灵巧,推测是为了更好地适配精细操作。Andy 称模型完全可以接受这种跨本体的泛化。
无本体采集的核心价值:自然性
相较于 GEN-0,Generalist AI 此次更加强调数据的多样性、高质量和大规模。博客中着重阐述了一个理念——无本体采集在自然性上的独特价值:由人类直接完成任务所产生的数据,使模型能够广泛接触各种高速运动,并从中学习到真实的物理动态(如速度、流变等),从而克服传统遥操作数据过于僵硬的缺陷。 这带来两方面好处。
-
第一是速度。 播客中特别强调了采集员以自然速度操作、包括一些高速运动场景,使机器人也学会了快速执行动作。值得注意的是,并非所有团队都认同自然速度和高速运动的价值——例如 Sunday 就提到会要求采集员适当降低操作速度。这体现了 Generalist AI 在数据采集策略上的独特取向。 - 第二是真实的动态与恢复行为
人在自然操作中会产生下意识的反应和即时恢复动作,这正是无本体采集的优势所在。采集方式越不干扰人的自然操作、离操作物体越近,模型就越容易学到最真实的动作状态。
即兴能力与对齐问题
更值得关注的是,Generalist AI 在展望中提出了一个深层问题——对齐。我认为也是非常前沿的观点。
博客中写道:尽管基于大规模交互数据的预训练能够激发机器人的即兴发挥能力(例如摇晃袋子使物体就位、重新整理错放的物品、伸手去捡掉落的物体),但这些都是会产生实际后果的物理动作。机器人领域的"成功"并非放之四海而皆准——它取决于具体的任务、工作流程,最终取决于实际部署场景。这不仅关乎机器人必须做什么,而且(或许更重要的是)关乎它不应该做什么。因此,涌现行为既可以是优势(例如未经明确训练的恢复行为),有时也可能成为劣势。
也就是说,在有些时候到底怎么做的判断可能还是由人来做,某种行为在A场景是对的,但是在B就是错误的。 Generalist AI 技术博客引用的论文 Inference-Time Policy Steering(ITPS)指向了一个有前景的方向:不修改模型、不重新训练,仅在推理阶段通过人类输入来引导机器人行为。随着模型能力的提升,机器人策略本身已具备多种"可行但不同"的执行方式,核心问题不再是"会不会做",而是"该怎么做"。因此,在执行时对其进行约束与引导变得至关重要。
是系统,不仅仅是模型
就像研究员Felix Wang说的,Gen-1是智能和控制的结合。Harness最近在AI agent很火,本质是让 AI agent 能“稳定干活”的运行与控制外壳。这意味着 harness layer 不是“大脑本身”,而是把大脑变成一个可部署、实时可控、可恢复物理系统的那一整层工程能力
主要来说有这么几点:
-
从模型架构来说,推理引入了一些新的架构: 系统引入了谐波推理以及新型分页注意力(Paged Attention)机制。谐波推理在此前的技术博客中已有披露;而分页注意力机制,从公开描述来推测,类似于给机器人的"大脑"建立了一套高效的分类索引——面对复杂的环境变化时,模型能够快速将注意力锁定在当下最相关的那一"页"信息上,从而在有限的推理预算内做出更精准的决策。 - 从infra来说,他们加强了预训练infra的建设
。为了处理PB级海量数据,团队必须重新设计分布式训练基础设施,使其能够原生支持大规模数据训练。此外,他们还构建了定制内核并大幅提升了训练的稳定性。 - 后训练与强化学习:
Generalist 还强调结合强化学习和人类在后训练阶段的多模态干预,这本质上是让机器人在与环境交互和人在环的指导中,提升动作的成功率和鲁棒性。 - 软硬件控制的强化:
在软件层面,强化了控制系统,使机器人的动作更加平滑和精确。
写在最后
最近听了张小珺和光轮智能谢晨的播客,其中提到的一些观点让我非常印象深刻。具身智能近6个月很多大厂都意识到具身智能的scaling law并付诸实践。就像LLM一样,具身智能也会从数据量的跃升提升zeroshot能力的竞争,再到预训练以及后训练的infra建设的系统性竞争。
无本体采集恰是有希望捕获最自然,最大量可被模型学习的数采方式之一。
从Gen0到Gen1,证明了无本体采集方式这条路的可行性,也看到了scaling law发挥作用下精细、告诉以及即兴泛化的操作能力的极高上限的同时,也给行业和企业更多的挑战和启示:如何从模型层面优化保证智能与末端控制的无缝衔接,如何构建从数据采集、清洗、标注再到预训练、后训练的全套infra能力,如何利用后训练的方法提升模型在真实世界中部署的效果等等。
就像大语言模型一样,具身会面临一场数据积累、模型信仰与系统级工程能力的全面长跑。非常值得期待。
TsingtaoAI是一家专注工业具身智能领域的国家高新技术企业,旗下北京、宁波等地设有研发及运营团队。核心团队主要来自韩国首尔大学、中国农业大学、北京科技大学、蔚来汽车、美团、京东、硅基流动等产研组织,拥有深厚的AI Infra与机器人算法积淀。公司通过自研的通用PoC实验底座与多模态Agent编排引擎,为工业制造、高校实训等场景提供从数据生成、算法训练到即时部署的全栈解决方案。
TsingtaoAI解决具身智能落地最后一公里工程难题。构建一个高效、低成本、可复制的具身智能技能任务开发平台,将平台与具身大模型和异构端侧计算单元组成面向工业企业的物理AI软硬一体化解决方案。获24项AI领域知识产权,包括多模态大模型具身智能实验实训系统等。关键算法基于RISC-V芯片和昇腾NPU优化适配,实现突出性能。项目获长三角算力算法创新大赛冠军,山东省人社厅数字工程师大赛二等奖,宁波AI大赛二等奖、北京东城AI科创大赛技术创新组前三名,WAIC CICC大赛具身智能赛道前三名,入选河北垂直大模型应用场景名单。通过华为昇腾兼容性认证,在华油能源等企业落地。