技术博客外，Gen1比Gen0进化了什么

昨天Gen-1重磅发布，朋友圈前所未有地沸腾。数据、多样性带来的scaling law，成为了令人兴奋的故事、乃至信仰。作为跟踪这家公司很久的作者，我也觉得非常兴奋和激动。这篇就来讲讲我看到的，技术博客之外，Gen-1的进展。

从demo上，Gen-1 有哪些进化

就如博客中所述，Gen-1 的demo有了速度、精度、以及更多随机和泛化反应的变化：

极致的可靠性（Reliability）： GEN-1 将以往模型仅有 64% 成功率的任务提升到了 99% 的平均成功率。它能够进行长时间的无干预自主作业，例如连续组装手机 100 次、折叠衣服 86 次、折叠纸箱 200 次、甚至包装方块 1800 次。
打破速度壁垒（Speed）： GEN-1 完成灵巧任务的速度比先前的最先进水平（SOTA）快了约 3 倍。以折叠纸箱为例，先前的模型需要约 34 秒，而 GEN-1 仅需 12.1 秒。
前所未见的即兴发挥能力（Improvisational Intelligence）： GEN-1 展现出了处理开放式问题的物理常识，能够在意外情况中创造性地随机应变。

在这三条主线之外，我从 Demo 细节中还观察到以下几点。

任务覆盖
从极致灵巧到兼顾柔性与负载。 GEN-0 阶段的 Demo 以手机打包、零部件装盒、乐高分拣为主，操作对象基本是硬质物体，侧重灵巧操作。GEN-1 则新增了柔性衣物折叠、柔性橡胶管处理；以及扫地机器人维修等场景。扫地机器人本身有一定重量，而 GEN-1 能够将其翻转操作，展现了一定的负载重物的能力。

个人观点是，这一轮 Demo 对灵巧性的展示反而有所弱化，更加强调速度与鲁棒性。例如折叠纸箱的演示中并未包含盖合盒盖的步骤——GEN-0 曾展示过这一动作，可能盖盖子成功率不太高吧（狗头）。

Gen-1折盒子

Gen-0 折盒子,有插入这样的灵巧操作

柔性物体处理的策略选择
衣物折叠环节采用了与其他团队截然不同的方案——先在桌面上将衣物展平，再进行折叠。至于为何选择这一 pattern，欢迎大家讨论。
更丰富的恢复策略： 从手机壳安装的演示可以明显看出，当手机壳扣上后仍存在翘边时，模型能够根据翘边的具体形态自适应地选择修正方式。有时是一次对角按压，有时是两次对角按压。虽然仍能看出底层数据采集的模式痕迹，但模型确实涌现出了更多自适应的调整行为。

类似的、由数据规模带来的涌现表现还有很多，值得深入讨论。

在放置汽车零件这块也是，我们看到模型尝试把没有放好零件再塞回去，就像人一样会下意识纠错。

安装扫地机器人的时候，机械臂会按一按，将零件完整地塞入底盘之中。

数据采集再进化

就如前文所说，Generalist的数据采集技术路径是无本体UMI采集，这里不再赘述。更值得关注的是这半年generalist ai的改变。

Scaling law的再次验证

本次公布的数据总量达到 50 万小时，大约用了半年时间将数据规模翻了一倍。粗略估算，五个月内月均新增约 5 万小时有效时长。若按每人每天 4 小时有效采集计算，这套体系相当于维持约 400 名"持续在线的数据劳动力"全天候稳定产出，才能支撑起这一增长速度。有效时长占比越低，所需的人员规模就越大。

但值得注意的是，Generalist AI 称已向外发放了几千多台新采集设备，相对于400人4小时的数据，推测单人的有效时长要多打不少折扣。

成百上千数采员的运营复杂度远超想象。设备的分发、运输与返修，采集人员的招募与管理，欠发达地区的数据上传带宽，再到任务设计、任务调度以及后处理流程——每一环都需要极强的基础设施能力来支撑。

这张图的横轴是训练算力（Compute），纵轴是验证误差（Validation Loss，越低越好），不同颜色代表使用了不同规模的预训练数据（从14%到100%）。 它说明：在机器人学习中，只要你增加数据量和算力，性能就会持续提升，而且还没有出现明显的“天花板”。

另外一张图的横轴是数据规模（action trajectories 数量），纵轴是预测误差。每一个点代表一个训练规模，从 5000 万一路到 3 亿+，甚至外推到 10 亿。机器人模型的误差，会随着数据规模的增加，稳定地按照某种“可预测的速度”下降。当前机器人学习已经进入 scaling law regime：性能不再主要由算法结构决定，而是由 数据规模 × 数据质量 × 算力 共同决定，且仍处于明显的“未饱和增长区”。

在这样的采集下，其实涌现出了真正的物理常识。机器人的操作涌现除了一些超出训练分布的即兴动作。 在访谈中，Pete把这一现象称为机器人界ChatGPT时刻的前兆：

“这让机器人具备了即兴发挥的能力，能够做出一些意想不到的举动。我最喜欢的瞬间之一，是看到一个机器人原本一直在用右手重复某项任务，随后实验设置发生了变化，在下一次操作时，它竟然像人一样改用了左手。机器人能够在当下判断出正确的做法，而这正是机器人领域即将迎来‘ChatGPT时刻’的原因。”

数采设备的在进化

仔细观察可以发现，Generalist AI 的数采设备一直在演进。博客中也提到：

We designed new hardware and shipped thousands of robot hands across new geographies for exposure to unique physical activities.

在公开资料中，Generalist的数采产品至少迭代了三代；

在媒体采访中曝光的数采原型机与 GEN-0 时期披露的版本有较大差异——外壳颜色、手指灵巧度与柔性、相机倾角均有变化。 放大画面可以看到，原型机上使用的是 Insta360 ONE X2，借助成熟消费级设备的 VIO 能力来完成空间感知。

从后续 demo 视频来看，机器人上搭载的相机模块难以从画面中确切判断型号。大致可分为两类：一类背面无屏幕，推测可能是定制硬件；另一类背面带屏幕，形态更接近 Insta360 X3。这可能反映了设备的选型迭代，也可能是多种型号同时用于数据采集和机器人部署。

从机器人夹爪的细节也能推断出一些变化：指尖的黑色部分面积缩小，指甲位置更加尖锐灵巧，推测是为了更好地适配精细操作。Andy 称模型完全可以接受这种跨本体的泛化。

无本体采集的核心价值：自然性

相较于 GEN-0，Generalist AI 此次更加强调数据的多样性、高质量和大规模。博客中着重阐述了一个理念——无本体采集在自然性上的独特价值：由人类直接完成任务所产生的数据，使模型能够广泛接触各种高速运动，并从中学习到真实的物理动态（如速度、流变等），从而克服传统遥操作数据过于僵硬的缺陷。这带来两方面好处。

第一是速度。 播客中特别强调了采集员以自然速度操作、包括一些高速运动场景，使机器人也学会了快速执行动作。值得注意的是，并非所有团队都认同自然速度和高速运动的价值——例如 Sunday 就提到会要求采集员适当降低操作速度。这体现了 Generalist AI 在数据采集策略上的独特取向。
第二是真实的动态与恢复行为
人在自然操作中会产生下意识的反应和即时恢复动作，这正是无本体采集的优势所在。采集方式越不干扰人的自然操作、离操作物体越近，模型就越容易学到最真实的动作状态。

即兴能力与对齐问题

更值得关注的是，Generalist AI 在展望中提出了一个深层问题——对齐。我认为也是非常前沿的观点。

博客中写道：尽管基于大规模交互数据的预训练能够激发机器人的即兴发挥能力（例如摇晃袋子使物体就位、重新整理错放的物品、伸手去捡掉落的物体），但这些都是会产生实际后果的物理动作。机器人领域的"成功"并非放之四海而皆准——它取决于具体的任务、工作流程，最终取决于实际部署场景。这不仅关乎机器人必须做什么，而且（或许更重要的是）关乎它不应该做什么。因此，涌现行为既可以是优势（例如未经明确训练的恢复行为），有时也可能成为劣势。

也就是说，在有些时候到底怎么做的判断可能还是由人来做，某种行为在A场景是对的，但是在B就是错误的。 Generalist AI 技术博客引用的论文 Inference-Time Policy Steering（ITPS）指向了一个有前景的方向：不修改模型、不重新训练，仅在推理阶段通过人类输入来引导机器人行为。随着模型能力的提升，机器人策略本身已具备多种"可行但不同"的执行方式，核心问题不再是"会不会做"，而是"该怎么做"。因此，在执行时对其进行约束与引导变得至关重要。

是系统，不仅仅是模型

就像研究员Felix Wang说的，Gen-1是智能和控制的结合。Harness最近在AI agent很火，本质是让 AI agent 能“稳定干活”的运行与控制外壳。这意味着 harness layer 不是“大脑本身”，而是把大脑变成一个可部署、实时可控、可恢复物理系统的那一整层工程能力

主要来说有这么几点：

从模型架构来说，推理引入了一些新的架构： 系统引入了谐波推理以及新型分页注意力（Paged Attention）机制。谐波推理在此前的技术博客中已有披露；而分页注意力机制，从公开描述来推测，类似于给机器人的"大脑"建立了一套高效的分类索引——面对复杂的环境变化时，模型能够快速将注意力锁定在当下最相关的那一"页"信息上，从而在有限的推理预算内做出更精准的决策。
从infra来说，他们加强了预训练infra的建设
。为了处理PB级海量数据，团队必须重新设计分布式训练基础设施，使其能够原生支持大规模数据训练。此外，他们还构建了定制内核并大幅提升了训练的稳定性。
后训练与强化学习：
Generalist 还强调结合强化学习和人类在后训练阶段的多模态干预，这本质上是让机器人在与环境交互和人在环的指导中，提升动作的成功率和鲁棒性。
软硬件控制的强化：
在软件层面，强化了控制系统，使机器人的动作更加平滑和精确。

写在最后

最近听了张小珺和光轮智能谢晨的播客，其中提到的一些观点让我非常印象深刻。具身智能近6个月很多大厂都意识到具身智能的scaling law并付诸实践。就像LLM一样，具身智能也会从数据量的跃升提升zeroshot能力的竞争，再到预训练以及后训练的infra建设的系统性竞争。

无本体采集恰是有希望捕获最自然，最大量可被模型学习的数采方式之一。

从Gen0到Gen1，证明了无本体采集方式这条路的可行性，也看到了scaling law发挥作用下精细、告诉以及即兴泛化的操作能力的极高上限的同时，也给行业和企业更多的挑战和启示：如何从模型层面优化保证智能与末端控制的无缝衔接，如何构建从数据采集、清洗、标注再到预训练、后训练的全套infra能力，如何利用后训练的方法提升模型在真实世界中部署的效果等等。

就像大语言模型一样，具身会面临一场数据积累、模型信仰与系统级工程能力的全面长跑。非常值得期待。

关于TsingtaoAI

TsingtaoAI是一家专注工业具身智能领域的国家高新技术企业，旗下北京、宁波等地设有研发及运营团队。核心团队主要来自韩国首尔大学、中国农业大学、北京科技大学、蔚来汽车、美团、京东、硅基流动等产研组织，拥有深厚的AI Infra与机器人算法积淀。公司通过自研的通用PoC实验底座与多模态Agent编排引擎，为工业制造、高校实训等场景提供从数据生成、算法训练到即时部署的全栈解决方案。

TsingtaoAI解决具身智能落地最后一公里工程难题。构建一个高效、低成本、可复制的具身智能技能任务开发平台，将平台与具身大模型和异构端侧计算单元组成面向工业企业的物理AI软硬一体化解决方案。获24项AI领域知识产权，包括多模态大模型具身智能实验实训系统等。关键算法基于RISC-V芯片和昇腾NPU优化适配，实现突出性能。项目获长三角算力算法创新大赛冠军，山东省人社厅数字工程师大赛二等奖，宁波AI大赛二等奖、北京东城AI科创大赛技术创新组前三名，WAIC CICC大赛具身智能赛道前三名，入选河北垂直大模型应用场景名单。通过华为昇腾兼容性认证，在华油能源等企业落地。

Product & Case.

产品与案例

넳 넲

首页 ꄲ 所有文章 ꄲ 技术博客外，Gen1比Gen0进化了什么

ꄴ前一个：无

ꄲ后一个：无

产品中心

课程资源

联系我们

商务合作

微信公众号