2025具身端侧芯片与云边协同:除了NV Thor,还有哪些芯片在具身机器人上整活儿
在Embodied AI范式全面转向Physical AI的2025年,人形机器人与高度自主移动系统的核心竞争力已不再仅仅局限于关节电机的扭矩或机械结构的灵活性,而在于那颗能够实时处理视觉、触觉、语音并转化为精准动作序列的“端侧大脑”及其背后的异构协同逻辑。随着NVIDIA Jetson Thor的全面商用、国产自研具身专用SoC的异构崛起,以及VLA模型从云端向端侧小脑的频率桥接技术的成熟,具身智能的计算架构正经历一场从通用AI计算向专用物理交互计算的深刻演进。
第一章
2025年具身智能端侧计算平台的代际跨越
1.1 NVIDIA Jetson Thor:Blackwell架构对物理AI的统治力
-
作为2025年全球具身智能开发者的首选平台,NVIDIA Jetson AGX Thor不仅是算力的简单提升,更是对“物理交互实时性”这一核心命题的硬件级响应。基于Blackwell GPU架构的Thor,将端侧AI计算推向了FP4精度时代。通过引入下一代Transformer引擎,Thor能够动态地在FP4和FP8精度之间进行切换,这使得其在处理LLM模型和VLM模型时的推理效率较上一代Orin提升了7.5倍。
-
对于机器人开发者而言,Thor最显著的革新在于解决了GPU Oversubscription导致的实时性失效问题。传统的Jetson平台在运行多个并发AI工作流(如同时处理视觉导航、语音交互和精细抓取)时,容易出现由于GPU调度延迟导致的控制回路抖动。Thor通过多实例GPU隔离技术,允许开发者将单个显存物理划分为多个独立实例,为不同优先级的机器人任务分配专有的计算资源,确保关键的控制指令不会被次要的感知任务阻塞。

1.2 异构加速引擎:超越GPU的感知处理
在具身机器人的实际运行中,GPU主要承担复杂的深度学习推理,而大量的低层感知任务(如双目立体匹配、光流计算、实时图像合成)若全部堆叠在GPU上,会极大拖累整体能效比。Thor集成了第三代可编程视觉加速器(PVA 3.0)和专用的光流加速器(OFA),能够以极低功耗离线处理视觉感知流。实验数据表明,Thor T5000模块可以在30 FPS下同时处理8路960x600分辨率的立体深度图估计,且完全不占用GPU资源,这一性能较Orin提升了10倍。
此外,Thor内置的Holoscan传感器桥接(Holoscan Sensor Bridge)技术,实现了传感器数据经以太网直接传输至GPU显存的近零拷贝链路。这对于需要处理20个以上摄像头输入及激光雷达、IMU融合数据的人形机器人而言,是保证端到端时延低于50ms的技术基石。
第二章
国产自研芯片在具身领域的异构创新与反攻
2.1 华为Ascend系列:多精度与高带宽的平衡
2025年,华为在昇腾产品线上推出了专门针对人形机器人端侧优化的Ascend 950系列。面对具身大模型对内存访问带宽的极端渴求,华为引入了HiZQ 2.0 HBM技术,将内存带宽推升至4 TB/s,这一指标甚至超越了部分数据中心级GPU。在数据格式上,华为通过支持HiF8和HiF4等私有格式,在保证接近FP16精度的同时,实现了FP8甚至FP4级别的计算效率,Ascend 960在FP4下的算力可达4 PFLOPS。
这种架构设计的深层逻辑在于,具身智能的推理过程分为“Prefill”和“Decode”两个阶段。预填充是计算密集型的,需要强大的矢量处理能力;而解码是访存密集型的,对HBM带宽极度敏感。华为通过将计算资源与高带宽内存异构集成,解决了端侧运行10B甚至30B参数规模VLA模型时的“内存墙”问题。
2.2 Horizon征程6P:Nash BPU对Transformer的硬件解构
地平线在2025年大规模量产的Journey 6P芯片,代表了另一种极致优化的思路。不同于通用型GPU,征程6P基于Nash BPU架构,专门针对Transformer结构中的Attention机制进行了硬件硬化。其1000 TOPS以上的算力并非均匀分布,而是倾斜配置给了大模型推理中最常见的矩阵乘法与线性代数运算。
征程6P的竞争优势在于其系统级的高效性。通过深度优化VLM模型与VLA模型的执行流水线,征程6P能够以更低的功耗实现与Thor相当的实时感知帧率。这使得它在电池容量受限、散热空间紧张的便携式或小型化人形机器人市场中表现尤为抢眼。
2.3 瑞芯微(Rockchip)RK3688:中端市场的“质价比”标杆
对于大量的商用服务机器人和教育类具身设备,瑞芯微的RK3688在2025年展现了极强的统治力。采用4-5nm先进工艺的RK3688,配备了8个Cortex-A730高性能核心和4个Cortex-A530能效核心,其RKNN-P3 NPU提供了32 TOPS的算力。
虽然RK3688在绝对算力上无法与Thor抗衡,但其极强的多媒体处理能力(支持16K@30FPS解码和8K@60FPS编码)使其在多摄像头环视监控和实时视觉语义分割任务中极具优势。RK3688与Jetson系列的对比反映了市场的两极分化:高端市场追求物理AI的极致推理,而量产市场则在算力、功耗与成本(SWaP-C)之间寻求最优解。

第三章
端侧小脑的部署细节:从模型蒸馏到微秒级闭环
在具身智能架构中,“小脑Cerebellum”主要负责高频运动控制、平衡维持和精细触觉反馈。2025年的行业共识是:大脑(Cloud/Edge LLM)负责语义理解与长程规划(5-10Hz),而小脑必须在端侧实现500Hz至1000Hz以上的确定性实时控制。
3.1 强化学习策略的蒸馏与剪枝:D-PPO框架的实践
由于直接运行原始RL大模型会消耗过多的计算资源并产生不可接受的随机延迟,2025年的主流部署方案采用了Distillation-PPO技术。该方案通过一个两阶段流程,将复杂的运动技能下放到端侧芯片。
在第一阶段,开发者在NVIDIA Isaac Sim中使用全知Privileged Information,如地形阻力系数、重心实时坐标,训练一个Teacher Policy。第二阶段,通过知识蒸馏技术,将教师策略的行为模式转移到一个仅依赖端侧传感器(如IMU、关节编码器、深度相机)的Student Policy。
在端侧部署时,这种策略通常被转化为高度优化的ONNX或TensorRT图。针对NPU的异构特性,开发者会对权重进行INT4量化,并结合MiniKV等KV缓存压缩技术。实验显示,MiniKV在将KV缓存大小减少86%的情况下,依然能保持98.5%以上的下游任务准确度,这对于在内存带宽受限的端侧芯片上维持高频控制循环至关重要。
3.2 实时反馈回路与传感器融合的硬件加速
具身机器人小脑任务的挑战在于处理传感器数据的异质性。例如,特斯拉Optimus Gen 3在其第三代灵巧手中集成了复杂的力觉传感器组,这些传感器需要处理法向力、剪切力和表面纹理特征。
在端侧部署中,这类高频数据的处理流程通常被硬化至DSP或低功耗NPU中。以Nuclei System Technology的RISC-V AI子系统为例,通过集成了RVV 1.0并行计算指令集的CPU与NACC神经网络加速器,可以在极低延迟下完成IMU数据的卡尔曼滤波与足端触觉反馈的解算。这种“小脑”与“外周神经”的异构分工,确保了机器人即使在大脑遭遇网络波动或计算资源被重载任务占据时,依然能依靠本地小脑维持基本的物理平衡和安全避障。
第四章
2025年云边协同技术进展:VLA模型的频率桥接与调度
具身智能最核心的技术难题在于:如何将云端或本地边缘端产出的、具有语义理解能力的VLA模型与底层物理执行器的毫秒级脉冲同步。
4.1 频率桥接:10Hz决策与1000Hz动作的同频共振
2025年,全球主流技术路线(如Google RT-2, Figure 02, π0)普遍采用异步分层架构来解决频率差异。其核心机制如下:
-
分层预测模型:云端大脑(如运行在H100集群上的大模型)基于当前视觉帧($v_t$)和语音指令($t_t$)生成一个高层的动作意图描述(如“末端执行器向坐标A移动,保持抓取力为B”),频率约为5-10Hz。
-
势能场/轨迹描述子转化:这些指令不直接发送给驱动器,而是转化为一组时变的势能场参数或三次样条曲线参数。
-
端侧高频插值与跟踪:端侧小脑芯片(如Thor)接收这些参数,并在本地以1kHz的频率进行Tracking Control。即使云端延迟增加,端侧仍能根据上一帧收到的参数集进行合理的预测性执行。
4.2 基于异构芯片的资源隔离与调度协同
在单机多芯片或异构SoC(多核CPU + GPU + NPU)环境下,资源竞争会导致严重的Jitter。2025年的行业实践引入了更精细的调度机制。
-
4.2.1 UMA与NUMA架构的取舍
在具身机器人SoC设计中,统一内存访问(UMA)因其编程简单而被广泛采用,但在高并发场景下容易产生总线带宽争抢。2025年,高性能机器人系统开始借鉴数据中心的NUMA理念,将视觉处理单元VPU与本地缓存绑定,减少跨节点内存访问导致的随机延迟。
-
4.2.2 ChatVLA框架下的任务隔离
ChatVLA等先进框架在架构设计上引入了MoE思想。在MLP层中,ChatVLA区分了“Control Expert”和“Understanding Expert”。在底层硬件调度时,这种逻辑隔离被映射到芯片的物理核上。例如,在Ascend 950上,SIMD单元专门负责高频的控制张量运算,而SIMT单元则处理更具弹性的理解任务,两者通过128字节的细粒度访存进行快速同步,从而避免了相互间的参数空间冲突。
第五章
软件中间件的深度优化:ROS2在异构环境下的进化
2025年,ROS2已进化为人形机器人的事实标准。针对具身智能的特殊需求,ROS2在通信机制和执行效率上进行了显著改进。
5.1 零拷贝与内存共享的极限压榨
为了满足8K高清视觉和激光雷达点云的实时传输,ROS2在2025年全面普及了基于FastDDS共享内存SHM的零拷贝传输技术。在Linux环境下,通过对/dev/shm路径的深度利用,图像感知节点可以将原始数据直接写入显存共享段,而异构处理器上的感知节点(如运行在Thor MIG实例上的YOLO节点)可以直接引用该内存指针。这种方式将跨进程时延从毫秒级降低到了微秒级,并极大节省了CPU在序列化/反序列化过程中的开销。
5.2 确定性执行器Determinate Executor的引入
传统的ROS2执行器采用基于回调函数的公平调度,但在具身控制中,这种模式会导致灾难性的优先级反转Priority Inversion。2025年的实时性增强方案(如CallbackIsolatedExecutor)通过为每个执行器分配独立的OS线程优先级,并引入Skipping Scheme来绕过低优先级的阻塞任务,确保了Control Chain的端到端响应时间是可预测的。
第六章
行业前沿案例深度解析:特斯拉Optimus与Figure 02
6.1 特斯拉Optimus Gen 3:硬件与计算的物理一致性
特斯拉Optimus在2025年展现出的惊人进化,其背后是“极致减负”的异构设计。Optimus并没有使用昂贵的离散计算单元,而是深度复用了特斯拉FSD的自研芯片架构。
其部署细节中的“Physics-first principles”值得行业深思:Optimus将大量的计算任务下沉到了关节端的微型控制器中,每一个Actuator都具备一定的本地解算能力,这种高度分布式的“边缘神经丛”架构,减轻了中央主控芯片大脑的负担。同时,Optimus通过使用高性能的铝合金与碳纤维框架,不仅实现了轻量化,更将其作为了散热系统的延伸,支持端侧芯片在全功率状态下长时间运行。
6.2 Figure 02:云-边-端三位一体的协同范式
Figure 02作为2025年另一款现象级产品,其核心突破在于将NVIDIA的整个生态闭环化。通过NVIDIA Isaac Sim生成的Synthetic Data训练出的模型,在Jetson Thor上实现了几乎零误差的Sim-to-Real迁移。
Figure 02在端侧配备了两块NVIDIA RTX GPU模块,实现了比前代提升3倍的推理能力。这种冗余设计并非算力的简单堆叠,而是为了实现Fully Autonomous Tasks与实时Conversational AI的并发。Figure 02与OpenAI的深度合作,也展示了云端大脑GPT-5级能力如何通过低延迟链路下发逻辑规划,再由端侧Thor芯片转化为具体抓取力度的协同细节。
第七章 总结与2025-2027年技术展望
2025年不仅是具身智能端侧芯片的算力爆发年,更是异构协同技术的成熟年。从NVIDIA Jetson Thor的Blackwell架构,到国产厂商在BPU、RISC-V以及高带宽内存上的差异化创新,行业正逐步走出“通用芯片+通用系统”的草局,进入“专用物理AI芯片+确定性中间件+云边分层大脑”的纵深地带。
未来两年的核心演进方向将聚焦于以下三点:
-
端侧KV缓存与长上下文优化:随着具身机器人需要理解的任务越来越复杂,端侧芯片对大规模KV缓存的管理能力将成为决定机器人是否具备“持久记忆”的关键。
-
安全性与确定性调度的标准化:随着人形机器人进入家庭和工厂,如何从芯片底层保证控制信号的不可抢占性,将成为继算力之后的第二生命线。
-
异构生态的开放与融合:以RISC-V为代表的开放架构将进一步向具身领域渗透,为开发者提供更灵活的底层指令定义能力,从而实现更高能效比的“端侧小脑”。
对于具身智能开发者而言,理解端侧芯片的异构本质,学会利用MIG、SHM零拷贝及D-PPO蒸馏等底层技术,将是构建具备全球竞争力的具身产品、从“动作模仿”走向“物理精通”的必由之路。
TsingtaoAl是一家专注于通用具身智能PoC实验底座研发及产业化的高科技企业。公司致力于解决具身智能"最后一公里"问题,让企业AI应用验证效率提升70%,开发周期缩短50%。目前已与华为、联想、百度智能云等建立深度合作,服务30余家行业头部企业,拥有10余项落地案例和20项 AI领域知识产权。