VLA高效模型:轻量组件、混合专家与分层系统
Zhaoshu Yu, Bo Wang, Pengpeng Zeng, Haonan Zhang, Ji Zhang, Lianli Gao, Jingkuan Song, Nicu Sebe, and Heng Tao Shen, IEEE Fellow
摘要:

VLA模型代表具身智能的重要前沿,旨在弥合数字知识与物理世界交互之间的鸿沟。尽管这些模型展现了卓越的通用能力,但其部署受到底层大规模基础模型固有的大量计算和数据需求的严重阻碍。为应对这些挑战的迫切需求,本综述首次全面综述了高效VLA模型在数据-模型-训练全流程中的研究进展。具体而言,我们提出统一的分类体系,系统性地组织该领域的不同研究工作,将当前技术分为三大核心支柱:(1)高效模型设计,侧重于高效架构与模型压缩;(2)高效训练,降低模型学习过程中的计算负担;(3)高效数据收集,解决机器人数据获取与利用中的瓶颈问题。通过批判性地综述该框架下的前沿方法,本综述不仅为学术界提供基础参考,还总结了代表性应用,阐明关键挑战,并绘制未来研究路线图。我们维护持续更新的项目页面以跟踪最新进展:https://evla-survey.github.io/
*索引术语——视觉-语言-动作模型、高效VLAs、具身人工智能、机器人操作
1.引言
制造商必须立即拥抱智能机器人技术
VLA模型代表具身智能的突破性进展,开辟了从数字认知到物理世界执行的直接路径。基于大规模预训练的VLMs,诸如OpenVLA、π0等代表性VLA通过融合视觉与语言模态,实现多模态感知与理解,从而有效生成用于真实世界交互的动作。其应用范围广泛且具有变革性,涵盖自动驾驶、工业制造、医疗机器人、实验室自动化等领域,有望革新产业、增强人机协作,并解决机器人领域的基础性挑战。
VLA的核心是一个模块化架构,通过视觉编码器和语言编码器融合多模态输入,处理原始跨模态数据指令与感知;动作解码器则将融合后的表征映射为底层控制信号以实现具身执行。当前VLA研究聚焦于在端到端框架中统一感知、语言理解和动作生成,重点强调架构创新、大规模多模态预训练以及提升在多样化任务、载体和环境中的泛化能力策略。

图1:有效VLA的必要性。该图展示了强大但资源密集的基础VLA与实际部署需求之间的差距,开发更紧凑、经济且适用的解决方案是推动高效VLA研究的主要动机。
尽管通过无缝整合感知、推理与控制将具身智能推向前所未有的高度,但其效能仍受制于显著的效率瓶颈。这些依赖扩展的范式继承了其LLM和VLM基础的资源密集特性,具体表现为:
(1)高推理延迟和频率不足,无法满足响应式操作所需的亚秒级控制周期;
(2)高昂的预训练需求,例如π0需要10,000小时的机器人轨迹数据,而OpenVLA在64-GPU集群上消耗了21,500 A100-GPU小时;
(3)耗时且劳动密集型的大规模数据集,使得在资源受限环境中训练不可行。如图1所示,基础VLA模型面临显著的效率挑战,通常需要云服务器的计算支持,无法在边缘设备上高效开发和部署。通过高效VLA设计解决这些问题,为资源受限的研究者提供更便捷的访问途径,并支持多样化场景的部署,同时提升推理速度以实现更流畅的控制和更好的任务性能。
在本综述中,我们专注于具身智能领域的高效VLA模型,旨在通过提出详细分类体系系统化这一快速发展领域。我们将高效VLA定义为在开发和部署全生命周期中保持高性能且低开销的系统。如图2所示,我们将现有方法组织为包含三个核心技术方向的结构化分类体系:
(1)高效模型设计:涵盖优化VLA架构和推理效率的创新策略,包括高效架构和模型压缩;
(2)高效训练:整合先进方法以降低VLA训练过程中的计算和数据负担,包括高效预训练和高效后训练;
(3)高效数据收集:整合前沿方法以高效提升数据收集与增强,采用交互式、模拟、重用导向及自驱动技术,实现更高效、可扩展的数据获取。
这一开创性分类体系标志着对高效VLA领域前沿进展与技术路径的首次全面系统梳理,也是首篇覆盖VLA开发与部署的数据-模型-训练全流程的高效VLA综述,为未来研究奠定基础并推动该领域迈向协同发展前沿。尽管已有数项优秀综述对通用VLA模型或更广泛的具身AI领域进行了梳理,但针对VLA效率这一关键方面的系统性综述却明显缺失。本综述填补了这一关键空白,首次系统整合了针对资源受限场景下优化VLA以实现实际部署的分散研究工作,成为研究人员和实践者的必备参考。同时,本综述不仅补充了现有文献,还正式定义并构建了高效VLA这一新兴子领域。
本次调查的主要成果总结如下:
-
开创性综述:据我们所知,本综述是首篇专门针对高效VLA领域的全面综述,覆盖“数据-模型-训练”全流程,填补了文献中的关键空白,为研究社区提供基础性参考。
-
创新分类体系:我们提出了一种新颖且系统化结构的分类体系,将构建高效VLA的核心技术体系组织为三个相互关联的支柱:高效模型设计、高效训练和高效数据收集。
-
未来研究路线图:我们深入分析该领域面临的关键挑战与当前局限,提出有前景且前瞻性的研究方向,以激励和引导可扩展具身智能的未来发展。
本综述的后续章节结构如图2所示。第2节介绍VLA模型的基础概念,阐述需要提升效率的计算挑战。第3节深入探讨高效模型设计,系统性分类高效架构创新与模型压缩技术。第4节研究高效训练范式,涵盖预训练与后训练阶段的计算开销降低策略。第5节分析高效数据收集的关键作用,探索可扩展数据收集与高效增强方法以最大化数据效用。第6节综述关键应用,展示高效VLA在现实场景中的显著潜力与实用价值。第7节讨论当前挑战并展望未来研究方向。最后,第8节总结全文。

图2:综述的组织结构。我们系统性地将高效VLA模型分为三大核心支柱:(1)高效模型设计,涵盖高效架构与模型压缩技术;(2)高效训练,涵盖高效预训练与后训练策略;(3)高效数据收集,包括高效数据收集与增强方法。该框架还回顾了VLA基础、关键应用、挑战及未来方向,为推进可扩展的具身智能奠定基础。
2.视觉-语言-动作模型
VLA模型的出现标志着具身智能领域的一次范式转变,重新定义了类人感知与自主行动之间的协同关系。经典VLA框架将预训练VLMs的能力延伸至可执行的机器人控制,无缝融合多模态感知与语言以驱动精准的运动响应。然而,它们对大规模计算集群和海量多样化训练数据的依赖常常阻碍了在资源受限环境中的开发和部署,凸显了高效VLA解决方案的迫切需求。响应这一需求,致力于高效VLA的研究者们正在积极开发创新架构和优化技术,以提升实际应用中的效率。
2.1 VLA概述
VLA标志着具身智能的关键里程碑,通过扩展预训练VLM的能力,实现精确的机器人动作执行。其核心任务是将多模态感官和语言输入转换为连贯的物理响应,弥合抽象理解与动态环境中实际运动控制之间的差距。

图3:VLA概述。VLA通过视觉编码器提取视觉特征,利用LLM骨干网络融合多模态输入,并通过MLP-based、autoregressive或generative生成机器人控制信号,实现端到端的视觉-语言-动作推理,用于具身操作任务。
2.1.1 基础流程
如图3所示,VLA的基础流程将多模态推理划分为三个协同模块:视觉编码器将场景图像编码为图像块嵌入;增强以支持视觉-语言融合的LLM骨干网络负责高层次推理;动作解码器生成精确的控制轨迹。通过利用预训练模型,VLA打破任务孤岛,构建可扩展的、擅长长时程操作的智能体。
视觉编码器: 在输入阶段,视觉编码器Eimg(·)接收RGB观测数据并提取其层次化特征。主流选择包括ViT、SigLIP、DINOv2和CLIP等视觉Transformer,这些模型在大规模语料上进行的对比学习或自监督预训练赋予其零样本泛化能力。抽象来看,该模块将原始图像映射为语义标记。
-
v=Eimg(I;θimg),其中 I ∈ RH×W×3 表示输入图像,v ∈ RNv×Dv 表示视觉token,θimg 表示编码器参数。LLM骨干网络:投影器P(·)确保无缝对齐并弥合模态差距,多模态序列输入至LLM(·)——语义推理的核心。涵盖LLaVA、Qwen、PaLM、Gemma、Llama、Mamba、VILA-U和Vicuna等预训练LLM处理融合后的嵌入以进行任务规划,其公式可表示为:
-
h = LLM(P(v, l); θLLM),其中l ∈ R^{Nl×Dl} 表示语言token,h ∈ R^{Nh×D} 表示隐藏状态,θLLM 表示LLM参数。动作解码器:作为流程的最终环节,动作解码器将潜在变量转换为机器人可用的输出,例如末端执行器位姿和夹爪指令。常见实现包括扩散模型/流匹配用于轨迹的随机细化、自回归解码用于序列动作预测,以及基于MLP的轻量级架构。所有方法均基于推理生成动作序列:
-
a1:T = Dact(h;θact), 其中 a1:T ∈ RT×Da 表示 T 个时间步的动作块,θact 为解码器参数。
本质上,这种三元架构(包括视觉编码、语言推理和动作生成)在端到端框架中统一了感知与执行,推动VLA向可泛化的具身智能发展。

图4:基础VLA模型与高效VLA的发展时间线(2023-2025年)。该时间线展示了基础VLA模型和高效VLA从2023年至2025年的演进过程,突显了提升VLA效率以弥合计算需求与真实世界机器人部署之间差距的爆炸式增长。
2.1.2 数据集与基准测试
VLA的进展与大规模、多样化、结构化训练数据和评估基准的可用性密切相关。该领域已积累了大量数据集,可大致分为真实世界数据集和模拟数据集。
真实世界数据集。VLA训练的核心是Open X-Embodiment (OXE)数据集。这一协作努力汇集了多个机器人实验室的数据,涵盖广泛的任务、机器人形态和环境。其规模和多样性对训练具有强大泛化能力和迁移学习能力的模型至关重要。
除OXE外,还有其他重要数据集,如专注于跨域任务的BridgeData和BridgeData V2,以及以大规模灵巧远程操控数据"in the wild"著称的DROID。这些数据集为VLA学习物理世界的动态特性和约束提供了关键的"具身"体验。
-
模拟数据集:由于物理数据收集的成本和可扩展性限制,模拟平台在生成VLA所需的大规模训练数据方面发挥着不可或缺的作用。RLBench提供了大量预定义操作任务的库,配有标准化评估协议,作为算法开发的常用测试平台并提供大量预训练数据。RoboCasa进一步扩展了模拟范围,提供了专注于通用型机器人日常任务的大规模模拟环境,显著提升了训练场景的多样性和实用性。同时,RoboGen通过利用生成式模拟自动生成大量任务、场景和训练演示,推动为自动化机器人学习释放无限数据。这些模拟环境共同实现了快速原型设计、大规模数据增强,以及在真实世界部署前对策略在受控条件下的安全测试。
-
基准测试:严格评估对跟踪进展至关重要。已建立一套基准测试以评估VLA性能的各个方面。Meta-World提供了一系列具有挑战性的机器人操作任务,而LIBERO则专注于序列任务设置中的终身学习和知识保留。CALVIN和SIMPLER[48]旨在评估对新指令、物体和场景的泛化能力,以及长时程推理。近期,VLABench作为专为评估具身场景中VLA视觉grounding和动作推理能力的基准测试出现。这些基准测试的综合使用确保了对模型鲁棒性、泛化能力和实际效用的全面评估。
2.2 高效VLA的必要性
尽管基础VLA模型展现了强大的能力,但其超出研究原型的应用仍面临重大障碍,这源于显著的低效问题。这些挑战源于支撑其成功的两个属性:模型架构和数据流程。
表1:代表性VLA模型的效率相关指标。该表格比较了不同代表性VLA模型的参数量、推理延迟和操作频率,其中↓表示数值越低越好,↑表示数值越高越好。

效率低下的主要根源在于大型VLM骨干网络本身的计算开销。VLA基础模型以其复杂的Transformer架构和庞大的参数量为特征,需要大量计算资源进行推理。如表1所示,这导致高延迟和控制频率不足,通常无法满足动态环境中机器人控制的实时需求。此外,视觉输入的高维度进一步加剧了这一问题,因为通过大型模型处理长序列视觉token具有极高的计算强度。
第二个关键挑战是VLA预训练所需大规模数据集的巨额成本。真实世界机器人演示数据的收集,如OXE或BridgeData,本质上耗时、昂贵且复杂。同样,生成大规模模拟数据集需要显著的计算资源和场景设计的专业知识。在这些大规模数据集上进行模型预训练产生天文数字般的计算成本,消耗大量能源,使该过程仅限于资源充足的机构。
这些低效问题共同导致应用部署的关键瓶颈,特别是在自动驾驶和经济型消费级机器人等资源受限环境中。高推理延迟、过度能耗和高昂开发成本阻碍了广泛部署及实现响应式机器人控制的实时性能。因此,追求效率不仅是可选的优化,更是解锁VLA在更广泛机器人领域变革潜力的根本前提。如图4所示,基础VLA和高效VLA的发展轨迹同步推进。值得注意的是,时间线显示高效VLA的涌现出现明显加速,尤其从2024年末开始。这种激增凸显了对资源高效模型研究的快速升温,很可能由真实世界机器人部署需求驱动。
2.3 相关综述
VLA的蓬勃发展正在确立该框架作为具身智能的核心范式,推动了一系列专注于系统性阐述的学术综述。这些综述主要关注VLA的定义、组成结构、模型架构和训练范式,以及与VLA相关的数据集和基准测试。例如,Ma等人提供了VLA组件的全面概述,涵盖低级控制策略和高级任务规划器,以及各种数据集和基准测试,从而对具身智能中VLA模型的各个方面进行了整体审视。Shao等人在总结主流VLA架构的同时,引入了由大型VLMs驱动的视角,阐明了大规模预训练VLMs如何影响VLA的发展。Xiang等人将VLA模型后训练与人类运动学习进行类比,提出了与人类学习机制对齐的结构化分类体系。Zhong等人将动作标记器的设计确定为VLA架构设计的核心,并系统性地分类了主流VLA动作标记器的设计原则。尽管和在某些领域简要提及了与高效VLA相关的工作,但其覆盖既不全面,也未形成普遍接受的分类体系。因此,该领域仍缺乏专门针对高效VLA的综述。本综述旨在填补这一关键空白,作为首篇全面综述高效VLA,聚焦于数据、模型和训练的整个生命周期。它旨在系统性地剖析和整合使高效VLA开发和部署成为可能的架构、算法和优化策略,从而为未来创建可扩展、资源敏感且实际可部署的具身AI系统奠定基础。
3.高效模型设计
推动VLA实现广泛部署需要平衡其卓越的多模态表征能力与现实应用中的资源约束,其中计算效率仍是关键瓶颈。尽管VLA通过感知与动作推理的无缝融合革新了具身智能,但其对十亿参数架构的依赖导致过高的推理延迟和资源需求,阻碍了在受限机器人系统中的集成。高效模型设计通过轻量而强大的架构和先进的压缩技术弥合这一差距,在保持语义完整性的同时显著降低参数量和计算成本。
本章提出统一分类体系,包含两个互补方面:
-
高效架构,通过模块化设计、推理加速和稀疏处理优化结构,提升效率而不损害模型性能;
-
模型压缩策略,通过层剪枝、量化和令牌优化减少表示冗余,生成紧凑且高性能的模型。

图5:高效架构的关键策略。我们展示了六种主要方法:(a) 高效注意力,降低标准自注意力的O(n²)复杂度;(b) Transformer替代方案,例如Mamba;(c) 高效动作解码,从自回归生成转向并行和生成方法;(d) 轻量级组件,采用更小的模型骨干;(e) 混合专家,通过输入路由实现稀疏激活;(f) 分层系统,将高层VLM规划与底层VLA执行解耦。
3.1 高效架构
高效架构是可扩展VLA的基础,通过针对性创新在资源受限条件下维持多模态协同和动作精度,从而降低计算开销。如图5所示,本小节全面探讨了从高效注意力机制、Transformer替代方案、并行化与生成式范式的解码加速、轻量级组件、混合专家模型到层次化处理等开创性贡献。所有高效架构的代表性工作均总结于表2中。

3.1.1 高效注意力机制
Transformer是现代神经架构的基础模型,其核心为注意力机制,广泛用于跨领域特征对齐和多模态融合,包括在VLA中协调感知-语言协同以实现具身推理。然而,注意力机制固有的序列长度二次复杂度在实时机器人长时程动作中会产生难以承受的计算负担。
为应对这一挑战,优化方案主要围绕三个方向展开:线性时间复杂度架构以突破二次扩展限制,高效掩码策略用于剪枝冗余交互,以及KV缓存优化以简化内存受限的推理过程。
在线性时间范式中,SARA-RT引入了上训练机制,将Transformer无缝转换为线性注意力对应模型,保留表示保真度,以在有限预算下实现实时控制。为实现高效掩码,Long-VLA采用相位感知输入掩码,在运动阶段聚焦静态相机标记,在交互阶段聚焦夹爪标记,为长期操作构建稳健机制;同时,dVLA开创性地提出统一扩散框架与前缀注意力掩码,与KV缓存协同工作,以缩减推理计算和内存占用。RetoVLA通过策略性地将丢弃的寄存器标记作为辅助键值对注入动作专家,增强交叉注意力的全局空间上下文,实现高效决策而无需增加核心复杂度。此外,KV-Efficient VLA通过轻量级循环门控将历史KV缓存压缩为信息丰富的分块表示,自适应保留关键上下文以简化自回归流程。
这些改进共同提炼出注意力机制的本质,形成可扩展的VLA流水线,在表达能力与经济操作之间取得平衡。
3.1.2 Transformer替代方案
除注意力机制改进外,新兴范式在VLA中用同样强大但更高效的架构替代Transformer骨干网络,例如由Mamba引领的状态空间模型以线性计算扩展提供强大的序列建模能力。RoboMamba首次将Mamba引入VLA作为语言骨干,彻底消除Transformer的二次方瓶颈,促进简化的具身推理。FlowRAM在此基础上将Mamba与条件流匹配和动态半径调度紧密结合,提升高精度操作场景中的效率和精度。这些替代方案预示着VLA架构向更精简方向转变,同步实现架构精简与多模态性能不妥协。
3.1.3 高效动作解码
在VLA中,经典的动作解码范式将图像和语言指令作为提示,将连续动作离散化为分箱token,由视觉-语言模型自回归生成响应,从而将运动输出统一到连贯的token流中。然而,这种自回归方法存在固有缺陷,主要是逐token生成导致的累积推理延迟,阻碍实时具身控制。为应对这一问题,并行解码范式通过并行预测多个token加速自回归流,同时抑制保真度损失。此外,基于生成建模的模块以整体轨迹合成取代自回归链,利用潜在分布规避序列瓶颈,为敏捷机器人生成确定性、低延迟的动作序列。
-
并行解码:并行解码范式通过协调并发标记预测缓解VLA中的自回归延迟,催化实时具身动作执行。OpenVLA-OFT作为OpenVLA的扩展,率先采用双向注意力掩码取代因果注意力掩码,实现单次前向传播并行预测长度为K的动作块,EdgeVLA的类似框架亦沿用此策略以简化解码流程。PD-VLA将自回归序列重新定义为可通过并行雅可比迭代求解的非线性不动点方程,仅需远少于序列长度n的迭代步数即可生成完整动作轨迹且开销极小。CEED-VLA通过放宽收敛阈值实现提前退出解码,缓解PD-VLA因严格标准导致的低效问题,同时借助一致性蒸馏确保输出保真度以维持性能。Spec-VLA首次在VLA中引入推测解码,通过放宽接受机制提升草案标记的接受率与平均长度,显著加速推理过程。
-
生成式解码:TinyVLA [64]率先将扩散策略作为专用解码器,直接合成连续机器人动作,规避离散标记化的刚性限制。HybridVLA通过在单一Transformer架构中协同部署扩散与自回归建模,将DDIM采样压缩至仅四步且不损失性能,从而加速推理。FreqPolicy通过频域一致性约束增强基于流的策略,利用动作序列的时间相干性线性化概率流,在保障序列完整性的同时实现单步推理加速。FlowRAM将条件流匹配嵌入机器人策略合成,回归确定性向量场以规避扩散的迭代去噪级联,实现极短时间步下的快速推理。MinD通过将扩散策略条件化于预测性世界模型生成的单步潜在变量,构建高效生成解码策略,避免昂贵的全帧视频生成,并证明紧凑且信息密集的未来表征足以生成高保真控制信号。VQ-VLA首创基于VQ-VAE的动作轨迹离散化方法,在OpenVLA上级联预训练VQ解码器,以高效方式提炼高保真序列。AMS通过缓存潜在向量和验证过的成功轨迹优化扩散解码,审慎剪枝去噪迭代以加速收敛。NinA用归一化流解码器替代扩散,利用可逆单次采样消除生成链固有的延迟问题。
综上所述,离散扩散VLA将扩散的渐进式优化与离散标记接口融合,支持自适应“先易后难”解码和重掩码错误修正——保留VLM先验知识,规避自回归瓶颈,使动作解码与VLM变换器对齐,从而实现大规模VLA的统一扩展。
3.1.4 轻量级组件
轻量级组件为高效VLA提供了最直接的途径,通过提炼参数本质并利用统一缩放机制来扩展VLA规模。
RoboMamba仅用3.7M参数的MLP策略头即可精准预测6-DoF末端执行器位姿,在大幅降低开销的同时保持精度。TinyVLA [64] 开创性地采用紧凑架构,将预训练的轻量级VLM与基于扩散的策略解码器相结合,在保持完整操作准确性和泛化能力的同时,实现了前所未有的推理速度和数据效率。同样,Edge-VLA和MiniVLA通过将Qwen2-0.5B SLM骨干与SigLIP和DINOv2视觉编码器集成,构建了1B参数模型,以出色的紧凑性支持边缘部署。CLIP-RT将冻结的预训练CLIP重新用作统一编码器,参数量仅为OpenVLA的1/7,但平均成功率却提高了24%,颠覆了规模-性能的传统认知。在Diffusion-VLA [91] 的变体中,极简的DiVLA-2B以Qwen2-VL-2B作为VLM骨干,在单个A6000 GPU上达到82 Hz的处理速度,堪称吞吐量之王。SVLR创新性地将多种轻量级预训练模块——包括用于视觉-语言的Mini-InternVL、用于零样本分割的CLIPSeg、用于语言建模的Phi-3和用于句子嵌入的all-MiniLM——整合为无需重新训练的VLA架构,使消费级硬件上实现可扩展的任务泛化成为可能。NORA以Qwen-2.5-VL-3B为核心,与FAST+动作标记器协同,在效率上可与远为庞大的VLA模型相媲美甚至超越。SP-VLA提出了一种动作感知调度器,将序列划分为深思熟虑和直觉性片段,动态调用重型VLA或轻量级预测生成器,实现频率自适应加速,同时性能下降可忽略不计。
这些创新推动VLA组件轻量化,共同催化可扩展具身智能的发展
3.1.5 Mixture-of-Experts
MoE架构通过将token路由到专业子网络,仅激活部分参数来提升容量而不显著增加推理成本,从而在VLA中实现效率。
GeRM首次将稀疏MoE集成到四足强化学习中,展示了选择性参数激活如何在提升模型表达能力以实现多任务泛化的同时保持推理效率,从而开创了高保真、计算可行的VLA策略范式。FedVLA通过双门控专家混合机制推进这一方向,通过具有双向关联性的自我感知专家超越传统top-K路由的单向token-专家选择,动态稀疏化计算图以在资源受限的情况下维持任务效能。TAVP通过任务感知MoE进一步优化这一模式,条件性激活任务特定专家处理融合的视觉-语言信号,在异构操作领域间解耦表示,同时通过语义聚类路由门促进参数效率。
这些MoE实例共同预示了模块化、自适应VLA模型的发展趋势,能够在广泛泛化能力与实际部署需求之间取得平衡。
3.1.6 分层系统
VLA中的分层系统从心理学双过程理论中汲取开创性灵感,将认知分为深思熟虑、语义丰富的deliberation和直觉性、快速的执行,以模拟人类具身代理。这些范式将计算密集型VLM推理与对延迟敏感的动作生成解耦,协调异步执行以调和深度语义理解与即时控制需求。
HiRT、DP-VLA和SmolVLA开创了这种分层架构,其中语义密集但计算较慢的VLM表示异步地指导轻量级、高频率的策略,在泛化能力和实时执行保真度之间取得最佳平衡。RoboDual将这种二元性付诸实践,以OpenVLA作为高层规划器提供离散化动作和潜在编码,并由轻量级扩散Transformer专家进行快速执行;其中的延迟感知训练使专家能够修正异步交互中的时间错位,增强协同鲁棒性。HAMSTER利用高级VLM生成可执行的2D轨迹草图,以指导专用的低层策略,融合VLM的广泛泛化能力与紧凑策略的经济性。FiS通过部分参数共享增强系统间协同,将System 1执行器嵌入以VLM为中心的System 2中,促进无缝的推理-执行协调。Fast ECoT将这种异步推理理念扩展到具身思维链推理框架,战略性地将潜在推理与动作流解耦,以实现并行的认知细化和输出生成,从而在不增加时间负担的情况下提升推理深度。MinD通过协同整合低频生成式世界模型与高频扩散策略来完成这一发展脉络,后者以语义丰富的单步潜在变量为条件,实现高效实时决策,而无需高昂的计算成本。
综合来看,这些具有韧性的层级化VLA系统实现了认知深度与操作敏捷性的平衡。

图6:VLA中模型压缩的关键策略(第3.2节)。我们展示了三种主要方法:(a) 层剪枝(第3.2.1节),移除冗余层以降低模型深度和计算成本;(b) 量化(第3.2.2节),降低模型参数的数值精度以减少内存占用并加速推理;(c) Token优化(第3.2.3节),通过Token压缩、Token剪枝和Token缓存来减少处理的Token数量。
3.2 模型压缩
在资源受限部署的前沿,模型压缩是高效VLA的基石,精妙地将大量参数集合提炼为精简架构,同时巧妙地提升VLA的推理效率。如图6所示,本小节系统性地综述关键技巧,从层剪枝和量化到令牌优化,阐明其通用方案及其如何提升效率,以培育稳健、边缘兼容的架构。表3总结了代表性模型压缩方法。

3.2.1 层剪枝
层剪枝是模型压缩中最直接的方法,通过动态机制精确移除冗余层,显著降低VLA的参数量和推理延迟。受大型语言模型中层间冗余现象的驱动——相邻层间余弦相似度较高——该方法在不影响具身任务所需精细多模态协同的前提下提升效率。我们将其分为两大类:无需训练的策略和基于训练的策略。
训练无关方法通过事后分析加速部署。DeeR-VLA首创该思路,引入动态早退出框架,在确保动作预测一致性的情况下跳过后续层,从而大幅降低计算开销同时保持竞争力的任务性能。受基础剪枝启发的 SmolVLA采用务实的朴素策略——跳过 N = 2/L 的层比例——以适应资源稀缺环境中的实际应用。RLRC使用泰勒重要性准则评估并消除低贡献层,实现整体高达90%的激进稀疏度。FLOWER根据架构进行策略性剪枝:对于像 Florence-2这样的编码器-解码器 VLM,它完全丢弃解码器,仅保留编码器以将层数减半;对于像 SmolFlow2-Video这样的仅解码器变体,它剪枝末尾30%的层。
相比之下,基于训练的方案通过优化增强适应性。MoLe-VLA将LLM层重新定义为不同的专家,部署轻量级时空感知路由器来解析视觉-空间和语言-时间线索,动态选择并跳过冗余层以实现定制化执行。LightDP通过基于SVD的重要性估计和Gumbel-Softmax技巧,将可学习的层剪枝与一致性蒸馏相协调,构建统一框架,在训练期间动态剪枝扩散Transformer层以提升压缩效率。
3.2.2 量化
量化是模型压缩的关键技术,将连续权重和激活值转换为低比特表示,从而减少内存占用、加速VLA推理,并保持多模态动作合成的保真度。
开创性的实证验证表明,OpenVLA系统性地探究了量化在大规模VLA中的效果,证明激进的4位后训练量化可将GPU内存需求减半,同时保持与全精度基线相当的真实世界机器人任务能力。QAIL通过量化感知模仿学习框架推进这一前沿,引入量化鲁棒行为克隆损失函数,显式对齐量化策略动作分布与全精度对应值,减少序列决策中的误差累积,并促进高性能边缘设备编排。SQIL提出显著性感知量化范式,在4位压缩下恢复接近全精度的性能,在真实机器人基准测试中实现高达2.5倍的推理加速。BitVLA采用知识蒸馏感知训练范式,开创VLA中的1位量化,将LLM骨干网络和视觉编码器无缝嵌入三元参数空间{−1, 0, 1},证明极端后训练量化的可行性,实现3.36倍内存压缩,并在复杂操作任务中保持竞争力。RLRC通过性能恢复流水线增强此工具集,战略性地部署强化学习微调,使后续4位量化在不降低性能的情况下实现最大内存节约。将量化扩展至辅助效率方面,FAST将其重新用于令牌压缩,构建系统化动作量化框架,通过谱分解将连续动作转换为信息丰富的离散潜在空间。SQAP-VLA通过修剪目标量化增强集成量化和令牌剪枝,在低比特离散化前对查询和键层的权重和激活应用Hadamard变换,从而减轻注意力图中的量化失真,增强其可解释性和显著令牌选择的鲁棒性。
这些进展共同凸显了量化在塑造普适性、资源节约型具身VLA中的变革性作用。
3.2.3 Token优化
Token优化作为模型压缩的优雅方面,通过策略性优化VLAs中的表示令牌序列,缓解基于Transformer的计算二次增长,同时保障视觉-语言-动作集成推理的性能。通过压缩、剪枝和缓存等针对性机制,该范式减少令牌冗余,缓解内存压力,加速具身系统中的决策时序处理,从而在资源受限的机器人平台上实现敏捷部署。本小节系统性回顾代表性方法,阐明其与解码器框架的无缝集成,以生成精简且高保真的多模态推理流水线。
-
令牌压缩:令牌压缩通过算法聚合信息精华,将大量令牌流提炼为简洁表示,从而抑制VLAs的计算量激增,提升推理速度而不损失多模态保真度。
对于视觉token,SmolVLA通过像素重排操作实现空间精简,将视觉token限制为每帧仅64个,以缓解感知输入的洪流。CogVLA利用Encoder-FiLM模块推进聚合路由,将海量图像块token聚合成稀疏的、指令驱动的聚合,从而获得显著的计算经济性,同时保持或甚至增强跨模态一致性以用于动作合成。另一方面,Oat-VLA开创了以对象-智能体为中心的token化方案,通过在视觉处理中战略性地注入结构归纳偏置,实现了视觉token数量级的压缩。
转向动作token,FAST开创了频域精简技术:对归一化动作序列应用离散余弦变换,将信号转换为频率分量,再通过字节对编码优化为紧凑、信息密集的token级联,从而简化序列策略生成。 VOTE则开创了极致压缩方法,通过生成单一<ACT> token封装预期动作轨迹,经轻量级MLP动作头事后解码为精确连续动作,大幅缩减输出流。
-
Token剪枝:该算法通过移除冗余token仅保留必要部分,降低VLA计算需求并提升推理效率,同时不损害多模态一致性。该技术利用显著性指标和自适应启发式方法精炼token序列,在资源受限条件下促进敏捷的具身推理。
受VLMs领域经典令牌剪枝方案FastV启发,FlashVLA提出基于信息贡献分数引导的剪枝机制,设计了一个无需训练、兼容Flash Attention的框架,建立了即插即用的VLA推理加速范式。在此基础上,EfficientVLA部署了多步任务相关性与多样性驱动的视觉令牌剪枝方案,协调任务显著性与特征异质性,形成简洁且信息丰富的令牌组合。SP-VLA通过双感知令牌剪枝优化空间-语义感知能力,在联合评估语义和位置重要性的同时,根据速度尺度动态调整剪枝比率以实现精细适应。在认知整合方面,CogVLA将指令敏感性嵌入LLM骨干网络的剪枝流程中,生成精简表示以增强语义效能。SpecPrune-VLA实验指出仅依赖局部信息的EfficientVLA剪枝策略不可靠,并首创基于先前推理时间连续性的自推测剪枝,用于指导当前令牌选择,显著提升了VLA动态性能。SQAP-VLA通过量化感知令牌剪枝增强鲁棒性,即使在量化导致特征统计分布偏斜的情况下,仍能精准定位关键令牌,实验中最终超越EfficientVLA。作为这一进展的顶点,LightVLA引入了自适应、面向性能的视觉令牌剪枝框架,生成动态查询以评估重要性,并使用Gumbel softmax实现无缝、可微分的令牌选择,解决了EfficientVLA依赖固定剪枝比率的问题。此外,KV-Efficient VLA引入了两阶段令牌剪枝机制,首先将历史KV缓存分割为固定大小的块,将它们聚合为单一压缩表示,然后应用轻量级RNN通过阈值剪枝这些块。
与SP-VLA [78]和SpecPrune-VLA类似,ADP引入了动作感知的门控token修剪机制。区别在于,SP-VLA和SpecPrune-VLA根据末端执行器的运动速度设置token修剪比例,而ADP则基于末端执行器轨迹在短时间内位移动态决定是否修剪。此外,ADP引入了文本驱动的修剪机制,该机制能够基于跨模态注意力计算视觉token与任务指令之间的相似度,并保留最相关的Top-K tokens,丰富了token修剪的语义信息。
Token Caching。令牌缓存作为令牌优化的核心,存储可重用令牌以供后续处理阶段迭代复用,从而消除VLA中的冗余计算,提升推理效率,同时保持多模态时间一致性。该策略利用帧或步骤间的时不变性,将静态或稳定的表征转化为持久资产,支撑流畅的具身轨迹。
VLA-Cache通过识别帧间差异最小的静态token并移除任务相关token,构建可重用的token库,利用KV-cache在后续迭代中实现无缝重新部署。Hybrid-VLA巧妙地将KV缓存扩展至扩散模型的迭代去噪过程,存储不变的条件token键值对以消除步骤间冗余,从而在不损害扩散驱动的连续动作保真度的前提下提升推理速度。FlashVLA引入了基于token感知的动作重用协议,通过动作和token稳定性的指标谨慎回收先前动作,以利用序列一致性。Fast ECoT将缓存融入具身思维链推理中,重用大段推理链而非重新生成,压缩计算图以实现显著的延迟降低。EfficientVLA指出VLA-Cache的方法受限于LLM的内存瓶颈,并在去噪步骤中对中间自注意力和MLP特征进行静态缓存,绕过生成循环中的迭代冗余。CronusVLA通过FIFO队列实现特征级token缓存,存储和回收紧凑的运动特征,将计算密集型单帧感知与轻量级多帧推理解耦。AMS维持GPU驻留的上下文池,归档先前推理的中间结果,开创了一种硬件感知的全面缓存范式,超越传统键值对的限制,涵盖整个VLA流程中的潜在向量和输出嵌入。
本质上,token缓存通过在时间维度上保持表征的连续性来提高VLA效率。
4.高效训练
VLA模型从大规模预训练VLM骨干网络中获得强大的能力,继承了稳健的视觉理解与常识推理。这一基础提供了显著优势,使VLA能够从一开始就解读复杂的多模态场景和自然语言指令。然而,这种继承本身也带来了沉重负担,使训练过程变得计算密集型、耗时且高度依赖大规模高质量数据集。因此,推进高效训练方法已成为关键研究目标,旨在不牺牲模型性能的前提下缓解这些资源需求。
如图7所示,本章系统探索了这些技术的全谱系,重点关注两个关键阶段:(1)高效预训练,在预训练VLM中注入基础动作能力或以最小开销从头训练整个VLA;(2)高效后训练,使VLA能够快速有效地部署到特定下游任务。

图7:高效训练(第4节)的关键策略,分为两个主要阶段。(a)高效预训练(第4.1节)将通用型VLMs迁移至具身领域以创建初始的动作感知策略,包括数据高效预训练(第4.1.1节)、高效动作表征(第4.1.2节)和其他预训练策略(第4.1.3节)。(b)高效后训练(第4.2节)随后针对特定任务对策略进行专门化,利用监督微调(第4.2.1节)和RL方法(第4.2.2节)。
以VLA为中心的训练分类体系。我们的分类体系基于功能性和VLA中心视角定义。我们将Pre-training定义为将通用VLM迁移到具身领域以创建初始动作感知策略的全过程。这一基础阶段旨在赋予基础行动能力。相比之下,Post-training则专注于对这一通用策略的后续专业化,使其在特定任务、环境或特定资源约束下表现更优。这一视角阐明了为何我们的VLA预训练阶段涵盖广泛的方法,包括一些在其他领域常被标记为"后训练"的技术。关键区别不在于方法本身,而在于其目标:若目标是从VLM创建首个具备行动能力的模型版本,则归类为预训练。这种方法提供了一个更基础、逻辑更一致的框架,与VLA的实际开发生命周期相契合。
4.1 高效预训练
高效预训练是关键研究方向,旨在将VLA模型的性能提升与大规模基础骨干网络和海量多模态数据带来的高昂计算开销解耦。如图7左侧所示,本节系统性地考察了数据高效预训练、高效动作表征及其他高效预训练策略方面的进展。通过突出这些创新,我们勾勒出开发稳健、通用VLA策略的关键路径,同时避免传统上耗时耗资源的预训练周期负担。代表性工作列于表4。

4.1.1 数据高效预训练
针对VLA模型训练中面临的数据稀缺问题,一些研究通过高效数据收集来解决,其他研究则专注于数据高效预训练。数据高效预训练通过合理利用稀缺的机器人轨迹和现成的大规模非机器人数据,以克服庞大多模态语料库带来的高昂成本和冗余问题。该子领域分为两种主要策略:通过精细的自监督训练目标利用未标记数据,以及通过混合数据协同训练框架弥合领域差距。
自监督训练。自监督训练是一种关键范式,通过从无标签或易获取的数据集中合成有效的监督信号,提升VLA模型的数据效率,从而缓解具身学习中固有的数据稀缺问题。该方法分为两大策略:(1)扩充有限的专家轨迹;(2)利用互联网规模的自中心视频。
-
第一种方法专注于最大化现有机器人数据的效用。DTP采用基于扩散的轨迹预测模型作为高效且可扩展的预训练目标。通过在RGB域学习生成的未来末端执行器轨迹,DTP有效弥合了高层视觉-语言输入与连续物理动作空间之间的模态差距,从而提升了模仿学习中的样本效率和长时程泛化能力。
-
第二种策略,也是最普遍的策略,侧重于利用大规模未标记的互联网级自视角视频,以缓解VLA模型对数据的严重依赖。早期工作如LAPA通过完全规避昂贵的真实机器人动作标签需求进行创新,该方法从大量未标记视频数据中学习离散潜在动作空间。然而,Bu等人指出,LAPA的原始像素级重建目标无意中编码了任务无关的动态,严重干扰后续策略训练。为解决此问题,他们提出了Task-centric Latent Action Learning,采用两阶段VQ-VAE从视频流中解耦并量化纯任务中心的潜在动作,进一步提升数据效率。LAWM后续扩展了LAPA的潜在动作学习原理,将其应用于BAKU和RSSM等更紧凑的架构。EgoVLA摒弃了潜在动作空间,引入基于MANO参数的共享动作空间,有效将人类自视角视频数据转化为可操作的VLA模型训练。在灵巧操作方面,Being-H0通过在大规模UniHand数据集上利用部分级运动标记化进行物理指令微调,使VLA模型能够以更高的样本效率获取高保真灵巧操作先验。最后,专注于显式动力学学习的方法,如RynnVLA-001的三阶段生成式预训练和Wang等人的世界模型目标,展示了如何从无动作标签视频中学习环境动力学以构建稳健基础,再通过动作标记微调获得最终策略。
Mixed Data Co-training是一种通过在不同质量与模态的异构数据集上进行联合训练,从而提升VLA模型效率和泛化能力的有力策略。GeRM用Conservative Q-Learning离线强化学习框架构建通用型机器人模型,该框架通过战略性地缓解分布外动作上的策略过估计,稳健地利用专家数据和次优数据。HAMSTER采用分层VLA结构:高层VLM预测粗略的2D末端执行器轨迹,该轨迹作为条件引导低层3D控制策略。这种解耦有效整合了大规模跨域数据。类似地,GraspVLA在CoT目标下统一了自回归感知和流匹配动作生成,实现了合成数据与互联网语义数据的无缝联合训练。此外,AnyPos通过引入Arm-Decoupled Estimation和Direction-Aware Decoder,解决了任务特定数据依赖问题。该机制从大规模任务无关数据集中提取可泛化的运动基元,显著增强了零样本迁移能力。
4.1.2 高效动作表示
动作作为独特的具身模态,通常具有高维、连续且噪声大的特点,显著阻碍了VLA的训练效率和泛化能力。为解决这一问题,多项研究探索了更为紧凑和语义化的动作表示。该方向可分为动作空间压缩和创新动作建模两类。
一种主要方向是通过压缩将连续高维动作转换为更简洁的表示空间,从而减少策略学习的搜索空间。LAPA、Bu等人、RynnVLA-001和LAWM均采用autoencoder原理,将动作提炼至潜在空间。具体而言,LAPA和Bu等人利用VQ-VAE同时发挥量化和强压缩能力。相比之下,RynnVLA-001在标准VAE架构上提出了ActionVAE,而LAWM则从强大的DreamerV3世界模型中提取潜在动作表示。除自编码器外,FAST通过直接使用离散余弦变换和字节对编码等算法压缩动作序列,实现预训练时间最高5倍的减少,有效在序列域完成降维。
另一类策略在动作相对于其他模态的建模与定义方式上进行了创新。EgoVLA和VLA-Adapter均采用跨模态特征关联策略以提升训练效率。具体而言,EgoVLA通过基于MANO参数的共享动作空间将人类示范映射至机器人动作表征,而VLA-Adapter则利用桥接注意力模块连接视觉-语言表征与动作。此外,优化坐标系选择可显著降低复杂度。cVLA摒弃传统机器人基座坐标系,转而先在图像坐标系中表示动作,再映射至末端执行器位姿空间,从而简化动作编码并降低维度。最后,RESET专注于将密集的机器人动作状态分布压缩为可管理的锚点状态集合,使策略在数据稀缺环境中具备更强的泛化能力。本质上,高效的动作表征将VLA学习从建模噪声高维控制转向掌握紧凑、语义化且可迁移的动作基元。
4.1.3 其他预训练策略
除数据高效和动作表征技术外,多种创新策略通过利用专门范式进一步提升VLA预训练效率。多阶段训练作为一种突出方法,被多人研究采用。该方法将训练流程分解为顺序阶段,解耦模态对齐、认知推理和动作微调。通过隔离这些组件,模型能够在降低计算开销的同时获得复杂的推理能力和稳健的现实世界交互技能,实现跨阶段的渐进式知识蒸馏。
RL为高效VLA预训练提供了另一途径。具体而言,采用Conservative Q-Learning最大化数据利用率,缓解探索环境中的样本效率不足;同时,引入伪环境模拟交互,通过绕过昂贵的现实世界数据收集和试错循环来加速收敛。
此外,LoRA技术支持资源感知的预训练。这些方法将轻量级适配器注入VLM骨干网络,在保留其强大视觉感知与语义理解能力的同时,实现针对动作整合的定向更新。这种模块化适配最小化参数更新,从而在不损害基础多模态能力的前提下生成高效VLA模型。
4.2 高效后训练
在基础预训练阶段之后,高效后训练技术对VLA进行优化,使其与下游任务对齐,同时最小化计算需求。如图7右侧所示,这些方法包括用于目标参数更新的监督微调和基于强化学习的策略优化方法。值得注意的是,高效后训练是关键的适应阶段,它确保VLA不仅专业化,而且在计算上可行,能够稳健地部署在广泛的实用应用场景中。表5总结了代表性工作

4.2.1 监督微调
监督微调通过在特定下游任务的标注数据集上进一步训练预训练VLA,从而增强任务特定能力,同时保留多模态泛化能力。
在参数高效微调方面,OpenVLA首次系统探索了五种策略——全微调、仅最后一层微调、冻结视觉、三明治微调和LoRA,证明LoRA微调在性能与计算开销之间取得了最优平衡。后续工作OpenVLA-OFT通过整合并行解码、动作分块、连续动作表示和基于L1回归的简单学习目标,进一步推进了这一范式,显著提升了VLA在边缘部署的效率。InstructVLA则进一步创新,将LoRA适配器与缩放的MoE适配头相结合,实现了稳健的参数高效微调。
此外,Atomic Skill Library通过数据驱动的三轮方法构建了动态、可重用的原子技能库,实现低成本后训练适配和强大的组合泛化能力。MoManipVLA提出了一种新颖的双层轨迹优化框架,仅需50个真实世界样本即可将预训练VLA无缝迁移至移动操作任务。OpenHelix通过可学习的<ACT>标记增强MLLM输入,冻结所有MLLM参数,仅训练<ACT>标记嵌入以实现低成本任务适配。ControlVLA通过ControlNet风格架构将预训练VLA与以对象为中心的表示融合,采用零初始化投影层实现仅需10-20个演示样本的高效微调,同时保留先验知识。CronusVLA通过冻结主干网络的历史帧感知并添加轻量级跨帧解码器,在最小计算开销下增强单帧VLA的多帧能力。RICL将上下文学习整合到VLA后训练中,通过拼接检索到的序列与查询序列来模拟RAG过程,训练模型根据上下文线索预测动作以实现少样本微调。最后,ATE在潜在空间中使用反向KL散度进行结构化对齐,通过能量模型定义的梯度引导扩散或流匹配VLA的采样,高效地向目标分布靠拢。
4.2.2 基于RL的方法
尽管监督微调在利用高质量任务特定数据方面表现优异,但其效果高度依赖于数据的充足性和质量,使得基于RL的后训练成为应对机器人数据稀缺性和变异性的有效对策。这些方法分为在线范式和离线范式:在线范式利用实时环境交互迭代优化策略;离线范式则从静态轨迹中提炼经验,无需进一步数据采集。
在线强化学习促进自适应探索,以RIPT-VLA为例,该模型将稀疏二元奖励与拒绝采样的PPO变体集成,仅用单次演示在15次迭代内将成功率从4%提升至97%。同样基于PPO算法,VLA-RL将轨迹重新定义为多轮对话,采用基于VLM的密集奖励和课程优化部署PPO,在4个LIBERO任务套件上比OpenVLA获得4.5%的成功率提升。SimpleVLA-RL通过GRPO和在OpenVLA-OFT上的交互式采样扩展此效率,每个任务仅用一条轨迹将成功率从17.3%提升至91.7%,同时增强模拟到现实的迁移。互补地,RPD使用MSE对齐的PPO将教师VLA蒸馏为紧凑策略,在稀疏奖励的ManiSkill3任务中加速收敛并超越原始模型。一种人机协同双智能体框架通过语言映射校正的潜在调整采用"Talk-and-Tweak"方案进一步优化基于扩散的VLA,在101分钟内实现100%任务成功率,多机器人效率提升2倍。World-Env创新性地在基于视频的虚拟环境中使用VLM引导奖励模拟未来,5次演示后训练即可达到79.6%的LIBERO成功率,且无需真实世界成本。
ConRFT和 CO-RFT均使用 Cal-QL方法,该方法通过惩罚分布外动作的Q值并补偿数据集内动作,有效缓解了离线强化学习中的值过估计问题。具体而言,ConRFT通过一致性目标的初始Q学习,从20-30个演示中初始化稳定策略,实现96.3%的现实世界成功率,比基线提升144%;而CO-RFT采用动作分块方法用于transformer-critic Q预测,在30-60个样本上将成功率提升57%,并减少22.3%的周期数。此外,ARFM通过在流匹配损失中应用自适应缩放来抑制方差,相比π0基线,实现了4.5%的多任务性能提升和11.4%的扰动鲁棒性。
相比之下,离线强化学习最大化归档数据的效用。ConRFT和 CO-RFT均使用 Cal-QL,该方法通过惩罚分布外动作的 Q 值并补偿数据集内动作,有效缓解了离线强化学习中的值过估计问题。具体而言,ConRFT通过一致性目标的初始 Q 学习,从 20-30 次演示中初始化稳定策略,实现 96.3% 的实际成功率,且在线接管后比基线提升 144%;而 CO-RFT将动作分块用于 transformer-critic Q 预测,在 30-60 个样本上将成功率提升 57%,并减少 22.3% 的周期数。此外,ARFM通过在流匹配损失中采用自适应缩放来抑制方差,相较于 π0基线,实现了 4.5% 的多任务提升和 11.4% 的扰动鲁棒性。
综合来看,这些强化学习流程使 VLA 具备了弹性、数据高效的适应能力,超越了监督学习的局限,迈向自主能力。

图8:高效VLA数据收集策略分类。该图展示了第5节中的主要方法,包括人在回路、模拟、重用导向、自驱动和增强技术,以在最小化资源开销的同时实现高质量机器人数据集的可扩展获取。
5.高效数据收集
VLA的性能关键取决于跨载体和任务变体的示范数据集的规模、质量和多样性。与受益于互联网级训练数据的LLM和VLM不同,VLA无法直接利用此类资源。其主流的数据收集范式——真实世界环境中的人工远程操作和专家示范——本质上是劳动密集型、成本高昂且严重缺乏可扩展性的。如图8所示,近期克服这些挑战的努力已采取多种策略,包括人类参与的数据收集(5.1节)、模拟数据收集(5.2节)、互联网级和跨域数据利用(5.3节)、自主探索数据收集(5.4节)以及数据增强(5.5节)。我们系统性地回顾了这些策略,分析了其核心原理和代表性方法,并在表6中提供了简要总结。

5.1 人类参与的数据收集
传统的人机交互数据收集方式成本高昂、劳动密集、耗时且本质上低效。首先,该方法高度依赖专家操作员、专用硬件、人工标注以及在精心设计场景中的真实世界物理机器人部署,需要大量资金和资源投入。此外,人类演示时间与收集数据的1:1比例,因环境设置、任务重置和人为错误而进一步降低,导致效率远低于预期。这些累积的限制导致严重数据稀缺,阻碍了数据集规模的扩展,从而限制了VLA的泛化能力和鲁棒性。
为了更快、更经济且可扩展地获取新型机器人数据,最直接的方法是优化人类在数据收集过程中的角色与效率。近期研究探索了将人类重新定位为监督者或高级指令提供者的方法,即通过高效接口收集数据,或仅在关键节点介入。
CLIP-RT通过自然语言接口收集机器人演示。用户与LLM进行对话式交互,LLM将语言指令转换为底层末端执行器动作。摄像头捕获观测数据,机器人执行动作,系统记录完整轨迹。虽然CLIP-RT消除了对专业知识的需求,但在数据收集过程中仍需要持续的人工参与。相比之下,GCENT通过将人类操作员定位为"守护者"来解决这一限制,该守护者仅在检测到失败或接近失败的步骤时才介入。介入通过交互式回溯和校正机制执行,允许操作员将机器人恢复到先前状态并提供校正演示。通过有选择地请求人工校正并在线迭代优化策略,GCENT逐步减少介入频率并提高任务成功率,最终实现一人操作多个机器人的设置。
5.2 模拟数据收集
尽管这些人在回路优化策略相比传统遥操作方法显著提升了效率,但通过此类方法获取的数据量不足且单一。相比之下,模拟环境能够通过自动化并行流程,在多种场景、物体类型、光照条件和机器人形态下进行规模化数据生成,从而以更短的时间和更低的成本构建多样化的大型数据集。
GraspVLA引入了SynGrasp-1B,这是一个通过并行光真实感模拟生成的十亿帧合成抓取数据集。该研究采用模块化专家策略自主生成无碰撞轨迹,并在MuJoCo中验证,通过Isaac Sim渲染。GeRM引入了QUARD-Auto,这是一个用于四足操作的训练数据集,同样通过Isaac Gym中的大规模并行模拟生成,采用预训练策略以消除人工遥操作的需求。cVLA展示了在ManiSkill模拟器生成的数据集上训练的模型,其数据生成流程采用解析抓取模型和特权位姿信息来生成已验证的动作轨迹。RoboTwin 2.0通过专家模拟流程生成双臂操作数据,该自动化流程采用闭环架构,其中代码生成代理从自然语言指令合成任务程序,在模拟中执行,并基于双重反馈迭代优化,直至达到目标成功率。为确保在异构双臂平台上的任务可行性,它还为物体标注多样化的候选抓取位姿,并应用特定于机器人的运动规划。然而,过于简化的模拟环境可能无法捕捉现实世界的复杂性,需要弥合模拟到现实的差距。通常通过视觉和物理参数的领域随机化、基于光线追踪的光真实感渲染、包含光照条件、相机视角、背景纹理和物体外观的系统化增强,以及结合大规模模拟数据与少量真实演示的混合训练来解决。
为减少仿真-现实差距,研究者还采取了其他措施:ReBot提出真实-模拟-真实流程,将数据生成基于真实机器人轨迹而非仅依赖模拟器策略。该方法在多样化的模拟场景中复现相同的真实机器人轨迹,随后将模拟得到的机器人运动合成到通过图像修复技术获取的任务无关真实背景上。类似地,R2R2R从真实世界输入合成大规模照片级真实感的机器人演示。该流程提取3D资产并分割为语义部件,通过4D可微分部件建模跟踪6-DoF物体轨迹。而RealMirror则引入遥操作-模拟联合采集框架。该系统在模拟中使用运动控制管道控制真实世界的机器人,通过多级过滤机制确保轨迹的物理合理性,并采用轻量级WebXR通信协议,相比传统框架显著降低端到端延迟。该设计通过模拟接口高效采集真实世界数据。无论采用何种方式,都收集了大规模、高保真模拟数据集,仿真-现实差距极小。
5.3 互联网规模与跨域数据利用
模拟数据收集有效解决了人类远程操作演示中的可扩展性限制。尽管已有进展,该方法仍需从零构建数据集,并受制于模拟到现实的差距。这促使研究焦点转向利用互联网规模及其他现有数据源。这种新兴方法旨在利用在线可获取的海量、多样但非结构化、未标注的数据存储库,包括以第一人称视角的人类视频和社区贡献的机器人数据集。核心挑战在于调和这些数据固有的异质性——涵盖具身差异、视角差异和动作空间不匹配——并将其转换为适用于VLA训练的格式。为此,研究者开发了多种独特且互补的策略。
-
一种策略专注于对机器人社区中已存在的噪声和异构数据进行整理和标准化。SmolVLA通过聚合Hugging Face等平台上的多个小规模数据集,体现了这一社区驱动的方法。为解决固有的不一致性,该方法利用VLM自动从噪声原始标签生成清晰一致的任务描述,并将多样化的摄像头视角手动映射为标准化格式。这种高度依赖数据整理的策略表明,即使数据集规模比当前最先进模型小一个数量级,通过最大化现实世界数据的质量和多样性,仍可实现高性能。
尽管整理社区贡献的机器人数据集部分提升了效率,然而最丰富的数据来源仍然是人类视频,更常见的是第一人称视角视频。在此路径中,核心障碍在于弥合人机具身差距。
EgoVLA开创了这种以自我为中心的范式:它引入了将人类视为机器人形式的基础概念,确立了以自我为中心的人类视频作为VLA可行训练模态的地位。该工作构建了大规模的以自我为中心的人类操作数据集,汇集了来自多个来源的技能丰富序列。同样,EgoVLA在该异构人类数据集上进行预训练,揭示了利用丰富、非结构化的人类自我中心视频实现优越泛化能力的潜力。基于EgoVLA的概念基础,RynnVLA-001通过建立自动化、多阶段的数据整理流程,解决了大规模自我中心操作视频获取的实际挑战。该流程利用姿态估计通过面部特征点缺失和手部关键点存在来识别自我中心视角。在获取网络规模的自我中心视频后,EgoScaler通过将原始非结构化视觉数据转换为结构化机器人动作表示,缩小了人-机器人具身差距。该工作引入了一个自动化流程,可直接从自我中心视频中提取6-DoF物体轨迹,无需人工标注,从而将被动视觉观察转换为适合机器人策略学习的可操作操作序列。逐步地,Being-H0将动作表征从粗粒度物体轨迹提升到细粒度手部姿态,解决了灵巧操作任务对精度和标准化的要求。
MimicDreamer通过视频扩散模型将人类演示视频转换为符合机器人外观和动力学特性的合成序列,直接解决视觉与运动学差异,从而弥合人机具身差距。该框架对第一人称视频进行稳定化和修复处理,利用约束逆运动学将人类手腕轨迹映射为机器人关节配置,并部署视频扩散模型生成符合机器人具身约束的照片级逼真演示视频,使VLA模型所见训练数据与真实任务执行场景完全一致,有效弥合人类演示与机器人操作之间的具身差距。DreamTransfer同样引入扩散Transformer框架,用于生成照片级逼真、多视图一致的机器人操作视频。该方法利用预训练扩散模型联合编码同步多视图深度和文本提示,实现真实或模拟演示的文本控制视觉转换。
然而,互联网规模的人类视频通常缺乏语言标注和第一人称视角。为此,HumanoidVLA采用一种可泛化的方法,利用第三人称人类动作视频。通过将身体姿态分解为部位特定token,并应用时间与空间扰动及对应指令提示,该方法将原始第三人称视频转化为无需人工标注的结构化训练信号。该框架将可用人类数据的范围扩展至第一人称视频之外,并通过可扩展的自监督学习进一步缓解数据稀缺问题。
5.4 自主探索数据收集
尽管上述范式通过多样化机制提升了数据收集效率,但它们本质上仍受限于对生成轨迹数据的被动依赖。为突破这一局限,新兴研究范式从被动接收数据转向自主探索,其中智能体通过环境交互主动生成有价值的训练数据。该范式从根本上将数据收集从人力密集型瓶颈转变为智能体驱动、自我改进的过程,使自主探索成为可扩展且高效数据收集的关键促进因素。
在解决特定任务学习之前,一个根本性问题浮现:机器人是否具备对其物理能力边界的全面认知?若未对运动学可达空间进行系统性探索,下游任务学习将面临基于不完整行为先验的风险。AnyPos通过ATARA解决这一基础性挑战,ATARA是一个自监督框架,通过强化学习驱动的策略实现机器人末端执行器工作空间的高效均匀覆盖,自主合成大规模任务无关的〈image, action〉数据集。该方法缓解了朴素随机探索的局限性——覆盖稀疏、运动冗余和频繁自碰撞——从而为后续所有任务学习建立可重用、无偏且物理基础的运动学基础,在规定“机器人应做什么”之前先回答“机器人能做什么”。
任务无关探索赋予VLA表征物理能力的运动学先验。但执行特定用户指令需要任务相关且目的明确的行为序列。在线强化学习(RL)作为主流路径,使智能体能够在直接环境交互中实现边学习边收集。
SimpleVLA-RL开创性地展示了仅使用少量人类示范作为"种子"的在线RL自驱动数据收集方法。该框架通过"生成-评估-优化"循环将VLA本身转化为高质量轨迹数据生成器:通过交互式rollout和随机动作采样生成多样化轨迹,使用二元成功奖励筛选,并保留成功执行作为训练数据,同时优化策略。然而,这种直接RL微调方法仍受限于策略模型的表征能力——对于复杂的多模态行为,标准策略可能收敛于局部最优或产生次优平均动作,限制了探索广度和轨迹质量。为解决这一挑战,Yang提出了一种更复杂的解决方案,将策略架构替换为表达能力极强的扩散模型。扩散模型强大的生成能力使其能够更优地捕获人类示范中固有的多模态分布,同时在RL探索过程中生成更平滑、更一致且质量更高的近优轨迹。关键的是,该方法生成的合成数据集质量超越了原始人类示范。
虽然在线RL展现出显著效果,但它需要与物理环境或高保真物理模拟器进行大量交互。因此,下一阶段的发展自然将探索从高成本的物理领域迁移至低成本的虚拟世界。World-Env通过利用现有高保真模拟器提供直接解决方案:从少量专家演示开始,它部署VLA策略在模拟器中通过受控随机性进行探索,从而经济地扩充多样化交互数据。然而,这种方法仍受限于预先构建的模拟器,可能无法在新环境中泛化。在这种情况下,VLA-RFT将这种方法推进到极致,直接从离线交互数据集中学习数据驱动的世界模型,消除了对高保真模拟器的依赖。该学习到的世界模型作为可控模拟器,捕捉真实世界交互的多样性,使VLA策略能够在合成环境中通过大规模并行预测视觉轨迹的rollouts进行强化微调。这种方法从根本上将数据收集从被动积累转变为积极生成。
5.5 数据增强
数据增强也可视为高效数据收集策略的一种,通过最大化现有数据的效用和多样性,将收集的轨迹转化为更丰富、更多样的训练信号。
一种主要方法涉及丰富语言和语义注释。LLaRA率先通过模板将现有行为克隆数据集自动重新格式化为对话式指令-响应对,并定义辅助任务以实现自监督增强。在此基础上,InstructVLA利用高级LLM从大规模操作数据集中整理多样化的分层注释——包括场景描述、QA对和命令重写——以减轻微调过程中预训练VLM能力的灾难性遗忘。RoboChemist也采用了这种模型注释策略:使用LLM多样化语言指令,使用VLM生成自动视觉提示以确保安全合规。其他方法从现有数据生成新的训练目标;例如,ReconVLA在机器人数据集上微调Grounding DINO,自动分割与交互相关的"注视区域",从而构建专注于视觉重建的大规模预训练数据集。
数据增强也可以针对轨迹、状态和时间维度。CLIP-RT提出的随机轨迹增强通过随机驱动机器人进入超出专家演示的新状态,并应用简单启发式方法进行自动标注。RoboChemist通过显式地将远程操控的失败场景和重试尝试注入训练数据,提升模型的自我修正能力。
最后,一些方法通过直接操作视觉模态来实现数据增强。针对现有的4D数据,ERMV提出了一种框架,该框架对初始帧应用有针对性的编辑,并使用Epipolar Motion-Aware Attention在所有视角和时间步上一致地传播这些变化,生成与原始未修改动作配对的新视觉序列。
6.应用
VLA模型对效率的追求并非终极目标,而是其实现物理世界部署的关键使能因素。前几章概述的技术——从简化架构到高效训练范式和数据整理策略——最终在各种现实世界机器人应用中体现出实用价值。本章阐述了一些代表性应用,展示了高效VLA如何变革那些需要实时响应、操作鲁棒性和计算经济性的领域。
6.1 智能汽车与自动驾驶
智能汽车是任何具身AI系统中约束最为严格的领域之一。它们必须实时处理高维传感器数据,理解复杂的交通场景,并在移动平台严格的计算和功耗限制下执行安全控制指令。庞大的模型从根本上不适合这一领域。高效VLA通过实现从感官输入到驾驶动作的直接端到端映射,且延迟最小化,解决了这一问题。压缩优化后的模型可部署于汽车级硬件,支持基于多模态输入的精细驾驶行为,例如解读交警手势或响应复杂的语音导航指令。近期研究均呼应了这一技术必要性。这些模型的计算精简性不仅是便利,更是安全性和可靠性的前提,使快速推理能够跟上动态驾驶环境的变化。
6.2 家庭机器人与智能家居
家庭环境面临一系列独特的挑战,主要围绕隐私保护、持续运行和自然的人机交互。依赖云架构会引发严重的隐私问题,并引入延迟,破坏交互的流畅性。高效VLA在将智能移至边缘、直接部署于机器人上起着关键作用。轻量级模型使服务机器人能够离线理解并执行"整理客厅"等开放式指令,确保用户数据不出设备。这种机载处理能力结合低功耗,使机器人能在无需频繁充电的情况下提供长期服务。此外,推理延迟的降低对于维持引人入胜且安全的对话交互至关重要,使机器人成为家庭中响应迅速、无缝融入的组成部分。
6.3 工业制造与物流
工业环境对精度、高吞吐量和可扩展性有要求。大规模协作机器人集群的愿景取决于底层AI模型的成本效益和计算效率。高效VLA是这一愿景的基石。通过显著减少参数量和计算开销,这些模型使在数百个机械臂和AGVs上部署先进智能在经济上可行。它们实现实时视觉识别以进行精确的部件选择和组装,同时低延迟确保操作周期满足严苛的生产线节奏。除了单任务执行外,高效VLA通过自然语言指令实现快速重新部署,使单个机器人能够执行多种功能——从"pick and place component A"到"inspect the final product for defects"——从而提升整体制造的灵活性和敏捷性。例如,CIPHER在3D打印行业中高效地在任务间切换——从调节挤出参数以确保层精度到进行视觉缺陷扫描——通过自然语言实现无缝多角色适应,无需硬件变更。
6.4 医疗辅助机器人
在医疗与辅助场景中,精度、数据安全与个性化适配的需求高度融合。手术与康复机器人需要极其精细的控制,这要求实时的感觉运动处理。由于健康信息的敏感性,患者数据必须本地处理,无法使用云端模型。高效VLA模型是应对这双重挑战的理想选择。其优化架构能实现低延迟、高精度的控制回路,对辅助精细手术至关重要。通过完全本地化运行,保障患者数据的保密与隐私。此外,这些模型的数据高效特性通常依托强大的预训练骨干网络,可在有限的患者特定数据集上进行有效微调,从而实现更高层次的个性化,使辅助设备快速适应个体用户的独特生理特征与需求,为更便捷、有效的个性化护理铺平道路。
7.挑战与未来研究方向
本章详细阐述阻碍高效VLA发展的主要挑战,并提出前瞻性研究方向。基于先前阐明的分类体系,涵盖高效模型设计、高效训练和高效数据收集,我们从模型、训练和数据三个维度进行剖析。这种结构化的阐述旨在推动可扩展具身智能的发展,减轻计算需求,同时提升机器人操作及其他领域的性能。
7.1 挑战
尽管高效VLA已取得进展,但持久性障碍仍限制其可扩展性与鲁棒性。这些障碍源于多模态整合中的内在权衡——视觉、语言与动作模态需要和谐且精简的协调,却往往在动态环境中导致次优的泛化能力。
7.1.1 模型:在紧凑性与表达力之间取得平衡
高效VLA设计面临架构精简与表征丰富性之间的根本矛盾,过度压缩会牺牲对细粒度时空动态的捕捉精度。在高效VLA设计中,推理加速不可避免地以牺牲模型能力为代价换取速度,从而削弱跨载体的鲁棒性。分层或模块化范式虽然有望实现可扩展性,但引入的路由开销会损害实时部署能力,尤其是在资源受限的硬件上。最终,追求十亿参数以下的高效性必须面对长时程推理能力下降和对未见任务的适应性减弱等新兴问题,这可能阻碍从模拟环境到真实世界的无缝过渡。
7.1.2 训练:可扩展性与稳定性权衡
高效VLA的训练面临计算节约与收敛可靠性的双重挑战。预训练高效VLA尽管利用冻结的视觉-语言骨干网络,仍需大量计算资源进行动作头对齐,并在下游任务中因载体变化而面临脆弱泛化风险。后训练适应,尤其是通过RL,面临高方差梯度和奖励稀疏性问题,加剧策略优化中的不稳定性。动作表征压缩虽便捷,但会扭曲连续运动学特性,阻碍跨载体迁移。这些权衡从根本上阻碍了可扩展、可复现的训练流水线,限制了在异构机器人平台上的广泛应用。
7.1.3 数据:质量、多样性和可访问性障碍
数据仍是VLA效能的基石与瓶颈,受限于高保真、任务多样轨迹的稀缺性。人工采集的数据集面临高昂成本,而合成替代方案在物理真实性方面表现不佳,导致持续的仿真到现实差距。数据增强策略虽然能增加数据量,但可能引入分布偏差,削弱泛化能力。自监督或探索驱动的范式生成大量但嘈杂的信号,需要昂贵的数据筛选。缺乏标准化、符合伦理、跨领域的数据存储库,阻碍了可重复进步和公平访问,加剧了具身AI发展的不平等。
7.2 未来研究方向
为克服这些障碍,新兴研究方向应超越渐进式改进,拥抱将效率重新定义为整体系统级优化的范式转变。我们倡导涵盖架构、训练理论和数据生态系统的整合性、跨学科方法,以打造不仅轻量级,而且从根本上可扩展、自适应且可在具身智能全范围内部署的VLA。
7.2.1 模型:迈向自适应、具身无关的架构
未来VLA设计需向内在适应性演进,根据任务和硬件环境动态调节复杂度。动态令牌剪枝结合上下文感知路由可实时调节计算路径,在保留关键时空细节的同时实现跨不同机器人形态的次线性扩展。模态无关骨干网络结合令牌协调,有望在视觉、语言和动作流中实现统一效率。软硬件协同设计,通过计算平台的架构优化,有望突破当前延迟瓶颈,实现边缘原生VLA,无缝覆盖消费级设备至工业机械臂。
7.2.2 训练:可扩展、韧性的学习范式
训练范式应转向去中心化、持续学习和理论基础扎实的协议。融合差分隐私的联邦学习范式可利用分布式机器人代理实现终身学习,在丰富数据多样性的同时分摊成本。将物理信息引导的优化目标集成到预训练中,可保证运动学一致性,在优化层面弥合仿真与现实的差距。元学习与课程学习策略可促进快速适应,降低微调开销。最终,训练需被重新构想为闭环自优化过程——通过在线交互优化模型,使效率成为部署的涌现特性。
7.2.3 数据:自维持生成生态系统
数据基础设施亟需转型为生成式、自维持生态系统。基于物理先验和语言意图的扩散引导合成,可从少量种子生成无限且可验证的轨迹。进一步缩小仿真到现实差距,例如通过嵌入物理定律,可提升仿真数据的可靠性并减少对高成本真实数据的依赖。共享虚拟世界中的多智能体好奇心驱动探索可产生涌现的任务多样性,取代人工遥操作。这类生态系统不仅能为模型提供数据,还能与其共同演化,形成良性循环,使数据质量、模型能力与实际影响递归放大。
结论

本综述系统性地梳理了高效VLA这一新兴领域,首次提供了一个聚焦于数据-模型-训练循环的统一分类体系,以整合分散的解决其高昂计算和数据瓶颈的努力。我们证明当前解决方案汇聚于三个相互依赖的支柱:高效模型设计、高效训练和高效数据收集。我们的分析建立了基础性参考,阐明了关键的相互作用和持续权衡,例如紧凑性与表达能力之间的权衡,定义了这一前沿领域。文中阐述的挑战与未来方向是这一综合分析的直接结果,绘制了一条必要路线图,从孤立优化转向适应性、协同设计的系统。本研究旨在推动这一转变,加速从资源受限原型向真正无处不在的物理世界智能的关键过渡。
