边缘AI:欧盟路线图-EPoSS
1.引言
近年来,数字化、数据的可用性以及AI应用的可能性已成为欧洲关键工业领域的重要商业驱动力。在我们看来,AI是一种能够模仿人类智能的技术系统,其特征包括感知、学习、理解、决策和行动等行为。由于强大的计算硬件(GPU和专用架构)以及大量数据的可用性,AI解决方案——尤其是ML和更具体的DL——在过去二十年中得到了广泛应用(包括图像识别、故障检测和自动驾驶功能)。
低延迟、隐私保护、连接限制和分布式应用推动了Edge AI的研究,该技术能够在云端、边缘和IoT设备上实现数据源附近的处理与决策。边缘AI涉及在云端训练AI模型并在边缘设备上部署。
2021年,EPoSS Edge AI工作组发布了题为《AI at the Edge》的白皮书,全面概述了AI方法与技术,并提供了指导未来几年研究与创新的技术里程碑。
在该白皮书发布后,EPoSS和INSIDE两大行业组织携手成立Edge AI联合工作组。该工作组由产业和学术界的软硬件专家组成,推动国家和EU资助项目的研发与创新,并就Edge AI的未来贡献见解与观点。
近期突破性进展,特别是在GenAI领域,促使我们明确需要修订路线图,包括技术里程碑,以更好地理解和利用GenAI在计算连续体(包括边缘计算)中的潜力。图1.1展示了如何解读我们优化并更新的愿景。

本白皮书首先概述了不断演进的云边物联网生态系统,强调了智能且资源受限的设备在与人和机器交互中的关键作用。第3章探讨了当前AI的发展趋势,包括由OpenAI首席执行官Sam Altman提出的五级AGI。第4章深入探讨了前沿硬件架构,而第5章则分析了Edge AI硬件开发中的诸多挑战、约束和限制。第6章介绍了一种基于自旋电子学的创新解决方案,该方案以出色的能效和性能解决了内存墙问题。第7章概述了KDT与芯片联合计划(Chips JU)未来几年的项目时间表和预期成果。第8章分析了全球市场趋势,聚焦欧洲Edge AI领域及英伟达在生态系统中日益增长的主导地位。最后一章基于前几章的见解,阐述了旨在提升欧洲企业竞争力的重要目标、规划与行动建议
2.演进中的云-边-物联网基础设施
与数据驱动的价值链
边缘计算的分布式和资源受限特性带来了与集中式计算不同的挑战。在边缘设备上部署AI面临重大技术挑战,主要源于异构性:多样化的硬件平台、实时操作系统、传感器类型和AI工作负载。虽然传统AI已在边缘端有效部署,但GenAI带来了新的复杂性。自2014年GANs兴起,并在Transformer等突破性技术的推动下,GenAI工作负载变得越来越需要复杂的超参数调优且资源密集。
“Transitioning from TinyML to Edge GenAI: A Review”的研究发现凸显了在智能手机上部署Edge GenAI模型日益增长的兴趣。例如,设想一个专为Gen Z智能手机用户设计的假设服务,提供每月15美元的订阅,并设定严格的性能要求:延迟不得超过5秒。大规模满足这些需求带来重大挑战,引发对当前基础设施是否准备好广泛部署的疑问。随着Transformer的出现,GenAI工作负载变得越来越超参数化且资源密集型。
以Qwen2-VL-7B-Instruct(一款前沿的多模态GenAI模型)为例的案例研究,突显了一些关键的可扩展性挑战。在适度的使用假设下(每位用户每次查询60个token,延迟限制为五秒),服务所有51.6亿智能手机Gen Z用户需要:
-
超过40,000个AI超级集群(每个集群的规模与NVIDIA的Cortex AI集群相当);
-
每个集群高达130兆瓦的电力基础设施;
-
以及加速和成本不可行。
简而言之,大规模GenAI云端部署在经济和环境上均不可持续。然而,训练GenAI模型仍需云计算;为保障数据隐私和主权,本地AI训练也是缓解云依赖的有前景方向。

在Edge AI系统中,数据在边缘侧被收集和处理,利用IoT设备和资源受限的硬件。云边端基础设施必须高度适应不同的数据量、数据速度以及隐私和安全需求。数据采集始于微型传感器、数据生成器和微型设备。根据应用需求和隐私考量(参见表7.1),数据要么在本地处理,要么传输到云或高性能计算基础设施进行高级优化和决策任务。
数据驱动的Edge AI技术栈由多个相互连接的层级组成,支持数据的收集、处理和应用。关键构建模块包括以下内容:
-
GenAI、基础模型、高质量数据集和数据空间:Edge AI的稳健解决方案依赖于基础模型和高质量数据集。欧洲共同数据空间为这些数据集的联邦式、分布式共享提供基础设施。
-
多智能体系统:由专用的LLMs和基础模型驱动,这些智能体针对资源受限设备(如智能手机)优化,提供高性能,并直接在边缘实现高级AI功能。
-
数字孪生、元宇宙/Omniverse和虚拟世界:物理对象的虚拟模型利用实时传感器数据模拟行为、监控运行并优化其整个生命周期的性能。
-
神经架构搜索:通过利用本地AI能效计算和数据可用性,自动设计AI模型以解决边缘问题。
-
编排与中介:自动化系统、应用、服务和设备的配置、管理与协调,以简化操作流程。
-
信任与安全:通过整合软硬件组件,确保系统可靠性、隐私性、鲁棒性、可信性、安全性与性能,这些对安全部署至关重要。
这些构建模块各自代表一个创新领域及市场机遇,新兴或成熟企业正推动创新以加速Edge AI在整个计算连续体中的应用。
更宏观的视角旨在展示生态系统中的关键互动,揭示依赖关系的复杂性及相关挑战与潜在风险。在此背景下,第4章“新型硬件架构概览”聚焦于在资源受限设备上运行Edge AI的具体挑战。这一生态系统视角为理解第7章中描述的KDT和Chips JU项目的研究与创新活动,以及第8章中探讨的市场结构与主导厂商定位提供了战略视角。下一章“AI和Edge AI发展趋势:背景设定”探讨AI的演进,重点阐述塑造Edge AI未来创新的关键趋势。
3.AI与边缘AI发展趋势:背景
-
3.1 最受关注的边缘AI话题
AI是发展最快的科技之一,正在影响并挑战当前的技术格局。根据Gartner的Hype Cycle,Edge AI已超过其峰值,预计将在两年内达到“plateau of productivity”。这标志着该技术经历了炒作、幻灭和实验的初始阶段,最终成为各种应用场景中的标准可靠工具。
此外,根据美国银行的报告,台积电(TSMC)将在2030年前推动数字芯片制造规模达1万亿美元,为驱动型客户提供AI计算机服务器,包括本地AI、Edge AI、微型AI,特别是智能体,以及人形机器人。
GenAI带来了新的挑战,尤其是在分布式计算环境中。生成式AI模型(尤其是LLMs)的训练需要大量计算能力和能源,通常由云计算基础设施和高效的数据中心提供。根据Yann LeCun的说法,现代LLMs使用20万亿tokens进行训练,每个token由3字节组成——也就是10¹⁴ tokens!在生命的头四年,大脑以2 MB/s的速度接收16,000小时的视觉信息。这相当于训练一个LLM所需的信息量。因此,在可预见的未来,我们距离实现超人类智能仍相差甚远(可能以光年计)。尚不清楚如果人类有朝一日能达到这一水平,需要多少计算和能源资源来支持这样的计算机。
高质量数据集是LLMs训练的基础,能确保形成准确、无偏见且全面的语言表征。这些数据集减少了错误和偏见的传播,从而提升了模型的泛化能力和可靠性。从IoT设备和传感器网络收集的高质量数据能减少训练中的噪声,使模型专注于有意义的模式和关系,从而更高效地学习。这确保了LLMs在需要上下文理解和领域专业知识的实际应用和复杂任务中实现更高性能。因此,训练数据的质量直接影响LLMs在不同领域的可信度、适用性和伦理部署。欧洲共同数据空间的目标是建立统一的数据基础设施和治理框架,以实现数据的汇聚、访问和共享。这使其能够为数据驱动的AI应用提供高质量资源。
人工智能技术的近期突破对技术格局产生了重大影响。边缘人工智能社区中当前讨论最热烈的领域包括:
-
LLMs使机器能够理解、推理并生成类人语言,彻底革新了NLP任务。
-
GenAI能够利用先进的Transformer及其他生成模型架构创建图像、音乐和文本等新颖内容。
-
Responsible AI 专注于构建值得信赖的AI系统,优先考虑道德决策、公平性和社会福祉。它还促进AI流程中的透明度和问责制。然而,需要建立治理框架和监管政策,以使AI发展符合责任、可持续性和社会影响的原则。
-
多智能体AI系统(MAS)由多个智能代理组成,能够感知、搜索信息、学习和自主行动以实现个体和集体目标。由人工智能推理能力驱动,这些系统通过灵活、可扩展和稳健的特性展示构建思维序列的能力,从而在各行各业实现更广泛的实际影响。MAS涉及多个交互式智能代理——软件或硬件实体——协同解决超出个体能力的复杂问题。
-
具身AI指利用AI技术解决需要与物理世界直接交互的问题,例如通过传感器观察世界或通过执行器修改世界。它将AI整合到物理系统中,并越来越多地与数字孪生和仿真技术结合,以提升各行业的性能和决策能力。
-
AI与量子计算仍是一项新兴技术,有望通过量子加速在优化、密码学和药物发现领域取得突破。这加速了对混合AI-量子算法以及新型计算和开放编程框架的需求。
人工智能领域中最受争议的新兴话题之一是AGI。根据Gartner的定义,AGI是指能够理解、学习并在广泛的任务和领域中应用知识的AI。与专为特定应用设计的狭义AI不同,AGI具备认知灵活性、适应性和通用问题解决能力。
AGI被定义为能够在大多数任务上超越人类表现的AI。Sam Altman,OpenAI首席执行官,GenAI领域的领军人物和ChatGPT的创造者,使用五级量表来衡量实现这一目标的进展:
-
Conversational AI(当前阶段):在此阶段,AI以自然语言与用户互动。例如客户服务聊天机器人、AI写作助手(如ChatGPT)或AI教练。目前大多数企业都在利用这一阶段的AI。
-
Reasoning AI(近未来):此阶段引入了“推理者”——即能够通过多步骤推理达到博士水平的问题解决能力,且无需外部工具的AI。
-
Autonomous AI::AI“智能体”能够独立运行数日,无需人工干预即可管理任务。与当前需要监控的自动化系统不同,未来这一级别的AI将具备自我修正能力,在极低监督下确保可靠性。此外,还可能包括自主学习和推理。
-
Innovating AI:这些被称为“创新者”的系统不仅执行任务,还能优化任务。它们不仅遵循规则,还会通过批判性分析流程来提升效率和效果。
-
Organisational AI (super AI)::在最终阶段,AI将作为一个完整组织运作,管理所有职能、优化流程并自主协作,完全无需人类参与。
他预测我们可能在10年内达到Level 5(见图3.1),而其他人估计可能需要长达50年。确切的时间线仍不确定,但AI的快速发展不可否认。

GenAI必将对Edge AI产生重大影响,为IoT、传感器和智能手机等资源受限设备带来实时决策能力。它将推动硬件优化和轻量级AI模型的发展,重塑边缘计算范式。GenAI的快速发展为半导体研究与创新领域带来了挑战与机遇,需要对其研发创新轨迹进行战略调整。
4.新硬件架构概述
深度神经网络(DNN)算法在自动驾驶、智能健康、智能家居、智能农业等多种应用中实现了高性能。然而,这些算法在训练和推理阶段都需要高算力。高性能DNN加速器领域主要由使用英伟达GPU和谷歌TPU的云平台主导,整体趋势是提供灵活性和性能以满足广泛的DNN应用需求,而较少关注功耗问题。
与Google TPU等单片式加速器不同,GPU采用模块化设计,可从高性能计算系统扩展至边缘设备。例如,NVIDIA的Ampere微架构既用于数据中心的大型A100核心,也用于Jetson Orin芯片。AMD同样采用类似方法,其AI Engine架构是一种可扩展的向量处理器阵列,可加速笔记本芯片、5G/6G通信基础设施和汽车边缘设备中的AI推理工作负载。边缘智能传感器AI解决方案的优势在于采用推理加速器处理小型神经网络模型,这些模型具有低功耗、高吞吐量和低延迟特性,使处理更接近传感器和传感器节点成为可能。
-
4.1 基于SNN的加速器
脉冲神经网络(SNNs)是人工神经网络(ANNs)的一种演进,融合了受生物大脑工作原理启发的原则。与处理连续数据的人工神经网络(ANNs)不同,SNNs使用离散脉冲作为通信信号,为神经元活动引入时间维度。这使得SNNs在建模生物神经元的时间动态方面具有独特优势,例如脉冲时序和神经元间依赖关系。通过事件驱动计算,SNNs实现了卓越的能效,尤其在基于英特尔Loihi或IBM TrueNorth等专用神经形态硬件实现时。
在神经形态硬件中,其高效的计算范式使其特别适用于低功耗环境,例如边缘设备。在机器人学和感觉处理领域,其实时时序模式识别能力使其能够实现先进的控制系统和自适应行为。此外,在自主系统、语音识别和时间序列分析等领域,脉冲神经网络(SNN)能够自然地编码和处理序列数据。尽管SNN具有灵活性,但其应用仍面临挑战,例如训练方法复杂、需要专用硬件以及分析其时序活动模式的困难。SNN的训练目前仍是一项复杂任务,通常依赖近似方法或结合传统神经网络的混合方法。
SNNs 需要专用硬件才能充分发挥其潜力,因为通用 GPU 或 CPU 难以处理脉冲活动的稀疏性和时序特性。SNN加速器专为高效处理SNN的高度并行事件驱动操作和时序特性而设计,具有高能效和低延迟计算的优势。像英特尔Loihi和IBM TrueNorth这样的芯片通过集成可编程突触可塑性、片上学习以及对大规模脉冲神经网络的支持,在该领域树立了标杆。例如,英特尔Loihi率先引入了生物启发的学习规则,如脉冲时序依赖可塑性(STDP),实现实时适应性。同样,IBM TrueNorth芯片凭借其百万神经元架构实现超低功耗运行,展示了神经形态系统的可扩展性。
近年来神经形态硬件的进展主要集中在提升可扩展性,使芯片能够支持更大、更复杂的网络,例如通过采用改进的存储架构和3D堆叠设计来克服数据带宽限制。这还降低了延迟并实现了高维数据的实时处理。
能效仍是首要目标,因为时域稀疏性和事件驱动计算能最小化不必要的操作,显著降低功耗。对于Edge AI设备和忆阻器、ReRAM等先进存储技术而言,这代表了有前景的演进。此外,SNN加速器与能量收集技术的结合有助于推动自供能系统的普及,使设备能够在偏远或资源受限环境中无限期运行;在物联网应用中,这将是一个颠覆性变革。
另一种趋势是将SNNs与传统深度学习框架融合,构建结合两种范式优势的混合架构:这些系统能够在连续计算和事件驱动计算之间切换,动态优化多种应用场景的工作负载。
下一代SNN加速器需要相变存储器和忆阻器等新型材料以提升计算密度,更高效地模拟突触功能。这些加速器能够模拟更生物准确的神经动力学,而未来的发展可能涉及量子计算与类脑计算原理的融合。此类量子系统凭借其固有的并行性和叠加态能力,为脉冲计算提供了新维度。混合量子-SNN架构还能加速学习和推理过程,解决当前经典系统无法处理的优化问题。
从架构角度看,SNN加速器将具备认知级处理能力,使芯片能够执行推理、抽象和多任务学习等高阶任务。通过整合分层与模块化架构,这些系统将模拟生物大脑的分层复杂性,从而适用于AGI应用。
-
4.2 基于RISC-V的加速器
RISC-V 凭借其灵活性和模块化特性,被广泛用于开发 Edge AI 加速器,可定制适用于特定工作负载和应用的处理器。当前基于 RISC-V 的加速器能够在性能和能效之间取得平衡,这对资源受限环境(如物联网设备、自主传感器和机器人)中的 Edge AI 系统至关重要。例如,通过在 RISC-V 核心中集成特定领域扩展,加速器能够处理矩阵乘法、CNN推理和向量化计算等任务,从而开发出能耗更低且保持高吞吐量的轻量级加速器,满足机器学习任务需求。一个实际应用案例是并行超低功耗(PULP)平台,该平台基于 RISC-V 核心提供超低功耗 AI 解决方案。PULP 项目注重细粒度并行和能效计算,利用定制扩展进行机器学习推理,以实现高效的数据移动和计算,这是 Edge AI 任务的关键因素。
一种不同的方法采用RISC-V加速器中的向量处理单元来同时处理多个数据元素,从而显著提升神经网络操作的性能。例如,RISC-V向量扩展(RVV)标准支持可扩展的向量处理,特别适用于处理深度学习算法的并行特性。
新兴趋势强调采用异构架构,其中RISC-V核心与专用AI处理单元协同工作。这种方法利用RISC-V的可编程性处理控制任务,同时将计算密集型操作委托给AI专用加速器。这类架构能够实现更高效的计算负载分配,从而在实时应用中降低功耗和延迟。
近似计算的集成是这些加速器的另一个前沿,为在准确性和效率之间取得平衡的加速器铺平了道路。通过利用AI算法对计算噪声的固有容忍度,近似计算技术降低算术运算的精度,从而提升能效。
此外,RISC-V与新兴存储技术如ReRAM和3D堆叠内存的结合有望解决AI工作负载中的内存瓶颈问题。这些技术能够实现更快、更节能的数据访问,这对于边缘端的大规模AI模型至关重要。未来加速器可能将这些存储系统与RISC-V核心集成,以提升数据密集型tas的处理能力。
另一个有前景的方向是将RISC-V应用于神经形态计算,其中加速器旨在模拟生物神经网络。通过利用RISC-V的模块化特性,开发者可以实现兼具生物合理性和高能效的脉冲神经网络加速器。
-
4.3 光子/光学加速器
光子学和光学技术为高速高效的AI任务提供了另一种选择。这些技术利用光的独特特性,如高带宽、低延迟和极低的能量损耗,来执行在传统电子硬件上可能速度过慢或功耗过高的计算。随着Edge AI应用对紧凑、节能且能实时处理海量数据流的系统的需求日益增长,光子加速器正成为有前景的解决方案。
光子神经网络是该领域的前沿技术,利用波导、调制器和谐振器等光学元件执行AI工作负载,大幅降低延迟和功耗。此类技术通过光干涉实现并行计算,高效执行矩阵乘法。
硅光子学作为一种成熟且可扩展的技术,实现了光子加速器在边缘设备中的集成,将光子学的高精度与CMOS兼容制造的实用性相结合,为成本效益高的部署铺平了道路。在此背景下,使用光学存储器(如相变存储器)可以在光敏材料中存储数据,实现超快的读写周期。同样地,光互连技术消除了电子数据传输的瓶颈,使加速器能够以最低延迟处理高吞吐量任务。这些创新特别适用于涉及实时数据分析和自主决策的边缘场景。
光子AI加速器面临多项挑战,尤其是在光学与电子元件的集成方面,混合系统在接口处常存在效率低下问题。此外,扩展光子架构以支持更复杂的神经网络需要在器件微型化和光子电路设计上进行创新。共封装光子处理器(光学和电子元件共享同一基板)将消除接口效率问题,实现光与电子之间的无缝通信,这对扩展光子加速器以支持边缘设备中的大型复杂神经网络至关重要。
除这些进展外,光子加速器的未来可能在于使用二维半导体和超表面等新型材料,以提升光子器件的效率和可扩展性。这些材料可实现更紧凑、更高密度(纳米级精度)且高能效的光子电路,使其适合部署在受限边缘环境中。
量子光子学是另一个变革性方向,因为它能够利用量子现象(如叠加态和量子纠缠)进行AI计算。混合量子光子系统可显著提升AI加速器的并行处理能力和速度,尤其适用于优化和模式识别等任务。
将类脑计算与光子学融合也是一种替代方案,在SNNs中采用光子学实现可提升时序数据处理任务的性能,如语音识别和自主导航。
-
4.4 生物处理器
生物处理器和类器官作为AI硬件领域的新兴前沿,利用生物系统执行计算。这种范式与传统硅基处理器显著不同,借助生物材料的独特特性,如适应性、能效和自组织能力。Edge AI需要紧凑高效、实时处理的系统,而生物处理器和类器官通过模拟生物大脑的无与伦比计算能力,提供了有前景的解决方案。
生物处理器,特别是基于合成生物学和工程化基因电路的,利用活细胞或生物分子处理输入并生成输出。例如,细菌细胞可被编程为逻辑门,响应化学信号并产生特定输出。这些系统展示了大规模并行处理的潜力,数十亿细胞可同时处理复杂数据集。近期进展表明,分子逻辑电路能够执行类似传统电子设备的计算,但能耗更低。
类器官,即模仿大脑结构和功能的三维细胞结构,是神经形态计算的另一种替代方案。脑类器官则是通过干细胞培养来模拟神经处理的某些方面。近期研究显示,脑类器官能够表现出自发的电活动,类似于原始的神经计算形式。类器官在Edge AI领域具有潜力,因为它们能够以生物真实的方式进行实时处理,且能耗极低。
这些技术虽然尚处于起步阶段,但其独特特性使其非常适合 Edge AI 应用,尤其是生物处理器在能效和适应性方面表现出色,这些特性对远程或自主系统至关重要。另一方面,类器官提供了无与伦比的并行处理能力和可塑性,使其能够像生物大脑一样学习和适应新数据。
尽管有这些优势,挑战依然存在。生物系统本质上比电子电路更不可预测,且与现有AI基础设施的集成存在重大障碍。此外,将这些技术规模化用于实际应用需要在生物工程和计算框架方面取得突破。
一个有前景的方向是开发混合生物电子系统,其中生物组件与传统电子设备无缝对接。生物电子接口技术的进步使得活细胞与硅基处理器之间的实时通信成为可能。这种混合方法结合了生物系统的适应性与电子系统的精确性和可扩展性,为边缘AI打造多功能平台。
类器官在类脑计算中也得到应用,研究人员通过培育更大、更复杂的脑类器官,旨在模拟决策和模式识别等高级认知功能。近期,类器官已被训练用于控制机器人系统,表明其具备边缘实时自主操作的潜力。
此外,合成生物学正在推动生物系统可编程性的创新。CRISPR-Cas9基因编辑等技术使设计出更复杂、特异性更强的基因回路成为可能。借助该技术,工程化细菌系统能够处理时空数据,为环境监测和医疗健康领域的应用开辟了新的可能性
-
4.5 小芯片
小芯片是小型IC裸片,设计用于在单个封装内协同工作以形成完整系统。与采用大型单片裸片不同,系统被拆分为多个较小的裸片,即小芯片,每个执行特定功能。 这些小芯片通过先进封装技术互连,形成统一的SoC。
该技术通过SoC的模块化设计,提升了性能、灵活性、可扩展性和能效,同时提高了良率并降低了成本。这种模块化设计使得芯粒能够重复使用并针对特定任务进行优化。所有这些优势使芯粒成为物联网设备和汽车应用等众多市场的理想方案。
当然,它们也适用于这些领域的Edge AI方面。然而,在芯粒实现广泛应用之前,仍需解决标准化、电源分配管理以及不同芯粒间的互连等挑战。为解决这些问题,日本ASRA小组和欧洲IMEC汽车芯粒计划等组织已成立。
-
4.6 存内计算(忆阻器技术)
存内计算将计算与数据存储集成在相同的物理组件中,显著减少了处理器与存储单元之间数据传输的需求。忆阻器技术——包括自旋轨道力矩MRAM(SOT-MRAM)、相变存储器(PCRAM)和氧化物阻变存储器(OxRAM)——使存储单元能够直接执行逻辑或模拟计算。通过大幅减少数据移动,存内计算显著提升了AI推理的速度和能效。传统深度学习硬件在片外DRAM、片上SRAM和计算单元之间移动数据(权重和激活值)所花费的时间与能耗通常超过执行算术运算本身。
新兴技术如SOT-MRAM、PCRAM和OxRAM集成了内存与处理功能,显著降低数据传输延迟。通过减少CPU与内存之间的瓶颈,这些架构提升了推理速度——这对实时AI应用至关重要。其低延迟性能使其特别适合Edge AI,其中设备端快速处理至关重要。
-
4.7 ASICs、SoCs 和微控制器
专用集成电路(ASICs)和以AI为中心的SoCs专为高效深度学习推理而定制设计。与专为多种任务设计的通用CPU或GPU不同,这些芯片集成了张量引擎和神经处理单元等专用电路,这些组件针对现代AI模型所依赖的矩阵运算和神经网络计算进行了精细调优。
这种专用化的结果是性能和能效的显著提升。ASIC和SoC可以实现极高的吞吐量——通常以每秒万亿次运算(TOPS)衡量——同时保持低功耗。例如,智能手机中嵌入的NPU可以执行数TOPS的推理运算,仅消耗几百毫瓦的功率,这种能效水平是传统CPU或GPU无法维持的。然而,这种高度优化也伴随着权衡:这些芯片通常灵活性有限,更适合特定任务而非通用计算。
在许多AI系统中,尤其是边缘计算场景下,微控制器(MCU)与ASIC集成或内置于SoC中,用于处理低功耗和实时响应的任务。虽然MCU在处理密集型推理时算力不足,但它们对于协调传感器输入、触发推理操作以及管理系统各组件间的通信至关重要。在超低功耗场景(如TinyML应用)中,甚至简单的神经网络也能直接部署在MCU上,使设备无需依赖云资源即可实现基础AI功能。
随着AI持续扩展到嵌入式和自主系统中,ASIC和SoC变得越来越重要。它们能够提供高性能、低延迟的推理能力,非常适合语音识别、计算机视觉、自动驾驶汽车和工业自动化等高要求应用场景。
-
4.8 FPGA
FPGA提供了一个独特且强大的平台,通过可重构的硬件架构实现大规模并行计算,从而加速AI模型。FPGA的核心是由可配置逻辑块组成的阵列,这些逻辑块以特定方式互连,使设计者能够创建自定义的数据路径和计算单元。这种灵活性对AI工作负载特别有价值,其中MAC、加法器和控制逻辑等可以空间映射并优化以匹配特定神经网络的结构。
与专为特定任务设计的ASIC不同,FPGA可以重新编程以支持新的或不断演进的模型架构。这种可重构性使其非常适合需要频繁更新或实验的AI应用,例如边缘AI部署或原型开发阶段。工程师可以微调硬件特性——包括数据流、内存层次结构和位宽——以适应每个模型的需求,从而提升性能和效率。
FPGA的关键优势之一在于其能够适应各种AI模型,同时保持中等功耗。其架构支持超低精度计算,部分设计甚至将量化精度降至一至两位。这不仅加速了计算,还大幅降低了功耗——这对于功耗敏感的环境来说是一个关键优势。
随着AI领域持续快速发展,FPGAs凭借其敏捷性和定制化能力,能够紧跟最新技术发展,成为构建前沿自适应AI解决方案的开发者的理想选择。
-
4.9 ECHO AI处理网关
标准化、自动化的接口框架,实现芯片到云端(如M2M)的无缝通信,是必不可少的。从边缘芯片到云端的自动化访问(ECHO)应实现无需访问外部世界的云上快速AI处理,以提供可信性,并保障隐私和安全的AI处理。
在硬件层面弥合边缘设备与云基础设施之间的差距,可减少操作系统和通信协议的碎片化,正如CEUR-WS论文所指出的。为确保边缘到云的安全数据流,云平台(如AWS、IONOS和Azure)内部的直接硬件级访问必须通过安全API启用,且与应用程序特定知识无关。对于未来多核边缘处理器,当采用基于硬件的API通信时,消息队列遥测传输(MQTT)和受限应用协议(CoAP)的效率较低,因为此时通道可扩展,并支持上下行链路的优先级通道(也易于移植到5G/6G)。
为缓解潜在的安全威胁,系统必须实施端到端加密、强认证机制、Zero Trust、时间戳,并在整个数据路径(从边缘设备到云基础设施)上强制执行一致的安全策略。该架构确保中间软件层无法在传输过程中访问或篡改数据,从而在云中实现安全的AI训练和推理。
为满足不同的应用需求,云平台可提供更高的可扩展性和硬件级灵活性,以适应各种应用需求,从而实现ECHO的无缝集成。
这种以硬件为中心的网关架构的关键优势在于降低延迟并加快AI模型训练。同时支持内存计算,并促进深度神经网络直接集成到数据管道中,使AI处理更靠近数据源,避免高级AI加速器过载。
最终,该架构减少了对软件配置的依赖,最小化手动交接,并简化安全云访问,为高效安全的AI驱动系统铺平道路。
-
4.10 结论
有大量证据表明范式正向Edge AI转变。传统DNNs主导高性能云应用,但在边缘端因高功耗和计算需求面临可扩展性问题。对靠近数据源的节能、实时AI解决方案的需求日益增长,推动了边缘硬件的创新。

SNNs受生物神经元启发,具有超低功耗和实时处理能力,特别适用于机器人、时间序列数据和感官应用。类脑芯片如英特尔Loihi和IBM的TrueNorth展示了片上学习和能效的潜力。然而,训练复杂度和硬件专用化仍面临挑战。
RISC-V的模块化使其非常适合为边缘设备定制AI加速器。诸如PULP和向量扩展(RVV)等平台能够高效处理ML工作负载。异构计算与近似计算的融合进一步提升了受限环境中的能效和性能。
光计算在速度、并行性和能效方面具有显著优势。光子神经网络和硅光子学能够降低延迟和功耗,使其非常适合高吞吐量边缘应用。未来的发展将依赖于混合光电子系统、新材料以及可能的量子光子学,以实现极致加速。
芯粒通过在芯片封装内模块化特定功能,实现灵活、可扩展且成本效益高的AI硬件。其复用性和任务特定优化使其成为物联网和汽车等领域边缘AI的理想选择。广泛采用需要克服标准化和集成挑战。
虽然生物计算系统(e.g., 脑类器官和合成生物处理器)仍处于实验阶段,但它们在边缘超低能耗、自适应AI方面展现出潜力。混合生物电子接口也正在兴起,旨在将生物适应性与电子控制相结合,以构建新一代智能系统。
存内计算技术(例如SOT-MRAM、PCRAM、OxRAM)大幅减少数据移动,提升速度和能效。这对于需要快速本地AI推理的边缘设备尤为重要。这些架构能够解决内存瓶颈,并支持实时AI处理。
ASICs和AI-centric SoCs专精于深度学习推理,为特定任务提供最高性能和能效。相比之下,FPGAs提供可重构平台,通过牺牲部分效率换取灵活性,非常适合用于不断演进或频繁变化的AI模型。这种选择反映了性能优化与硬件适应性之间的权衡。
ECHO架构为下一代AI系统提供了高效且安全的基础。它简化云接入,最小化手动配置,并提供满足多样化应用需求的灵活性和可扩展性,最终为安全的硬件级芯片到云集成树立了新标准。
5.大挑战、约束与限制推动边缘AI硬件解决方案创新
随着Edge AI的持续演进,其独特的挑战、约束与限制正推动硬件设计的创新浪潮。本章探讨了Edge AI硬件解决方案中亟需突破的技术、环境、计算及特定AI模型相关难题。
-
5.1 边缘设备约
在边缘设备上部署AI算法会面临若干必须仔细管理的约束条件,以确保最优性能。
-
算力与速度:AI算法需要大量计算资源才能在可接受的时间内执行。边缘设备通常算力有限,难以高效运行复杂模型。专用硬件加速器(如神经网络处理单元NPUs)能够将AI特定任务从通用CPU卸载,从而提升性能。
-
可用内存:充足的板载内存对于在AI模型执行期间临时存储和检索数据至关重要。该内存的大小和速度直接影响处理速度、能耗和整体效率。模型量化和剪枝等技术可以降低内存需求,使AI模型能够在资源受限的设备上部署。AI模型必须存储在设备上,存储限制会限制可部署模型的复杂度和规模。高效的模型压缩方法对于将模型适配到边缘设备的存储限制内至关重要,同时不会显著损害性能。
-
能耗:AI任务中的计算与数据移动消耗电力,更大的模型通常导致更高的能耗,降低设备续航能力。能效高的模型架构和硬件加速器可通过优化推理时的功耗来缓解此问题。
-
加工支持:在边缘设备中,传统处理器(CPU或微控制器)通常与AI加速器协同处理不适合专用硬件的任务。然而,这种协作会因能耗增加而进一步降低设备的自主性。平衡通用处理器与专用处理器的工作负载对维持效率至关重要。
-
连通性:边缘节点通常连接到外部资源,用于发送传感数据、接收命令以及与云资源交互。然而,边缘节点的连接不可靠,且可能无法满足应用所需的传输速率和延迟要求。引入连接管理与本地AI能力(特别是采用分布式或分割式AI方法)可显著提升部署应用的鲁棒性和性能。
-
硬件劣化:边缘设备面临的硬件劣化来源(包括各种天气条件)比云服务器中的处理硬件更为广泛。底层硬件的劣化会导致部署在边缘设备上的AI模型性能下降。因此,边缘AI模型必须具备鲁棒性和灵活性,边缘应用系统需包含性能监控和更新机制以应对劣化,从而延长AI边缘产品的使用寿命并提升其可持续性。
-
安全与防护:边缘设备通常比云服务器更容易访问,这使它们易受更广泛的攻击,尤其是物理攻击。因此,用于安全关键流程的AI模型需要部署在具备安全与防护组件及机制的认证边缘硬件上。
-
设备资源共享:同一设备同时运行多个AI模型会并发占用有限资源,导致可用性下降并影响性能。
解决这些约束需要采取整体性方法,结合硬件进步与软件优化技术,以实现AI在边缘设备上的有效部署。
-
5.2 边缘模型与应用约束
软硬件协同设计对于边缘AI至关重要,紧密整合硬件能力与软件需求,以优化效率、性能和功耗——这些是边缘应用的关键方面。边缘设备通常面临严格的功耗约束;协同设计确保软件算法能够充分发挥硬件优势,显著降低能耗。通过针对AI模型量身定制硬件加速,协同设计能够实现更快、响应迅速且实时的处理。
协调软件需求与硬件执行可最小化数据移动和延迟,这对实时性能至关重要。此外,该方法支持灵活且面向未来的硬件架构,能够随着新兴软件技术的发展和AI模型复杂度的提升而演进。最终,软硬件协同设计有效连接算法创新与硬件功能,打造高效、强大且响应迅速的Edge AI解决方案。
在边缘设备上优化AI模型和应用需要应对几个关键约束。
-
模型大小:大型模型需要更多的计算能力和内存,这可能导致在资源受限的边缘设备上运行速度变慢。模型剪枝和量化等技术可以减小模型规模,在不显著降低准确率的前提下提升性能。
-
模型准确度与精度:数据表示中使用的精度水平会影响硬件资源需求,进而影响AI模型的性能和准确度。平衡精度与资源利用率对高效边缘部署至关重要。
-
模型架构:神经网络中的设计和参数互连会影响计算效率、内存使用和处理速度。选择针对边缘环境优化的架构对有效部署至关重要。
-
模型训练与推理:在Edge AI的背景下,区分训练和推理(部署)非常重要。通常,AI模型在云端环境中进行资源密集型训练,那里有充足的计算资源。训练完成后,这些优化后的模型被部署到边缘设备上进行推理。这种划分确保计算密集型训练任务不会给资源受限的边缘硬件带来负担,同时仍能实现高效、实时的设备端AI。直接在低功耗设备上训练模型仍是一个前沿领域,面临技术层面和实际应用层面的诸多挑战;然而,随着软件、数据驱动策略、联邦学习和硬件方面的突破,这正变得越来越可行。
-
应用速度要求:边缘设备可能因资源限制难以满足应用的速度需求,影响其及时摄入数据和执行推理的能力。需要优化硬件和软件以达到所需的性能水平。
-
数据量与资源可用性:处理大型数据集或高分辨率输入会迅速超出边缘设备的可用资源,阻碍应用性能。实施数据压缩和高效数据处理策略可以缓解此问题。然而,边缘设备可能面临标注数据获取受限或不稳定的问题(监督训练所必需),这催生了联邦学习、自监督学习和主动学习等新策略。
-
原始数据预处理:在输入AI模型前通常需要大量计算和内存资源。高效的预处理流程对有效管理资源消耗至关重要。
-
鲁棒性:所有应用场景中都可能出现不可预见的事件和硬件劣化。同时,由于边缘端资源有限,重新训练和更新更为困难。因此,Edge AI模型需要具备一定的鲁棒性以应对这些问题。
要应对这些约束,需要一种结合模型优化技术、高效的数据处理和硬件考量的全面方法,以确保AI在边缘设备上的有效部署。
-
5.3 环境、运营及财务约束
部署边缘设备需要应对多种环境、运营及财务约束。
-
设备外形规格:边缘设备必须符合特定的尺寸和重量限制,这可能颇具挑战性,因为需要整合冷却系统、接口和电池等组件。平衡这些需求对于满足外形规格限制至关重要。
-
环境考量:边缘设备通常在恶劣条件下运行,例如极端温度、湿度、粉尘或辐射。在这些环境中确保高可靠性可能需要专用硬件,这可能导致性能较低且成本更高。
-
安全与隐私:在安全关键型应用中,通常需要硬件冗余来提高可靠性,尽管这会增加成本并引入额外的设计约束。此外,在公共或远程环境中部署边缘AI应用时,保障数据通信安全至关重要,以防范潜在漏洞并确保隐私。
-
接入性:边缘设备难以接入,特别是在偏远或难以到达的地点,这使得维护和更新既困难又昂贵。
-
部署和调试:边缘设备的部署和调试通常复杂且成本高昂,尤其是在大规模或地理分散的安装中。
-
维护与演进:边缘设备在整个生命周期中的持续运行、管理、更新、维护、更换及最终退役会产生显著成本。确保AI模型更新已正确部署并按预期运行至关重要。运行时行为分析和溯源追踪等技术可用于验证模型完整性。
-
协议和接口标准:由于边缘设备的多样性——从小型IoT传感器到复杂的自主系统——制定标准、协议和接口变得至关重要。标准和协议确保各种硬件和软件组件之间的互操作性,促进跨平台的无缝集成、可扩展性和通信。定义清晰的接口能够实现高效的数据交换、软件复用和简化开发,最终降低复杂性和成本。
应对这些约束需要仔细规划并权衡利弊,以确保边缘部署既有效又可持续。
-
5.4 安全、安保与隐私技术
Edge AI指的是将AI算法直接部署在数据处理和决策的边缘节点,例如物联网设备或现代汽车中的集成模块(eg,用于碰撞预警的行人检测器)。尽管研究已聚焦于通过减少对第三方云服务的依赖来使AI训练更稳健、可靠和安全,Edge AI却带来了独特挑战。
例如,智能网联汽车车队可能需要对模型进行重训练以提升性能。由于设备端训练通常不可行,收集的数据必须传输到高性能服务器。重新训练完成后,更新后的模型必须部署回边缘设备。这种从传统AI流水线的转变引发了关键的安全与安保问题,包括以下内容。
-
功能安全:如何确保IoT设备正常运行,处理硬件问题(e.g., 位翻转、松动线缆)并维护软件完整性?
-
物理入侵:如何防止可能损害设备稳定性或暴露于外部威胁的篡改行为?
-
安全:如何保护设备上的数据——无论是收集、处理还是存储的——免受未经授权访问?
-
传输完整性:如何确保传输至服务器的训练数据和部署回设备的新模型的安全性与完整性?
解决这些问题对构建安全、可靠、高效的Edge AI系统至关重要,此类系统可独立运行并保障数据隐私和系统稳定性。
-
5.5 计算技术挑战
计算性能的进步历来依赖于晶体管微缩和架构改进。然而,随着晶体管缩放接近物理极限,必须采用替代策略以克服内存墙和能效问题等新兴挑战。
晶体管的持续微缩面临重大障碍。
-
热力学约束:当晶体管接近原子尺度时,量子效应(如电子隧穿)变得显著,阻碍进一步微缩。
-
制造挑战:光刻技术在纳米尺度面临挑战,使先进芯片制造更加复杂。另一个关键问题是为Edge AI组件中的多样化功能确定最佳技术组合。在此背景下,Chiplets提供了一个有前景的解决方案。
-
为解决这些限制,目前正探索多种方法。
-
3D集成与异构架构:垂直堆叠芯片并整合多种组件可提升性能并缓解空间限制。
-
专用硬件:针对特定任务设计的ASIC芯片相比通用处理器效率更高。
-
替代技术:探索新材料和器件(如忆阻器和集成光子学)有望突破当前晶体管的限制。
-
5.6 内存墙挑战
内存与处理器间的数据传输消耗了处理时间的很大一部分,导致效率低下。
数据传输瓶颈:在大规模AI模型中,数据传输耗费大量时间,且无法随着处理能力的提升而高效扩展。确保AI模型在从物联网设备到智能手机的异构硬件环境中高效运行,这增加了复杂性。硬件能力的差异需要定制化的优化策略以维持性能。
要克服内存墙,实施内存层次结构等策略是关键。为此,以下方法可能有效:
-
存内计算(CIM)架构:将计算能力集成到内存单元中,减少数据移动,提升速度和能效。
-
3D内存技术:通过垂直堆叠扩展内存带宽,缓解数据传输限制。
-
5.7 能效
能效已成为计算行业的关键问题,因为数据中心和高性能计算系统不断上升的功耗带来了重大的环境和经济挑战。先进计算系统日益增长的能源需求带来了可持续性挑战。
-
高功耗:传统架构消耗大量能源,导致运营成本增加和环境影响。
-
专用低功耗硬件:设计针对特定任务优化的芯片可显著降低能耗。
-
算法优化:开发更高效的算法可降低计算负载及相关能耗。
-
5.8 技术栈的模块化与互操作性
在计算领域快速发展的背景下,超大规模云服务商(大型云服务提供商)认识到,仅靠硬件进步不足以满足日益增长的应用需求。其独特优势在于一种称为“垂直整合”的整体方法,强调对整个技术栈的全面控制。该策略整合了硬件设计、替代材料和优化算法,以持续提升计算性能。通过管理硬件和软件组件,超大规模云服务商能够定制解决方案,提升效率、可扩展性和创新能力,从而在竞争激烈的云服务市场中脱颖而出。
该策略根植于“系统思维”,包含以下内容
-
迭代协同设计与优化:通过持续优化并对齐系统需求至硬件层面,覆盖技术栈的所有层级,超大规模云服务商确保各组件协同优化。这一过程通常被称为系统技术协同优化(STCO),能在系统设计初期进行架构与技术的权衡,从而在更短时间内实现高性能、高性价比的解决方案。
-
多学科协作:通过整合多领域专业知识,提出创新解决方案以应对复杂挑战,确保最终产品有效满足客户需求。这种整体协同设计方法能够打破垂直层级(设备、电路、架构与系统、算法和应用)间的壁垒,实现全局优化。
通过采用这种垂直整合的方法,超大规模云服务商能够提供不仅满足客户期望、更常常超越的云解决方案,降低硬件部署的难度,并确保无缝高效的性能。
-
5.9 设备端训练中的软件与数据挑战
在边缘设备上直接训练机器学习模型带来了一系列远超硬件限制的复杂挑战。从软件和数据的角度来看,核心困难在于将传统训练范式——原本为数据中心规模环境设计的——适配到极度资源受限、异构且通常动态的边缘环境中。
最基础的训练范式之一是反向传播,它需要存储网络各层的中间激活值。在标准服务器或GPU上,这不成问题,但在边缘设备上却是一个重大限制。高效的梯度计算因此成为瓶颈。开发者必须依赖低精度梯度等策略,将训练过程压缩到这些受限环境中;然而,这些权宜之计会带来收敛速度和数值稳定性方面的权衡。
另一个关键因素是batch size。现代training workflows依赖于mini-batch gradient descent来稳定更新并高效利用vectorised operations。在edge上,可用内存通常只允许一次处理一个或少数几个样本。这会显著增加gradient estimates中的噪声,减慢收敛,并使模型更难泛化。因此,能够快速适应sparse或noisy gradients的optimisers更为合适,尽管它们会带来额外开销,必须在on-device上仔细管理。
另一个常见挑战是标注数据不足。边缘设备通常收集海量原始数据——传感器读数、图像、音频片段——但缺乏相应的真实标签。这使得传统监督学习在大多数现实边缘场景中不可行。开发者必须依赖自监督或半监督学习技术,例如对比学习或伪标签,这些方法可以减少对标注数据的依赖,但需要仔细校准以避免强化模型偏差或对错误信号过拟合。
此外,边缘设备上的训练几乎总是持续性的。模型并非仅在固定数据集上训练一次,而是持续处理不断演化的数据流。这导致了众所周知的灾难性遗忘问题,即学习新数据会导致模型丢失先前获取的知识。解决此问题需要实现持续学习技术、记忆回放缓冲区或基于正则化的策略——所有这些都需要以轻量级且内存高效的方式实现,以适应设备的资源限制。
数据漂移加剧了挑战。边缘设备接收的输入分布随时间变化,即用户行为改变或硬件性能下降。与云端不同,边缘设备缺乏集中式的再训练流水线和数据验证循环。模型必须能够本地适应,理想情况下使用支持快速适应的在线学习或元学习技术。然而,缺乏大规模指标或测试集,很难判断模型是否仍表现良好。
最后是基础设施问题。边缘端的机器学习软件栈在训练方面碎片化且不成熟。大多数现有工具仅用于推理而非训练。通常,团队必须从头编写自己的训练循环,手动处理前向和反向传播、内存分配和序列化。
总体而言,这些挑战使设备端训练成为一个高度专业化的研究和开发领域。虽然边缘推理已经越来越实用,但训练仍然需要算法适应、软件工程和巧妙近似技术的微妙结合。然而,随着Edge AI兴趣的增长,解决这些训练瓶颈的需求变得更为紧迫(也更有回报)。
-
5.10 边缘AI驱动产品设计工程工
在开发AI驱动产品时,需要考虑整个技术栈以确保无缝集成、最优性能和适应性。这种全面的方法涵盖多个层次,从数据摄入和处理到模型训练、部署和用户界面。通过处理每个组件,工程师可以协调软硬件之间的交互,从而实现高效的资源利用和系统性能提升。此外,整体视角有助于在各层级实施稳健的安全措施,防范漏洞并确保数据完整性。这一策略不仅简化了开发流程,还助力打造稳健、高效、安全且能满足当今应用复杂需求的AI驱动产品。
将AI集成到智能系统产品中:开发AI驱动的智能系统是一项跨学科挑战,需要数据科学家、系统架构师、验证工程师以及机械、电子、半导体和软件领域的专家无缝协作。实施决策由关键产品需求(如功耗、尺寸、散热和实时性能)以及生产成本和上市时间等经济因素决定。
-
5.10.1 AI驱动的智能产品开发中的挑战
基于AI的产品提供了多种实现技术,使架构决策至关重要。分析不足可能导致成本过高、功耗过大或硬件资源受限。传统的领域特定设计方法难以应对这种多维设计空间,常导致不同团队因术语差异而沟通不畅、延误,甚至产品失败。
需要一种全面、可扩展的方法论和工具来管理从简单物联网设备到复杂系统之系统(例如车辆)的开发。关键在于分层设计阶段和工具。基于此,AI驱动的智能产品开发遵循五个相互关联的设计阶段:
-
需求捕获与管理
-
AI算法开发与训练
-
架构探索
-
实现架构验证
-
领域特定的实施路径
每个阶段都会传递需求和反馈以确保持续优化。接下来我们将逐一分析这些阶段。
-
1.需求获取与管理
该阶段采用成熟的需求管理工具,这些工具与后续设计流程集成。
-
2.AI算法开发与训练
神经网络开发依赖于TensorFlow、PyTorch、Keras和Apache MXNet等工具,这些工具大多为开源且基于Python。工具必须支持从多个AI框架导入模型。
-
3.架构探索
在此阶段,评估潜在的实现技术。在抽象性能仿真中,将AI模型映射到处理单元和加速器,以分析以下关键指标:
-
处理时间(延迟)
-
互连利用率
-
存储使用率
-
功耗
目标是筛选出适合详细分析的可行架构。为适应多样化的硬件平台,架构探索必须支持分层虚拟建模,目标包括:
-
现成的ECU;
-
定制ECU(配备标准处理器/SoC);
-
预构建SoC(内置加速器);
-
定制SoC或3D IC;
-
混合解决方案,结合现成组件与可配置组件。
参数化仿真模型支持快速架构调整和设计参数扫描。如果分析显示可行性约束,必须调整算法或需求。
-
4.实施架构验证
在解决方案空间缩小后,下一步是使用虚拟平台技术进行功能和性能验证——一种位精确、时序近似的仿真,可在建模的处理器上运行真实软件,具有以下优势:
-
比先前仿真模型更精确的时序、功耗和互连/内存利用率分析;
-
对架构满足约束条件的信心;
-
与完整数字孪生集成用于真实世界验证。
-
5.领域特定实施路径
架构最终确定后,移交至使用专用设计工具的领域特定开发团队:
-
电子设计自动化(EDA)工具,用于印刷电路板(PCB)、集成电路(IC)和三维集成电路(3D IC)设计
-
厂商专用工具,用于FPGA、NPU和定制SoC实现
-
常规软件开发工具,用于固件和应用软件
-
6.工具访问
为支持中小型企业,开发工具必须:
-
价格亲民且门槛低;
-
易于获取,例如预装工具链并支持安全远程访问的云解决方案;
-
需专业支持,因为开源工具需要专业知识应对AI系统设计的复杂性。
-
5.11 结论:推动Edge AI硬件创新的挑战
Edge AI在处理能力、内存、能耗和连接性方面面临显著限制,需要专门的高效硬件和优化的AI模型。软硬件协同设计对于满足性能、功耗和延迟要求至关重要。恶劣的运行环境、访问受限以及对稳健且安全系统的需求进一步增加了部署的复杂性。
能源效率是关键驱动力,推动低功耗架构、内存计算和神经形态硬件的创新。随着传统晶体管缩放接近极限,芯粒、3D集成和新兴技术(如光子学、忆阻器、生物处理器)等新方案正逐渐兴起。标准化、模块化和先进设计工具对于管理复杂性、确保互操作性以及加速开发至关重要。最后,生命周期可持续性——通过高效更新、监控和维护——是实现可扩展、长期Edge AI部署的关键。
6.MultiSpin.AI:欧洲引领Edge AI计算硬件领域的机遇
实时、高能效AI处理需求的日益增长推动了专为Edge AI应用设计的硬件架构的发展。基于冯·诺依曼架构的传统数字计算硬件难以满足这些AI需求,促使新型计算方案的出现。本章探讨Edge AI硬件的发展历程,重点关注基于自旋电子学的模拟AI平台,如MultiSpin.AI[27],这些平台可能在欧洲新型Edge AI硬件的发展中发挥重要作用。
-
6.1 边缘AI硬件推动自旋电子学创新的要求
自动驾驶等新兴行业对实时处理、低延迟和低能耗的需求,显著加速了从云端AI处理到边缘AI的转变。这种行业特定的转变导致了对低功耗、高计算效率的专用AI硬件解决方案的需求增加。
-
6.2 自旋电子学AI平台
自旋电子学技术利用电子自旋的内在量子力学特性进行信息存储和计算。这些技术已成为通用神经形态系统和专用模拟存内协处理器的有前景基础。自旋电子学系统具有显著优势,包括超低功耗、提升的可扩展性以及对微型化效应的高鲁棒性,使其非常适合紧凑型、能耗敏感的边缘AI应用。
这些技术革新共同标志着AI硬件领域的变革性突破,为边缘计算环境提供了量身定制的解决方案,其中能效、速度和实时响应能力至关重要。
-
6.3 边缘AI硬件平台对比
这些原则通过智能工厂实现,而智能工厂是Industry 4.0的最高体现。由信息物理生产系统(CPPS)驱动,智能工厂在整个制造生命周期中实现自组织、自主学习和自适应响应。

-
6.3.1 自旋电子学在人工智能硬件演进中的作用
自旋电子学不仅利用电荷传输,还利用电子的自旋特性,显著增强了传统基于电荷的电子学。传统电子学主要依靠电荷来生成电压、电流并定义电阻,而自旋电子学则利用电子自旋——一种代表固有角动量的量子力学性质——来实现更复杂的功能。
电子电荷与自旋的双重利用为计算和数据存储领域的先进技术及新范式开辟了道路。自旋效应带来的额外功能包括:
-
非易失性:基于自旋的设备(如MRAM)即使在断电情况下也能保留存储的信息,无需持续供电。这种固有的非易失性特性有助于实现持久耐用的数据存储,对缩短启动时间和提升电子设备可靠性至关重要。
-
能效:自旋电子学器件相比传统电子设备大幅降低功耗。这种高效性源于操控电子自旋状态所需的能量远低于通过电阻通道移动电荷。自旋电子学因此显著降低能耗,可能将功耗降低数个数量级,从而延长电池寿命并促进更可持续的电子系统。
-
可扩展性:电子自旋的固有特性使自旋电子学技术能够以极高密度集成,在缩小尺寸的同时不降低设备性能。这一特性对于开发下一代电子设备(包括量子计算和先进集成电路)所需的超密集存储解决方案和紧凑型计算架构至关重要。
-
低比特间差异:基于自旋的技术在单个比特间具有天然的低差异性,确保性能的高精度一致性,这对AI工作负载尤为关键。较低的差异性提升了关键应用中的计算精度、可靠性和可重复性,例如神经网络推理、机器学习加速器以及需要稳定可重复结果的精密计算任务。
-
总之,自旋电子学不仅与传统电子技术互补,还通过实现更高效、鲁棒、可扩展且可靠的计算系统显著推动传统电子技术的发展,因此有望应对未来的技术挑战。
-
MultiSpin.AI 使用的关键自旋电子学技术如下:
-
SOT(自旋轨道扭矩)器件:利用自旋轨道耦合快速切换磁态,实现高速、高能效计算,适用于先进计算和AI应用,显著降低功耗并提升设备可靠性。
-
多级磁隧道结(M2TJ):支持每个单元的多个磁态,实现n元逻辑运算,提升计算效率、降低能耗、提高AI工作负载的准确性,并提供可靠高效的处理能力。
-
6.4 MultiSpin.AI:Edge AI处理的范式转变
MultiSpin.AI 相较于传统AI硬件具有优势。例如,它引入了n元自旋电子AI协处理器,突破现有AI加速器的限制。关键优势包括:
-
通过内存集成AI处理绕过冯·诺依曼瓶颈
-
能耗比传统数字AI芯片降低超过1000倍
-
支持边缘应用的高密度实时AI推理

-
6.4.1 MultiSpin.AI对欧洲AI硬件的战略重要性
为什么要在欧洲监测并开发MultiSpin.AI?
-
欧洲创新领导地位:欧洲目前在AI半导体技术领域缺乏主要参与者。投资MultiSpin.AI符合欧洲芯片JU计划,提升欧洲在芯片开发方面的自主权,并提升下一代AI计算的竞争力。
-
符合可持续发展目标:AI工作负载消耗的能源日益增加。MultiSpin.AI的超低功耗自旋电子技术直接支持欧洲绿色新政,显著降低能源消耗,助力可持续数字化转型。
-
6.5 自旋电子学AI硬件的可持续未来
自旋电子学AI硬件的可持续未来包括以下支柱:
-
资金与政策支持:确保专门的资金和政策支持对于将欧洲定位为自旋电子学AI领域的领导者至关重要。将MultiSpin.AI整合到Horizon Europe中将提供必要资源,并促进战略规划与实施。
-
行业合作:与STMicroelectronics、Infineon Technologies、NXP Semiconductors等半导体公司以及imec等研究机构的合作是实现自旋电子技术商业化的重要途径。他们的设计和制造专长能够加速产品开发和市场进入。
-
学术研究:扩大自旋电子神经形态计算领域的学术研究将提升欧洲在下一代AI硬件中的地位。支持自旋电子材料、器件和算法的研究对于创新和知识产权创造至关重要。
-
应对日益增长的AI需求:需要高能效、高性能加速器。MultiSpin.AI为可持续AI硬件创新提供了契机。政策制定者、学术界和产业界的合作对于有效开发和商业化这项技术至关重要。
-
6.6 结论
实时、高能效AI处理的需求增长已超出传统数字硬件的能力,促使向专为Edge AI设计的新型架构转变。自旋电子学技术(例如MultiSpin.AI平台)通过实现超低功耗、可扩展且高性能的AI推理,提供了一种有前景的替代方案。自旋电子学系统凭借内存处理、非易失性和量子级效率等优势,解决了Edge AI的关键挑战,包括延迟、能耗和设备小型化。
MultiSpin.AI 代表了范式转变,其能效较传统处理器提升超过1000倍。同时契合欧洲在可持续性、数字主权和产业竞争力方面的战略目标。要充分释放这一潜力,持续投资、跨行业协作和针对性研究至关重要。自旋电子学AI硬件不仅满足边缘计算的技术需求,更确立了欧洲在下一代AI创新中的领导地位。
7.KDT和Chips JU研究与创新时间线
Chips JU(前身为Key Digital Technologies)是一个产业主导的倡议,旨在通过应对关键技术和战略挑战来提升欧洲半导体生态系统。其核心聚焦于“先进芯片设计”,目标是为AI、IoT和边缘计算开发下一代架构。在本章中,我们将有意缩小范围,聚焦当前科学Edge AI领域中的主要发展趋势,提炼关键见解与成果。尽管其他项目,如Horizon Europe和国家倡议,也在推动AI和Edge AI的发展,但它们不在我们的数据收集范围内。
-
7.1 数据收集
项目来源于欧盟委员会的CORDIS数据库和Chips JU网站。在审查项目的目标和目的后,我们将项目分为两类:
-
专注于创新Edge AI硬件及应用场景的项目
-
专注于生态系统开发、工具和工程平台的项目
对于每个项目,我们记录了关键维度,包括名称、目标、用例和信息来源(含官方网站)。我们使用ChatGPT-4o(Premium版,支持Web Search)提取项目目标和示例用例,并验证所有结果的准确性。
由于许多交付成果的机密性及其对工业合作伙伴的战略价值,本分析依赖于公开数据。对于第一类,我们研究了公开项目页面上展示的示例用例;对于第二类,我们收集了硬件策略和平台的相关见解。这使我们能够基于公开信息确定每个项目的预期成果和贡献。
KDT JU于2019年在欧洲启动AI4DI(人工智能赋能行业数字化),随后于2020年启动ANDANTE(面向边缘设备与技术的AI)。两个项目均已结束,并取得了切实成果。与此同时,后续项目仍在进行中,其全面影响将在未来几年逐步显现。





所调查的项目共同展示了一系列多样化的Edge AI解决方案,这些方案有望变革汽车、制造、医疗保健和农业等行业。硬件(eg, 嵌入式内存、神经形态芯片)、软件(eg, 联邦学习、实时分析)以及架构设计(eg, 边缘-云连续体)的创新正在推动性能、安全性和可持续性迈上新台阶。此外,这些进展促进了跨行业协作,推动了技术转移和共享价值创造。随着边缘AI的成熟,它有望带来更以人为本、更具韧性且更环保的应用,为横跨整个经济和社会领域的广泛数字化转型奠定基础。
-
7.2 硬件平台、工程工具及生态系统的设计
KDT 和 Chips JU 资助了一系列专注于硬件设计、集成与工程领域工具与平台的项目。表7.2介绍了这些项目中采用的创新硬件方案。

这些举措强调以硬件为中心的创新,每个项目都致力于在半导体设计、低功耗架构和安全设计方面突破边界。这些项目共同致力于优化或开发新的工具链和平台,以简化先进硬件解决方案的创建过程——无论是FPGA、ASIC、神经形态芯片还是安全SoC。
所有项目都高度重视资源受限环境中的能效和AI加速,通常通过在硅片层面集成信任锚点、加密技术以及神经形态或事件驱动范式来实现。最后,这些项目共同聚焦于协作开发与欧洲主权,凸显了提升欧洲在半导体技术和AI创新领域地位的更广泛雄心。
8.市场动态
本章讨论的市场动态体现在推动Edge AI创新和在新兴市场中开发新应用的主要企业中。随着大多数欧洲半导体公司全球化,市场边界日益模糊。例如,英飞凌在中国及亚洲的员工数量最多。
战略市场重心正转向印度、墨西哥等新兴工业国家,这些国家属于BRICS联盟。面对当前的地缘政治紧张局势,欧洲日益需要保障供应链安全并实现技术自主。
全球IT和AI巨头如谷歌、AWS和特斯拉早已洞察这一趋势,正构建灵活的跨域架构以实现资产的跨域、跨国灵活调配。
表8.1展示了截至2025年2月14日按市值排名的领先半导体公司概览。当然,市值会因市场波动而变化,该数据基于截至2025年2月14日的最新可用信息。

欧洲主要芯片供应商如恩智浦、英飞凌和意法半导体均位列全球前20,而NVIDIA则遥遥领先。根据market.us的最新报告,全球Edge AI芯片市场规模预计从2023年的24亿美元增长至2033年的252亿美元,预测期内复合年均增长率(CAGR)为26.5%。
Edge AI芯片市场的增长由多个因素驱动。
-
延迟降低:设备端处理数据可减少将数据传输到集中式云服务器所导致的延迟,从而加快决策速度。
-
隐私增强:设备端处理确保敏感数据本地化,降低数据泄露风险并提升用户隐私保护。
-
效率提升:通过设备端处理AI任务,设备运行更高效,节省带宽并减少对持续网络连接的依赖
这些优势正在推动Edge AI解决方案在消费电子、汽车、医疗和制造等行业的快速普及。需要注意的是,市场预测可能因不同的研究方法和数据来源而有所差异。例如,一些报告显示,全球AI芯片市场(包括边缘和云端AI芯片)预计到2033年将达到5209.1亿美元,年复合增长率(CAGR)为37.77%。
总结而言,边缘AI芯片市场有望实现显著增长,得益于各行业对实时处理、隐私保护增强和效率提升的AI应用需求持续增长。作为市场领先者,NVIDIA提供了一系列全面的平台和解决方案,专为各行业的Edge AI应用定制。


关键产品详见表8.2,该表对NVIDIA最新边缘AI硬件和工具进行了结构化总结,涵盖Jetson模块、独立GPU、开发套件和AI软件。这些平台专为将AI能力直接部署到边缘设备而设计,实现实时处理、增强隐私保护并提升各应用场景的效率。此外,NVIDIA还推出了DIGITS和Cosmos两个新平台。
-
DIGITS:NVIDIA于2025年CES推出的个人AI超级计算机,专为个人开发者、研究人员和学生提供高性能AI计算能力。该紧凑型系统搭载全新NVIDIA GB10 Grace Blackwell超级芯片,AI算力高达1 petaflop,使用户能够直接在桌面高效地进行大型AI模型的原型开发、微调和运行。DIGITS项目起价3000美元,让高性能AI计算更易获取,减少对云服务及其相关成本的依赖。其紧凑设计支持标准电源插座供电,适用于各类工作环境。
-
Cosmos:NVIDIA 的 Cosmos 是一个旨在加速物理 AI 系统开发的平台,例如自动驾驶汽车和机器人。它提供基于大量视频数据训练的生成式世界基础模型,能够从各种输入生成物理感知模拟。Cosmos 包含高级 tokenisers 用于高效数据处理,以及 guardrails 以确保安全和伦理标准。通过提供这些工具,Cosmos 旨在让开发者更便捷高效地进行物理 AI 开发。
-
8.1.1 欧洲厂商的机会与机遇
欧洲AI芯片厂商通过几个独特的卖点与英伟达区分开来:
-
能效:例如ARM等公司开发了以能效著称的芯片架构。ARM的设计在移动设备中广泛使用,并越来越多地应用于数据中心以降低功耗,为英伟达GPU提供更可持续的替代方案。
-
信任、安全与保障:在欧盟监管框架下运营的欧洲厂商可受益于旨在提升科技行业高安全与保障标准的政策。例如,2024年推出的AI法案提升了欧洲解决方案的可信度。欧洲公司在电源管理IC和嵌入式安全解决方案方面的专业知识也使其在Edge AI领域具备竞争优势。在汽车系统等受监管应用中部署AI时,安全与保障至关重要,而这些领域常被其他公司忽视。在边缘端本地处理数据可增强安全性和数据保护,这对自动驾驶汽车等应用至关重要。在产品、工具和平台方面,传统功能固定的Edge AI市场已相当成熟。用于部署轻量级、领域特定GenAI模型的工具(如NXP的eIQ GenAI Flow)也为边缘端部署GenAI铺平了道路。
欧洲领先的芯片和微电子公司及知名研究机构已成立Edge AI工作组。他们共同设定了目标,制定路线图以指导Edge AI的未来发展。该路线图旨在维持欧洲在该领域的领先地位,并跟上快速创新的步伐。
-
8.1.2 意法半导体
意法半导体(ST)提供全面的Edge AI技术组合,结合先进的硬件和软件解决方案,以实现各种应用中的高效设备端AI。表8.3汇总了其关键产品。


通过这些创新,NXP赋能开发者创建智能、安全、可靠、认证、高效的边缘应用。
-
8.1.4 英飞凌科技股份有限公司
英飞凌是全球领先的半导体制造商,专注于电力系统和物联网解决方案。表8.5概述了英飞凌的关键Edge AI技术。

这些技术赋能开发者创建适用于多种应用场景的高效、智能边缘设备。
9.目标、目的与行动建议
虽然早期GenAI的重点是参数量达数百亿至数千亿的超大型语言模型,这些模型需要强大的计算能力、高速连接、大带宽和海量训练数据,但如今该领域正转向更高效、更易获取的方案,这些方案能在更狭窄的应用场景中提供强劲性能,同时所需资源更少。当前,主流科技公司推出了轻量级AI模型,专为边缘计算设计,即使在资源有限、连接不可靠且对实时性或安全关键要求严格的低功耗设备上(例如汽车应用)也能高效运行。然而,解决设备限制和约束需要创新方法,并在边缘AI的硬件和软件开发中实现范式转变。
边缘AI工作组制定了以下行动:
-
实现欧洲商业和制造业的战略自主,需通过在技术、国防和能源等关键领域促进自力更生来减少对外部实体的依赖。这种方法增强了欧盟独立行动的能力,维护民主价值观,并强化其作为全球行为体的地位。
-
向欧盟委员会及相关利益相关方传达清晰的愿景对于协同努力实现共同目标至关重要。明确的欧洲战略有助于促进开放合作,确保政策一致性,并有效调动资源,从而推进促进EU内创新、竞争力和可持续性的举措。
-
识别行业尤其是中小企业的应用场景,对量身定制技术解决方案以应对现实挑战至关重要。通过了解中小企业的具体需求,可制定相关政策支持其应用AI及其他先进技术,促进增长、提升竞争力并推动AI普及。
-
识别未来5至10年内具有合理市场规模的关键使能技术与基础组件,涉及预测技术趋势和市场需求。这种前瞻性使欧盟能够战略性地投资于Edge AI等领域,确保新兴技术符合欧洲价值观并具有显著的经济影响潜力。
-
识别依赖关系和风险对保障技术自主至关重要。通过评估对非欧盟技术和资源的依赖,欧盟可制定策略以降低风险、推动供应链多元化并加强内部能力,从而增强应对外部冲击的韧性。
-
识别产业与研究机构间的合作机会可促进创新、加速科技发展。企业与研究机构的合作关系促进知识转移,支持研究成果的商业化,并增强EU在全球市场的竞争优势。
-
识别跨领域协同效应、技术转型、生态系统及工具设计,需要识别不同领域和技术之间的重叠。利用这些协同效应可以带来更高效的开发流程、降低成本,并创建适用于多种应用场景的多功能工具,从而最大化技术进步的影响。
-
协助企业做出技术开发与战略合作的投资决策,需要提供市场趋势、技术进步和潜在合作机会的洞察。这种指导使企业能够有效配置资源、持续创新,并在快速变化的技术环境中保持竞争力。
-
利用RISC-V和绿色ICT等赋能技术,需要采用开源硬件架构和可持续ICT。这些技术促进创新、降低成本、符合环境目标,有助于欧盟的数字主权和可持续发展目标。
-
将Edge AI作为Chips JU的战略资产,需要将AI能力直接集成到硬件组件中。这种方法能够提升处理效率、降低延迟,并支持高级应用和编程框架的开发,从而加强欧盟在半导体行业的地位。
-
• 构建欧洲本地及边缘AI计算能力,包括在本地和深层边缘运行AI学习与推理工作负载的能力,至关重要。这些能力应重点聚焦于部署工具和低功耗芯片,并实现前所未有的能效水平。技能培养是支持先进技术研发和创新的基础。对本地高能效计算基础设施和教育项目的投资,确保欧盟在人工智能和大数据分析等领域拥有必要资源和人才以保持领先地位。
-
推动AI使用与发展的教育与培训,需要设计培训课程,使个人掌握负责任地使用和构建AI技术的技能。聚焦应用AI,确保新一代劳动力满足欧洲数字经济的需求,并推动伦理AI发展。
-
减少人才流失需要营造留住并吸引欧盟内人才的环境,通过整合各国构建统一的人力资源体系。这可以通过提供共同价值观、有竞争力的机会、培育创新生态系统和支持研究与创业来实现,从而避免专业人才流向其他地区。
-
支持并简化Edge AI领域初创企业的创建,包括减少行政壁垒、提供资金支持和导师计划。这些措施鼓励创业,刺激经济增长,并推动欧盟内部的技术创新。促进高潜力人才在欧盟范围内的流动对于培育创新和维持知识增长至关重要。通过促进人才流动,欧盟将增强知识留存,并确保对各国在学生和青年专业人士教育上投资的回报。为更好地评估这些举措的影响,应纳入欧盟每年STEM毕业生数量的数据——这是通过公共教育投资产生的区域潜在智力资本的指标。
欧盟通过聚焦于美国或亚洲尚未主导的领域,可以在新兴技术中开辟细分市场。通过识别并投资于未充分开发的领域,欧盟可以确立领导地位、实现技术组合多元化,并减少对外部技术的依赖。欧盟应统一协作,开发人脑高能效芯片(例如50 Peta Operations/W),专注于高能效、可扩展的本地及边缘AI计算。这将有助于实现脱碳、CO2减排、节水节能,并避免AI计算中心依赖核反应堆供电,如同美国在高性能和云端生成式AI计算中的做法。此外,数据清洗、压缩与增强,以及知识蒸馏、剪枝和深度异构量化等模型优化方法也应作为战略重点。
这些策略共同旨在加强欧盟的技术主权,促进创新,并确保欧洲企业和产业在全球舞台上保持竞争力。
实施以下措施有助于实现这些目标。然而,针对所述目标,需要在欧盟内全面推进Edge AI。
-
战略与全球趋势及欧盟举措的协同:为保持Edge AI领域的竞争力,必须使战略与全球发展趋势和欧盟举措保持一致。欧盟已推出多项重要计划,例如EU AI Champions Initiative和InvestAI,共同调动约2000亿欧元以加速全欧AI创新。与这些举措协同可确保努力协调一致,通过共享资源和知识推动技术进步。
-
评估当前EU及全球Edge AI技术前沿:对EU及全球Edge AI现状进行全面评估至关重要。这需要评估最新进展、正在进行的研究和新兴应用,以识别优势和需要改进的领域。例如,EU资助的dAIEDGE项目联合顶尖研究机构和工业合作伙伴,开发分布式AI解决方案的新范式,使欧洲处于Edge AI创新的前沿。
-
降低Edge AI系统的复杂性:简化Edge AI系统对更广泛的采用和效率至关重要。数据清洗、压缩和数据增强等技术,以及剪枝和量化等模型优化方法,可使AI模型更适合部署在资源受限的边缘设备上。此外,包括框架支持和硬件加速在内的系统优化策略,有助于提升Edge AI工作流程的效率。
-
组织应用与领域咨询:与多元利益相关方进行咨询互动对收集见解和促进合作至关重要。像EU的IoT政策这样的举措,展示了跨行业协作的重要性,即通过开放平台和标准促进工业合作,从而在整个边缘生态系统中实现欧洲领导地位。
-
未来芯片法案联合计划(JU)优先事项、主题与基准设定 :明确优先事项和基准对于指导未来研究和资金投入至关重要。欧盟芯片法案于2023年9月生效,旨在到2030年将欧洲在全球半导体市场的份额翻倍至20%,并提供430亿欧元的公共和私人投资用于芯片研发。将未来联合计划(JU)的项目征集与该法案对齐,可确保资源投向Edge AI的关键领域。
-
提升技术就绪级别(TRL)与促进市场准备度:推进Edge AI技术的TRL需要将创新从实验室转向实际应用。欧盟投入1.8亿欧元用于突破性数字技术,包括AI、机器人技术和新材料,彰显了弥合研究与市场部署之间差距的承诺。以客户为中心的研发确保技术满足市场需求并为成功应用做好准备。
通过解决这些方面,欧盟可以培育一个创新、具有竞争力且与区域和全球技术进步保持一致的稳健边缘人工智能生态系统。以下目标将提供指导,以克服突出的障碍,并维持和扩大欧洲参与者的地位。
-
9.1 目标1:构建欧洲生态系统,促进现有生态系统间的协同效应,加速Edge AI解决方案的应用。
Edge AI在计算连续体中的作用日益增强。这些技术的采用,尤其是在安全关键系统中,不仅依赖于资源高效的tinyML方法和模型,还依赖于工程和芯片设计流程中的创新,包括仿真和测试。主要技术里程碑和R&I行动应解决:
AI的发展需要全面理解各种技术方面,以开发高效、可靠且以用户为中心的系统。以下是关键的详细阐述:
-
处理向边缘迁移:将计算任务从集中式云服务器转移到边缘设备,可降低延迟并增强隐私。高级内存管理和内存计算加速器等技术在这一转变中至关重要。内存计算通过直接在内存硬件中执行计算,减少了内存与处理单元间数据传输的能耗。该方法在低功耗AI边缘设备中尤为有效,解决了传统架构中固有的内存墙瓶颈问题。
-
基础模型、数据与学习技术:分布式Edge AI通过在多个边缘设备上部署AI模型,实现本地化数据处理与决策。这种范式依赖于专为边缘环境定制的基础模型、高效的数据管理策略,以及支持去中心化训练和推理的学习技术。通过分布式处理AI工作负载,系统能够实现可扩展性和弹性,这对自动驾驶汽车和智慧城市等应用至关重要。
-
支持多种计算范式与多技术AI的芯片:开发能够支持多种计算范式(如经典计算、模拟计算、类脑计算和深度学习)的AI芯片,对于多样化的AI应用至关重要。例如,BrainChip的Akida神经处理器采用基于事件的处理方式,模拟神经功能以提升边缘AI应用的效率。同样,AMD的Instinct MI300系列整合了传统核心和AI优化核心,以加速多样化的计算任务。用于边缘AI的新型自旋电子学硬件有望突破现有硬件架构的局限。
-
AI验证与认证:确保AI系统的可靠性和安全性至关重要,尤其是在医疗保健和自动驾驶等领域。验证与确认(V&V)流程系统性地评估AI模型,识别潜在错误或偏差,并验证其性能是否符合预设标准。方法包括对代表性数据集进行测试、进行模拟以及分析决策过程,以确保AI系统在可接受范围内运行。
-
AI可解释性、可理解性、验证与认证:构建可信AI系统的基础 :建立对AI系统的信任对其广泛采用和负责任的部署至关重要。 这始于可解释性与可理解性,旨在使AI的决策过程对人类可理解且透明——这对用户接受度和监管合规(例如AI Act)日益重要。 同样重要的是验证与认证流程,确保AI系统符合安全、公平和可靠性的标准。 这些实践有助于验证AI的行为符合预期,尤其是在高风险应用中。 可信AI还包括模型安全,涵盖已部署模型的认证、对其长期演化的监控,以及验证训练过程中使用的数据的质量和完整性这些要素共同构成了部署强大、可问责且安全的AI系统的基础。
-
互操作性、可扩展性和模块化:设计具备这些特性的AI系统可实现跨平台无缝集成,并适应不断增长的需求。
-
设备端训练是驱动Self-X功能的学习机制:此类训练应包括自学习、自适应、自配置、自愈和自优化,使AI系统具备鲁棒性、自主性、上下文感知能力和自适应性,且无需依赖云,从而提升弹性和效率。
-
用于Edge AI设计、训练、优化、部署、更新、抵御网络攻击及维护的工程工具:专用工程工具助力Edge AI应用的生命周期管理。这些工具协助设计、训练、更新和维护AI模型,确保其长期有效且安全。例如,AI驱动的验证工具提升SoC设计验证效率,减少人工工作量并提高准确性。
-
从需求规格到生命周期结束的全程支持:全面支持整个AI系统生命周期——从需求规格、设计、开发、部署、运行、维护、演进到生命周期结束——对可持续性和合规性至关重要。这一整体性方法确保AI系统负责任地开发、有效维护和安全退役,符合伦理与监管标准。
-
人机交互:优化人机交互的重点在于创建自然的界面与交互方式,并确保AI系统有效理解并响应人类输入。这涉及自然语言处理、自适应学习和以用户为中心的设计原则,以提升用户体验和对AI应用的信任。
-
意图驱动优化、机器对机器交互、与数字孪生的交互:意图驱动优化使AI系统能够预判并响应用户意图,提升效率和个性化。机器对机器(M2M)交互使设备能够在无需人工干预的情况下通信与协作,这对物联网至关重要。与数字孪生(元宇宙和虚拟世界)——物理系统的虚拟副本——的交互促进实时监控、模拟和优化,提升决策和运营效率。
理解并整合这些方面对推进Edge AI技术至关重要,从而在各行业实现更高效、可靠且用户友好的应用。教育和专业培训应补充所提出的R&I行动,以促进欧洲的技能和能力建设。
-
9.2 目标2:促进欧洲AI价值链从芯片供应商到系统集成商的合作,以及欧盟利益相关方在ECS价值链中从芯片设计商到集成商再到制造商的合作。
NVIDIA目前是市场主导者,在机器人等快速发展的领域拥有不断扩大的硬件和软件应用提供商生态系统。NVIDIA通过提供完整解决方案降低集成成本,同时其易用的软件开发SDK在管理、集成和部署方面有效形成供应商锁定,增强客户粘性。NVIDIA负责API更新,并掌控整个价值链。

欧洲边缘AI生态系统目前碎片化,缺乏主导厂商。意法半导体与NVIDIA合作,提供API和工具用于集成NVIDIA的管理、部署SDK及硬件解决方案。此外,英飞凌于2018年将与NVIDIA DRIVE™ Pegasus AI汽车计算平台的安全自动驾驶合作扩展至消费者市场,同时其易于使用的管理、集成和部署软件开发SDKs有效实现供应商锁定,增强客户留存率。NVIDIA负责API的更新,并掌控价值链。
欧洲企业目前是英伟达解决方案的供应商之一,这使英伟达成为市场上增长最快、价值最高的芯片供应商。据英伟达CEO公开采访,最新Blackwell芯片的研发成本高达100亿美元。欧洲没有任何硬件企业能为单颗芯片投入如此巨额资金,更不用说动用欧盟纳税人的资金来实现这一投资规模。因此,本地化部署和高能效边缘计算是欧盟最有效的投资替代方案。应构建嵌入式软件、应用和服务生态系统以配合边缘芯片,因为各行业已通过重点关注中小企业,助力其向AI认可转型。
要挑战NVIDIA在边缘AI领域的主导地位,建立一个类似云计算中Kubernetes的开放生态系统至关重要。该生态系统应涵盖模块化边缘平台和基础设施,促进多样化的欧洲硬件和软件解决方案的整合,从而缓解供应商锁定问题。
实现无缝协作需要统一的术语体系来连接硬件与软件领域,促进有效沟通与知识共享。借助大语言模型可以协调不同概念和术语。重新审视并更新现有参考架构(如RAMI 4.0)有助于进一步整合。
这种协调将促进平衡的市场格局,提升欧洲企业的竞争力。虚拟化和仿真技术对于确保无缝集成、信任与协作至关重要。鉴于价值链中多元化的利益相关方,实施认证机制——例如SoS的自动化安全接入——并确保符合标准至关重要,尤其是在安全关键应用中。
与全球企业、中小企业及初创企业合作也至关重要。大型企业提供可定制的通用组件,而中小企业和初创企业贴近终端用户,作为系统集成商,针对特定需求定制解决方案。模块化与集成化的方法可简化定制化解决方案的开发流程。然而,GDPR合规与严格的安全要求等挑战可能阻碍与中小企业的合作。
欧盟芯片法案应强调软硬件协同设计,探索GenAI之外的AI方法论,包括tinyML、联邦学习和强化学习。相关举措可聚焦于通过共享术语提升价值链的互操作性,例如资助支持多样化方法和模块化架构的平台,并修订RAMI4.0或资产管理壳(AAS)等框架。将开源组织、孵化器和加速器作为合作伙伴对于生态系统发展至关重要。识别并与边缘AI技术的早期采用者(如初创公司、研究人员和SMEs)合作,对于未来几年推动创新解决方案的规模化应用至关重要。值得注意的是,韩国和新加坡等国家对新技术的接受度高于欧洲的保守立场。欧洲企业应基于全球采用趋势制定市场进入策略。
为保持全球竞争力,技术栈必须涵盖垂直与跨领域方面。鉴于需求不断演变,单一通用技术栈不切实际。相反,开发由可互操作模块组成的灵活、模块化技术栈势在必行。这种方法需要在各领域持续推动标准化与互操作性工作。在整个开发过程中,识别空白将为 startups 和 SMEs 带来机遇,促进欧洲边缘AI生态系统的创新与增长。
-
9.3 目标3:在AI价值链中为边缘AI应用创造更大的市场影响力
随着自动驾驶、辅助系统和机器人等多样化应用对低延迟和高能效解决方案的需求不断增长,边缘AI技术迎来了新的机遇。这一趋势还因对安全的AI赋能制造设备的需求持续增长,以及AI在医疗设备中的整合日益深化而进一步强化,从而实现更微创、更个性化的治疗。
-
通过创新创造明确价值:为推动欧洲有影响力的创新,我们必须从对最终产品及其实际价值的清晰愿景开始。学术研究,尤其是大学内的,应更紧密地与产业需求和用户驱动的优先事项对接。加强研究机构、产业合作伙伴与终端用户之间的信息流通,可确保技术进步切合实际需求、可扩展,并对社会进步产生实质性贡献。
-
平衡成本与价值:随着半导体技术的进步,成本正在上升——尤其是在向2nm和3nm节点过渡时,晶体管密度显著增加。摩尔定律的降本效应正在减弱,特别是在AI领域。然而,通过关注为最终用户创造的价值,我们可以证明在基础设施、供应链和先进制造工艺方面的必要投资是合理的。
-
创新与市场需求的协同:半导体创新必须以市场为导向。欧洲不能仅依赖先进制造能力;强大的高端市场同样至关重要。战略协作——尤其是英飞凌、恩智浦和意法半导体等欧洲领先企业之间的协作——对于培育需求和有效分担投资负担至关重要。
-
加强政策、研究与产业协作:政策制定者应构建资金和评估框架,优先考虑长期影响而非短期产出。研究人员则应专注于具有明确市场化路径的应用导向项目。同时,产业相关方必须尽早参与研究过程,以引导创新朝着可行、高影响力的解决方案发展。
-
鼓励欧洲内部的知识与IP共享:僵化的IP壁垒可能阻碍早期创新。构建完善的共享创新框架可以放大影响力并强化欧洲的工业基础。应优先开展涵盖AI、硬件和嵌入式系统的跨层协作,以避免供应商锁定并确保平台在各应用间的可移植性。
-
推动研究对接市场需求:不应仅以论文发表量衡量成功,而应重视具有市场变革潜力、解决紧迫的社会挑战并巩固欧洲在关键技术领域领导地位的创新。实现这一目标需要跨领域的长期协作,聚焦战略协同与实际应用性。
-
推动战略性的前竞争合作:在汽车等行业,共享AI和半导体参考架构已带来实际效益。例如,BMW正在与Bosch、imec、Cadence、Synopsys、Siemens和Arm等合作伙伴共同推动软件定义汽车的协作生态系统,作为Automotive Chiplet Programme的一部分。标准与协调将是构建竞争性和开放性欧洲技术生态的关键。
-
促进欧洲与国际协作:为应对GenAI和新兴技术带来的挑战,欧洲必须加强生态系统内的协作。诸如Edge AI Foundation之类的举措——尽管源自北美——为欧洲提供了以开放、价值驱动方式参与、知识共享并满足客户需求的宝贵平台。
-
实现战略技术自主:欧洲在半导体和AI等关键技术上持续依赖外部来源,对经济、民主和技术主权构成风险。解决这一依赖问题刻不容缓。通过投资自身能力并加强跨境合作,我们能够确保欧洲在全球技术格局中的领导地位和自主权。
Edge AI正处于关键转折点。为释放其全部潜力,欧洲必须通过改进开发工具、减少碎片化并促进跨行业协作来加速创新。与受益于标准化平台的云AI不同,Edge AI面临复杂性和异构性挑战,需要针对从超低功耗设备到高性能芯片的各类场景进行定制化设计。GenAI是变革性力量,也是当前市场动力的关键驱动力。迅速开发欧洲基础模型和AI工具至关重要。战略协作与共享标准——如Automotive Chiplet Programme等举措所示——对推进软件定义移动性和Edge AI至关重要。拥抱系统级思维、在适当框架下鼓励IP共享并促进跨层优化,对欧洲在下一代AI领域的领导地位至关重要。
TsingtaoAI致力于构建国际领先的工业具身智能技能任务开发平台。公司核心团队汇聚了来自顶尖院校与科技巨头的技术专家,拥有深厚的AI Infra与机器人算法积淀。公司通过自研的通用PoC实验底座与多模态Agent编排引擎,为工业制造、高校实训等场景提供从数据生成、算法训练到即时部署的全栈解决方案。