边缘AI能否跟上模型演进的步伐?
模型开发速度已超越芯片设计周期边缘AI架构必须将适应性放在首位。模型更新的频率高度依赖具体应用场景并与产品生命周期和运营风险密切相关。适应性往往与功耗、性能和面积目标相冲突因此有效的异构架构和完善的软件/编译器工具链至关重要。圆桌专家观点当今的芯片架构师在为快速演进的AI模型设计高性能、高效能的AI处理器时需要应对多重挑战。Semiconductor Engineering就此议题与多位业界专家展开对话参与者包括Arm边缘AI产品管理总监Ronan Naughton、Cadence Tensilica DSP产品管理集团总监Amol Borkar、Cadence AI IP产品营销总监Jason Lawley、Expedera首席科学家兼联合创始人Sharad Chole、Silvaco旗下Mixel营销总监Justin Endo、Quadric首席营销官Steve Roddy、Rambus研究员兼杰出发明家Steven Woo博士、Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian以及Synopsys首席产品经理Gordon Cooper。以下为对话节选点击此处查看第一部分。模型更新频率因应用而异SEAI模型移植是边缘AI处理器设计中的重要环节。在快速高效的移植过程中目标AI模型的更新频率如何芯片供应商或IP核供应商需要多快响应客户的新模型移植需求这是否因终端市场细分领域而有所不同Roddy在某些细分领域模型变化的速度正在加快。以汽车和机器人领域为例正在发生深刻变革——从多个独立模型串联的方式转向视觉语言动作VLA模型这类融合了视觉处理、语言处理与控制动作的世界模型。传统视觉处理高度依赖计算能力面对4K图像中的海量像素需要关注乘加运算MAC密度而语言模型则更关注权重的流式传输参数量可达300亿。VLA模型将两者融合对通用计算能力提出了更高要求这类模型也在快速迭代。不过并非所有场景都如此。以一款售价49美元、安装在门口用于检测快递失窃的摄像头为例用户买来安装后可能从不更新固件电池耗尽就直接更换新品。而另一端安装在路灯上用于监控交通、使用寿命长达10年的摄像头或寿命长达20年的汽车模型更新的需求就至关重要了。对于大多数主流应用而言模型的迭代速度之快甚至可能在产品出厂前就已更新。如今对灵活性的重视程度远超三年前以静态视觉任务为主的时代。Woo新模型和优化方案涌现速度之快使硬件厂商根本来不及跟上每一次模型变化。客户对此有所理解但他们同样期望在某种模型系列占据主导地位时能够快速获得更高处理速度、更大内存带宽以及一定程度的专项优化。这给芯片架构和软件性能工程师带来了压力要求他们支持快速高效的移植以提升吞吐量、降低延迟。在消费和视觉类边缘设备中响应时间窗口极短竞争优势取决于速度与准确性而在安全关键市场模型对安全性的要求极高因为一旦出错代价不可估量。NaughtonArm倡导异构AI理念AI任务可以分布在整个SoC乃至不同设备之间。以个人计算为例设想用户戴着智能眼镜走在街上眼镜通过蓝牙与手机相连。眼镜上的处理器专注于语音理解和图像分析等特定任务并针对该设备进行了深度优化而手机上的任务种类繁多、更新频繁无论是OEM自有应用还是第三方应用都难以预判。Arm的策略是保持完全可编程性以应对任何工作负载。因此不同设备、不同应用场景的模型更新频率各不相同。Balasubramanian这很大程度上取决于应用场景。在西门子负责的工厂自动化业务中汽车生产线上的边缘AI设备所处环境相对固定模型更新频率远低于自动驾驶汽车。自动驾驶需要应对大量未知场景必须尽可能实时更新模型因为这是关乎生命安全的关键任务。即使在工业场景中一旦发生未经训练的异常情况也需要具备更新模型的能力。Cooper我认同这是应用驱动的判断。从芯片研发到量产通常需要一两年时间产品还要在市场上存活5到10年因此IP必须具备一定的灵活性以应对模型变化。从CNN到大语言模型我们看到了相似的演进轨迹——先追求规模再追求效率大模型正在向小语言模型SLM演进。持续的技术迭代要求架构具备一定的灵活性但这与追求极致的低功耗、小面积、高性能之间存在固有的权衡。Borkar模型更新的速度令人叹为观止每小时甚至每分钟都可能出现新变种。与此同时市场正驱动着AI向各类产品渗透即使并非最优方案各家企业也纷纷将AI融入解决方案。对于嵌入式领域而言最大的挑战在于这不像Windows系统那样双击即可运行每天都有新的算子层涌现而我们的团队规模远不及大型GPU厂商。从硬件角度看单一的NPU或DSP难以应对所有情况通常需要NPU加CPU的异构子系统组合。从软件角度看编译器工具链同样至关重要——不仅要能将模型映射到硬件还要在直接映射不可行时提供算子仿真的应急方案。最终用户最关心的是模型能否顺畅地输入左端、得到右端结果这背后需要硬件与软件的协同配合。Chole模型变化的速度在很大程度上取决于NPU在处理流程中的位置——是靠近传感器还是靠近应用层。靠近传感器的NPU如噪声降低应用更新频率较低因为传感器的工作负载、帧率和延迟要求相对稳定而面向应用层、涉及用户交互的NPU则需要支持更多来自数据中心或学术界的新技术包括各类量化方法和模型架构优化。真正的挑战不在于支持新模型本身而在于以高性能支持新模型——某一代NPU上可用的优化技术可能并不适用于所有新模型这就形成了架构允许的变化范围与受硬件约束时模型所能发挥的收益之间的博弈。Lawley对客户而言有两类模型至关重要。一类是可以公开分享的参考模型用于验证性能另一类则是他们的核心竞争力所在——那个不能对外公开的秘密模型。这使得编译器的能力变得极为关键它必须能在无法查看模型细节的情况下将其高效映射到目标硬件。随着模型持续演进编译器跟上新网络结构和算子的能力既极具挑战性又成本高昂。IP公司的优势恰恰在于可以将软件开发成本分摊给多个客户而自研定制加速器的企业则往往在软件侧面临更大压力。Roddy这一点至关重要。没有任何下游OEM愿意依赖距离自己三层之外的IP授权商来完成新模型的移植。工具链必须足够可靠、开箱即用。无论底层架构如何软件都必须让汽车制造商的数据科学家能够直接将更新后的算法高性能地部署到目标硬件上而不是勉强能跑但只能跑在CPU上、速度降至二十分之一。这中间不能横亘十二层NDA协议。无论是工业场景中的智能体应用还是车载应用我们这些IP供应商都不能成为新模型落地的瓶颈。智能体AI带来新挑战SE随着智能体AI的蓬勃发展这股热潮如何改变了你们所观察到的工作负载类型和频率Balasubramanian围绕智能体AI我们看到一些大型企业和GPU供应商正在探索浮点精度的调整以平衡精度与内存容量之间的权衡。整体工作负载正在增加编排复杂度也在上升。边缘AI的IP是否足够灵活以适应这些变化是一个关键问题。Naughton谈及智能体AI需要区分云端智能体AI和本地/私有智能体AI两种主要形态。在云端模式中设备如手机或笔记本电脑通过API调用云端大语言模型完成任务在本地私有模式中模型运行在用户设备上可访问私人数据。在这两种场景下Arm的CPU通常承担编排器的角色——理解用户意图、分解任务、调度云端或边缘的智能体执行。在编排器层面Llama、vLLM、OpenClaw等框架更新极为频繁智能体层面的Claude、ChatGPT、Gemini Flash等也在快速迭代模型的更新周转速度相当之快。Roddy从某种角度看我们其实不需要过于担心这个问题。智能体AI最令人振奋的地方在于它代表着推理需求的一次跃升——从此前由人类行为触发的零散推理请求转变为全天候7×24小时持续运行的工作负载。以工厂监控为例如果一千台设备每天向云端发送数十万次查询每日的Token消耗费用将高达数万美元根本不可持续。因此小语言模型SLM、VLA等必须完全在本地自给自足地运行边缘设备也需要配备更强的算力、更大的内存仅在出现异常时才回传云端。这将深刻改变整个架构格局——总体Token需求将呈爆炸式增长数据中心和边缘设备都将面临饱和压力。Woo智能体AI带来的不仅仅是更多推理请求更是长期运行、持续积累上下文的工作负载。这将硬件设计的重点从短期、瞬时处理转向对持续效率、数据移动、可靠性和功耗管理的更高要求。随着智能体之间相互通信单个工作负载将被放大内存容量和带宽需求也随之增长。这推动芯片架构向更紧密的集成和更智能的内存分层管理方向演进而不仅仅是提升计算能力。Chole智能体AI工作负载的Token量非常庞大这里需要拆开来看。过去两三年随着大模型规模不断扩大微调的收益已逐渐不如提示词工程。如今一个精心设计的系统提示可以带来远超微调的准确性提升——但代价是系统提示从过去的几千Token膨胀到两三万Token。更重要的是随着大语言模型对复杂任务的理解能力大幅提升用户可以用更简短的描述表达复杂意图这反而使得输出的Token量大幅增加——从过去的一两千Token扩展到如今的数万Token。这直接决定了应用应该运行在什么位置。我并不确定重度智能体应用适合部署在边缘让手机跑两个小时才给出答案显然不现实。作为行业我们需要认真思考哪类智能体适合在边缘运行并在隐私敏感性与延迟敏感性之间找到平衡。Cooper从NPU的视角来看智能体AI更像是一个系统级问题。关键在于NPU能否在传统感知AI处理传感器输入和以大语言模型、VLA为代表的内存密集型计算之间灵活切换。客户并不会直接问你的NPU能跑智能体AI吗他们更关心的是每秒能生成多少Token或能否高效运行这些特定模型。智能体AI的性能评估更多是一个系统层面的问题而非单一NPU的指标。Lawley如果你认为自己已经完全理解智能体AI将如何在边缘落地那很可能说明你还没真正理解它。这将是推理在边缘演进的下一个重大跃变。但无论如何演变最终都会回归到三个核心问题消耗多少功耗需要多大的数据移动量需要多强的计算能力QAQ1边缘AI处理器的模型更新频率取决于哪些因素A边缘AI的模型更新频率主要取决于应用场景和产品生命周期。例如固定环境的工厂自动化设备更新频率较低而自动驾驶汽车、智能手机等产品因需应对复杂多变的场景更新极为频繁甚至可能在产品出厂前就已完成多次迭代。产品使用寿命越长、应用越复杂对模型灵活更新的需求就越高。Q2为什么说编译器工具链对边缘AI芯片至关重要A编译器工具链是连接AI模型与硬件的关键桥梁。由于客户最核心的模型往往无法对外公开编译器必须在无法直接查看模型的情况下将其高效映射到目标硬件。随着模型架构和算子持续演进编译器能否跟上这种变化直接决定了IP产品的竞争力。IP公司可以将软件开发成本分摊给多个客户这是相对于自研定制加速器的重要优势。Q3智能体AI对边缘设备的硬件架构有哪些新要求A智能体AI将推理需求从偶发性请求转变为全天候持续工作负载边缘设备需要配备更强算力、更大内存并具备高效的数据移动能力。同时工作负载向长期运行、深度上下文积累演进对持续效率、功耗管理和可靠性提出了更高要求。由于将海量推理请求全部回传云端的成本过高边缘设备需具备本地自主处理能力仅在异常情况下才与云端交互。