高带宽内存左移测试策略助力AI芯片良率提升

张

张建站

2026/5/13 0:57:17

10分钟阅读

高带宽内存HBM堆叠层数不断增加硅通孔TSV间距持续收窄这些变化正在对AI模组的最终良率产生深远影响。应对之策是将测试环节前移至制造流程的更早阶段但这一转变也伴随着额外成本的挑战。HBM已成为AI系统的核心组件。随着需要处理和存储的数据量持续攀升AI系统对内存的需求近乎无止境。过去十年间HBM芯片堆叠层数已从2层增长至12层并即将突破16层。与此同时AI数据中心多芯片封装中的HBM堆叠数量也从4个增加至8个。如今HBM芯片的成本几乎占AI芯片总成本的一半。因此在最终测试阶段才发现存在缺陷的内存堆叠将造成极高的损失。这正是业界越来越重视已知良好堆叠KGS的核心原因。然而芯片堆叠本身是一项精密而复杂的制造工艺TSV与微凸点的对准精度以微米为单位晶圆减薄和划片过程中产生的机械应力可能加剧已有的裂纹、滑移和划痕热压键合则可能引发断路、短路以及枕头效应和高阻抗连接等问题。更棘手的是检测这些潜在缺陷本身就是一大难题。堆叠芯片测试需要在测试覆盖率与测试时间、机械处理、热管理以及供电之间寻求平衡。工程团队虽然可以通过可测性设计DFT和高并行多站点测试来降低测试成本但堆叠芯片因堆叠高度大、功耗高热管理问题相当棘手。而随着HBM4和HBM5的到来这一切都将变得更加复杂。新思科技SynopsysSLM产品管理总监Faisal Goriawalla表示来自超大规模数据中心的数据显示HBM故障是数据中心GPU故障的首要原因。研究同样表明由于其复杂的垂直堆叠结构HBM比传统DRAM更容易出现故障其中列故障如TSV缺陷尤为常见。从HBM3升级到HBM4将需要在多芯片支持方面进一步演进。2048位内存接口要求显著增加穿越内存堆叠的TSV数量这意味着随着微凸点总数大幅增加外部凸点间距必须进一步缩小。此外对16层高TSV堆叠的支持为在不引入缺陷的前提下连接更多DRAM芯片带来了全新的复杂性。这一现状迫切要求在制造流程更早阶段开展更多测试从而在封装之前将有缺陷的堆叠淘汰出局。目前为了生产可交付的HBM堆叠芯片测试流程在晶圆级和堆叠芯片级均包含多个测试插入点HBM逻辑芯片和HBM DRAM芯片均需经过晶圆测试每颗DRAM还需经历多次测试插入包括晶圆级老化、高低温测试以及修复。之后DRAM晶圆经过减薄、植球和划片再将DRAM芯片堆叠至逻辑基底芯片晶圆上并进行一系列测试。具体测试节点因封装厂的工艺不同而有所差异——可在每层DRAM堆叠后进行也可在堆叠2层或4层后进行最终完成堆叠晶圆划片。从理论上讲可以对已划片的HBM DRAM堆叠单独进行测试但目前这一方案尚未投入实际应用。泰瑞达Teradyne内存事业部产品营销经理Hanh Lai解释道左侧测试流程是当前的行业标准。它被认为是最具成本效益且风险最低的方案因为无需对已划片的堆叠芯片这类特殊结构进行探针测试尽管在晶圆上堆叠芯片确实存在平整度挑战。不过业界对已划片堆叠芯片的测试兴趣正在增加探针设备企业也在积极开发相应解决方案。其背后的驱动力在于英伟达Nvidia、超威半导体AMD等系统集成商非常关注最终封装良率——在典型的GPU封装中一颗GPU周围环绕着八个HBM堆叠任何一个HBM堆叠出现缺陷损失都极为高昂。随着单颗坏芯片或坏堆叠的成本不断攀升测试左移的呼声也越来越高。Aehr Test Systems销售与市场营销执行副总裁Vernon Rodgers表示归根结底这是成本问题。降低报废率、提升良率、减少浪费这些目标共同驱动着测试方案的选择。也许过去左移的代价过高但如今良率成本曲线正在越来越强烈地推动测试向更早阶段迁移。以晶圆级老化测试为例它能有效减少与早期失效相关的缺陷。随着堆叠层数增加、封装尺寸增大这一点只会变得愈加重要。FormFactor高级产品营销总监Kevin Tran也持相同观点随着HBM器件的复杂度和成本不断提升测试内容持续向流程前端迁移。这种左移有助于防止缺陷芯片进入成本高昂的堆叠工序同时推动晶圆测试阶段对高速测试、更大并行度以及更严格热控制的需求。晶圆测试与老化实现已知良好堆叠的起点是确保每颗芯片为已知良好芯片KGD。对每颗DRAM及逻辑基底芯片进行全面的晶圆测试需要覆盖内部电路、核心存储单元以及TSV。DRAM测试需要数千种针对特定内存架构的测试图案。由于存储单元密度极高冗余修复技术在测试过程中发挥着至关重要的作用——缺少它晶圆级良率将大幅下降。测试图案由自动测试设备ATE提供为降低测试成本DRAM芯片通常以64至128个站点并行测试。业界专家强调逻辑基底芯片测试的重要性因为它是访问堆叠内存芯片的唯一通道对堆叠芯片的最终良率影响举足轻重。Rodgers指出考虑一个堆叠结构——一颗逻辑基底芯片加上8到16颗HBM芯片。确保基底逻辑芯片的最高质量至关重要因为一旦它存在缺陷16颗芯片都将一并报废这对良率曲线的影响是巨大的乘数效应。逻辑基底芯片的测试重点集中在DFT电路上这些电路支撑着HBM DRAM在整个堆叠过程及产品全生命周期内的测试能力。测试通过JEDEC规范的直接访问接口或IEEE 1500标准利用有限数量的焊盘或微凸点来实施。在逻辑晶圆测试阶段施加测试内容可确保内部逻辑、IEEE 1500电路、直接访问总线、内存内建自测MBiST、TSV连通性以及PHY电路均无缺陷。然而随着HBM每一代产品的演进晶圆探针测试的挑战也在不断加剧。Tran表示在先进DRAM工艺节点尤其是HBM所采用的节点上晶圆级测试已不再局限于接触和功能筛选而是演变为涵盖机械性能、供电、信号完整性和吞吐量等多个维度的综合挑战。焊盘几何尺寸缩小的问题可通过先进MEMS探针技术来应对——该技术能够提供更小的间距和更优的精度控制。HBM4和HBM5对速度与功耗提出了新要求未来几代产品的数据传输速率将突破10 Gbps每个HBM堆叠的功耗也将高达100瓦。MEMS探针具备更高的电流承载能力与经过优化的探针卡级供电设计相结合能够满足KGD测试的高功率、高速度需求。典型的DRAM测试流程包含晶圆级老化环节通过加速激活潜在缺陷以便后续标准测试能够有效检出。Rodgers解释说老化测试解决两个问题第一筛查薄弱器件例如栅氧化层缺陷问题第二由于存储单元本质上是电容需要对其数值进行稳定化处理。行业内一直存在争论——究竟应该在晶圆级、单颗芯片级还是封装级进行老化但现在当我们开始进行芯片堆叠时目标是尽量前移这正是推动晶圆级老化测试兴起的核心驱动力。晶圆级老化测试的接触方案需要应对探触测试访问焊盘/凸点时的机械挑战可通过MEMS技术或微弹簧针micro-pogo来实现适用于300mm晶圆。将DFT与铝制测试焊盘上的探针测试相结合有助于进一步降低测试成本。在规定HBM I/O微凸点布局时JEDEC标准预留了添加牺牲测试焊盘的空间。Rodgers指出当你使用牺牲焊盘并适当拉开间距时探针卡的成本会大幅下降无需花费50万美元购置一张探针卡最高可节省80%的探针卡成本。DFT不仅保障了测试质量更重要的是它带来了一种低成本的晶圆级老化测试方案——你可以选择微弹簧针而非MEMS。我可以在两个截然不同的成本区间提供技术方案而DFT将决定你实际所处的成本层级。堆叠芯片测试对堆叠芯片进行测试能够有效降低AI产品最终测试阶段的良率风险。如前所述当前标准的制造与测试流程是在晶圆形态下将HBM堆叠至基底芯片上再由测试接口从晶圆背面进行探针测试多站点并行测试已成为行业标配。但芯片堆叠在热管理、供电以及机械处理方面带来了严峻挑战而随着测试插入次数的增加控制测试成本也愈发困难。对于12层堆叠芯片而言测试插入次数因封装厂的质量标准不同可从3次到12次不等。Tran指出DRAM芯片堆叠过程中可能引入新的错误包括堆叠内部高速数据传输相关问题、更高堆叠对更大功率和电流的需求以及由此带来的散热挑战。通过对堆叠芯片进行测试和分选可以在早期剔除缺陷芯片从而有效降低整体测试成本。堆叠芯片测试要求对准精度达到个位数微米级别而HBM5要求最高16层堆叠这使得对准精度的要求愈发严苛必须充分考虑TSV和键合容差。也有观点强调了在封装过程中进行中间测试的重要性。安靠Amkor Technology全球测试服务副总裁Omer Dossani表示随着HBM成本持续攀升封装过程中的中间测试变得越来越关键。为此业界正在开发新型接触机制以实现在中间阶段的可靠测试。许多挑战在我们工厂进入大批量生产HVM阶段之前便已得到解决但它们仍是重要的制造考量因素需要在测试过程中对温度稳定性实施越来越严格的管控并使用专用测试插座、专用清洁材料以及在整个制造过程中加强数据监控。在测试方案的选择上供电和热管理始终是核心考量但随着堆叠高度增加复杂程度也随之上升。Rodgers用了一个生动的比喻如果你看一栋16层的建筑阳光照射外墙中心部分几乎感受不到热量。而堆叠芯片恰恰相反——外层可以散热但中心层的热量如何导出在堆叠芯片老化或测试过程中如何管理中间芯片层的温度至关重要。Teradyne的Lai也指出了这一问题难点在于如何管理这些器件产生的热量。探针设备公司需要为HBM堆叠提供有效散热方案。目前我们的测试机可根据器件引脚数和功率需求支持最高128个器件的并行测试。从HBM3到HBM4功耗增幅预计超过两倍这对探针设备和探针卡公司都提出了严峻的散热挑战。在2.5D集成封装之前对已划片的堆叠芯片进行测试是一种颇具吸引力的左移测试方案同时还支持主动热控制相对于全晶圆测试所采用的被动热控制能够在测试过程中实现更精确的温度管理。针对已划片堆叠芯片的测试方案涉及多项技术——堆叠芯片载板、上下料设备、堆叠芯片处理机以及主动热控制系统均价格不菲且都需要进一步开发成熟的HVM量产解决方案。目前对堆叠芯片进行测试的主流方案是在划片前从逻辑基底芯片背面的铝制焊盘进行探针测试这些焊盘位于微凸点布局中预留的专用空间内。因此ATE需要同时具备逻辑和内存测试能力在多达128个测试站点并行测试时供电需求极为可观。将DRAM堆叠至基底芯片后可利用逻辑基底芯片的MBiST通常可编程或直接访问总线对核心存储单元进行测试并在每次测试插入时对有缺陷的TSV实施修复。Goriawalla表示SoC设计者必须能够部署一套灵活的BiST引擎支持在不同应用场景制造测试、上电自测POST、系统内调试与诊断下切换不同算法以实现高覆盖率与测试时间之间的平衡。该引擎必须可编程以适应不同DRAM厂商在延迟、地址范围及测试操作时序上的差异还可能需要支持针对HBM DRAM的封装后修复PPR以推迟现场服务的介入时机。BiST引擎所执行的诊断必须精确到位能够在检测到DRAM堆叠存在缺陷时准确指出发生故障的Bank、行地址、列地址等信息。结语尽管HBM DRAM厂商目前具有一定的溢价能力但其核心关注点依然是降低成本。Teradyne的Lai指出内存厂商的思维模式是测试方案必须经过优化且尽可能低成本——这一点比那些产品生命周期极短的SoC厂商更为突出。HBM厂商在这个竞争激烈的市场中深耕多年历来利润空间有限。尽管如此报废损失带来的经济压力正在推动HBM堆叠芯片厂商在流程更早阶段开展更多测试这不可避免地增加了测试成本。但这一成本或许能通过在基底芯片上部署灵活的MBiST来部分抵消后者允许对测试内容进行灵活权衡。然而以高并行度对堆叠芯片进行测试对ATE的供电和散热方案提出了更高要求。此外对已划片堆叠芯片进行测试的方案仍有待验证其经济影响尚存不确定性。QAQ1为什么HBM测试需要向制造流程的更早阶段迁移A随着HBM芯片堆叠层数增加最高可达16层单个坏芯片或坏堆叠的损失成本急剧攀升。HBM成本已接近AI芯片总成本的一半如果缺陷堆叠到最终测试阶段才被发现损失极为高昂。通过在制造流程更早阶段如晶圆级老化测试筛查出缺陷可以避免缺陷芯片进入昂贵的后续堆叠工序从而有效降低报废损失提升整体良率。Q2HBM堆叠芯片测试在热管理方面面临哪些挑战A堆叠芯片的散热问题与普通芯片完全不同。外层芯片可以正常散热但中间层产生的热量难以有效导出。随着HBM从HBM3升级到HBM4每个堆叠的功耗预计增加超过两倍未来甚至可能达到100瓦。这对探针设备和探针卡公司提出了严峻挑战需要通过主动热控制等手段确保测试过程中各层芯片的温度均处于可控范围内。Q3DFT可测性设计在降低HBM测试成本方面具体能发挥哪些作用ADFT在降低HBM测试成本方面作用显著。一方面通过在微凸点布局中预留牺牲测试焊盘可将探针卡成本降低高达80%无需购置价格高达50万美元的高端探针卡另一方面基底芯片上可编程的MBiST引擎支持在制造测试、上电自测和系统内调试等不同场景下灵活切换测试算法在测试覆盖率和测试时间之间实现最优平衡从而在保证测试质量的同时有效控制成本。

基于AI与事件驱动的GitHub PR自动总结机器人部署与实战指南

1. 项目概述：一个能自动总结GitHub PR的AI助手如果你和我一样，每天都要在GitHub上处理大量的Pull Request，那你肯定理解那种被信息淹没的感觉。一个PR进来，你得点开，从头到尾看代码差异，理解提交信息&#…...

2026/5/13 0:51:31 阅读更多 →

基于.NET 8构建MCP服务器：为AI助手打造安全的外部工具集成

1. 项目概述与核心价值最近在折腾AI应用开发，特别是想给自家的聊天机器人加点“超能力”，让它能直接读取我电脑里的文件、查查数据库，甚至控制一下智能家居。这听起来像是要写一大堆复杂的插件和集成代码，对吧？一开始我…...

2026/5/13 0:51:30 阅读更多 →

【光栅和蛇形误差扩散半色调】基于Floyd-Steinberg算法进行误差扩散半色调研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 完整代码获取定制创新论文复现点击：Matlab科研工作室🍊个人信条：格物致知,完整Matlab…...

2026/5/13 0:50:11 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/12 13:39:41 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/12 8:30:03 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/11 23:43:42 阅读更多 →