1. 项目概述TCiM加速器的容错挑战与ReTern方案在边缘计算场景部署大语言模型LLMs时我们面临两个核心矛盾模型的计算密集性与硬件资源受限之间的冲突以及内存带宽瓶颈与实时性需求之间的张力。传统冯诺依曼架构中数据在存储器和处理器间的频繁搬运导致能耗占比高达60%以上。计算内存Computing-in-Memory, CiM技术通过近数据计算打破这一瓶颈而三元神经网络Ternary Neural Networks, TNNs采用{-1,0,1}的权重表示可将模型尺寸压缩16倍的同时保持模型精度。当两者结合形成三元计算内存TCiM加速器时却面临存储器固定故障Stuck-at Faults, SAFs的严峻挑战。SAFs是存储器件的永久性物理缺陷表现为存储单元被固定为0SA0或1SA1。在采用新兴非易失存储技术如ReRAM、FeFET的TCiM中由于制造工艺不成熟SAF发生率可达5-10%。这对LLMs尤为致命因为LLMs权重稀疏度仅37%CNN可达90%更多非零权重易受SAF影响单个SAF可能改变整个注意力头的语义表征模型参数量大700M-3B故障累积效应显著我们团队提出的ReTern技术包含两大创新故障感知符号变换FAST动态调整权重列符号使SAF与目标权重同向零权重修复Zero-Fix利用TCiM位单元天然冗余00与11均表示0重编程故障单元实测表明在Wikitext数据集上ReTern可使3B参数BitNet模型的困惑度PPL从15降至10降低33%硬件开销仅增加2.2%能耗和6.6%延迟。下面将深入解析其技术原理与实现细节。2. 核心技术原理拆解2.1 TCiM硬件架构特性典型TCiM阵列采用差分编码存储三元权重两个二进制存储单元(M1,M2)组合表示{-1,0,1}1 → M11, M20-1 → M10, M210 → M10, M20 或 M11,M21天然冗余这种设计带来两个关键特性计算并行性激活向量通过字线(WL)输入位线(BL1/BL2)的电流差实现模拟乘加故障屏蔽能力当SAF与存储值一致时如SA1存储1不会引发计算错误关键发现11状态本用于存储1但若强制用作0其BL1/BL2电流差仍为0。这为零权重修复提供了硬件基础。2.2 故障影响量化分析我们建立SAF对LLM影响的数学模型。设权重矩阵W∈{-1,0,1}^m×nSAF矩阵F∈{0,1}^m×n1表示故障则硬件实际权重为W_hw (W ⊙ ¬F) (S ⊙ F)其中S为故障固定值SA11, SA00⊙为哈达玛积。定义错误能量E ||W·X - W_hw·X||_F²实验发现对3B模型10% SAF使E增加8.7倍自注意力层比FFN层对SAF更敏感误差传播系数高3.2倍2.3 FAST算法设计FAST的核心思想是通过符号变换最大化故障屏蔽。对每列权重W[:,j]计算两种存储方式的误差标准存储E_std Σ|W[i,j] - (W[i,j] ¬F[i,j])|符号翻转E_flip Σ|W[i,j] (W[i,j] ¬F[i,j])|选择使误差较小的方案并通过1-bit标志位col_flip[j]记录变换状态。数学证明显示当满足以下条件时符号翻转更优Σ_{i∈F} sign(W[i,j])·W[i,j] 0其中F为故障位置集合。这相当于要求故障引起的误差向量与理想权重向量呈钝角。3. 硬件实现细节3.1 修改的TCiM阵列架构注此处应插入改造后的TCiM阵列框图展示新增的col_flip寄存器和后处理电路主要改造包括列标志寄存器64x64阵列需64-bit col_flip采用低功耗锁存器设计可重构减法器原x-y计算改为col_flip[j] ? y-x : x-y故障诊断接口增加BIST内建自测试电路检测SAF位置3.2 零权重修复电路零权重修复通过改写存储状态实现检测到W[i,j]0但M1⊕M21错误状态将M1和M2同时写1进入冗余11状态需添加额外的写驱动强度5%面积3.3 跨技术实现对比指标8T-SRAM1T-1ReRAM1FeFET能耗开销2.0%2.2%2.2%延迟开销3.2%6.6%6.4%面积开销1%1%1%SRAM版本延迟优势源于更快的写速度0.5ns vs ReRAM的10ns而ReRAM/FeFET因非易失性更适合边缘场景。4. 软件协同设计4.1 权重映射策略为最大化FAST效益我们提出权重-故障协同映射算法将高敏感度层如FFN第一层映射到低故障率bank同一列的权重符号尽量一致提高FAST有效性零权重优先分配到已知SAF位点4.2 故障诊断流程def diagnose_saf(array): # 测试模式1全写0检测SA1 write_array(0) saf1 read_array() 0xFFFF # 测试模式2全写1检测SA0 write_array(1) saf0 (~read_array()) 0xFFFF return saf1 | saf0 # 合并故障图该流程可在1ms内完成64x64阵列检测功耗5mW。5. 实测性能分析5.1 语言建模任务方案700M模型PPL3B模型PPL无容错26.415.2仅Zero-Fix22.1(-16%)13.1(-14%)仅FAST21.7(-18%)12.8(-16%)ReTern19.1(-28%)10.5(-31%)在10% SAF率下ReTern使700M模型在PIQA任务准确率从68.2%提升至72.1%。5.2 故障恢复边界通过蒙特卡洛仿真得到临界SAF率700M模型为17%3B模型为23%单列可容忍最大连续SAF8位受ADC精度限制6. 工程实践建议6.1 部署注意事项温度管理ReRAM在85°C以上时SAF率增加3倍需加强散热写均衡FeFET的写耐久性约1E5次建议动态调整col_flip安全验证需在以下场景测试功能安全电源电压±10%波动同时多列故障时钟抖动5%6.2 扩展应用其他三元模型在Ternary CNN测试中ReTern使ResNet-18在10% SAF下Top-1精度保持68.3%基线61.7%多比特量化可扩展至2-bit量化需修改FAST决策阈值7. 常见问题排查现象可能原因解决方案PPL改善不足col_flip未正确加载检查寄存器时钟域同步特定列误差突增ADC基准电压漂移重新校准参考电压Zero-Fix失效双位故障M1M2 SA1启用备用列替换能效比下降显著频繁符号翻转优化权重映射降低翻转率本技术的局限性在于对高稀疏度模型90%提升有限此时建议结合结构化剪枝。我们正在开发ReTern版本将支持动态故障检测与自适应修复。