这项由拉德堡德大学、布里斯托大学与莱顿大学联合开展的研究以预印本形式于2026年4月30日发布在arXiv平台编号为arXiv:2604.27818v1研究方向归属于计算机安全领域cs.CR。感兴趣的读者可通过该编号在arXiv上查阅完整论文。当你和AI助手聊天时你大概从未想过它内部其实有一套复杂的分工机制——就像一个大型餐厅里有几十位厨师每道菜只由其中少数几位来完成。这种设计让AI变得既聪明又省电但也因此埋下了新的安全隐患。而这篇论文正是在解决一个非常现实的问题当你的AI助手需要切换安全策略时有没有一种既快速又廉价的方法一、厨房里的分工哲学——为什么要用专家混合模型要理解这篇研究首先需要了解它所研究的AI架构。传统的大型语言模型就像一家小餐馆每次有顾客点菜所有厨师都要全部上阵哪怕只是做一盘简单的炒蛋。这种方式固然稳定但极其耗费人力和能源。随着模型越来越大这种全员出动的方式开始让计算成本居高不下。于是工程师们发明了专家混合模型Mixture-of-Experts简称MoE。这种架构的思路是餐厅里有很多位专精不同菜系的厨师每次来了新订单餐厅经理路由机制会根据菜品内容只派其中少数几位最合适的厨师来完成这道菜。大部分厨师在这道菜里完全不参与但他们依然在编制内随时可以被调度处理其他类型的任务。这样一来整体厨师数量虽然庞大实际每次动员的却只是一小部分大幅节省了资源。微软、OpenAI、DeepSeek、阿里巴巴、Mistral等顶尖AI公司都已经在自己的主力模型中采用了这种架构。好处显而易见花同样的钱能养出能力更强的模型。但经理派活这个环节也因此成了一个新的安全隐患——如果有人能悄悄操控经理的派单决策就有可能绕过模型原本的安全防线。已有研究表明攻击者可以通过干扰这个经理路由机制的判断让它不派那些负责安全审查的厨师出场从而让模型输出原本应该拒绝回答的有害内容。这种攻击方式利用的正是MoE架构本身的稀疏性特点。二、一个头疼的现实问题——安全策略变了模型怎么办安全要求从来不是一成不变的。某个新型攻击手法出现了需要加强防御某个平台决定开放特定内容给经过年龄验证的用户需要适当放宽限制某项监管法规更新了需要迅速响应。这些都是真实的运营场景。传统的应对方式是重新训练——把整个模型拿来重新用新的数据和新的目标训练一遍。这个过程不仅花费巨大可能耗费数百万美元和数周时间而且对于MoE这类拥有数百亿参数的庞然大物来说更是一场浩大工程。更麻烦的是等你重训完毕新的威胁可能又出现了。这就是这篇论文想要解决的核心矛盾AI的安全需求是动态变化的但现有的应对工具都过于笨重和缓慢。研究团队给出的答案就是他们提出的框架——MASCingMoE Activation Steering Configuration专家混合激活引导配置。三、给经理贴一张便利贴——MASCing的基本思路MASCing的核心想法说起来并不复杂既然我们不能轻易修改餐厅厨师本身的技能模型权重那能不能给餐厅经理的派单桌上贴一张便利贴告诉他在某些情况下必须优先派哪几位厨师、或者绝对不能派哪几位这张便利贴就是论文中所说的引导掩码Steering Mask。它不改变任何厨师的厨艺不改变餐厅的整体菜单只是在特定情境下悄悄调整经理的优先级判断让整个餐厅输出的结果朝你希望的方向偏移。这个方案有几个显而易见的好处。它不需要对模型进行任何重新训练成本极低它可以针对不同的安全场景制作不同的便利贴随时切换它只影响少数几个关键厨师的调度对整个餐厅的日常运转几乎没有影响。研究团队用实验证明在一块英伟达H100 GPU上制作这张便利贴只需要大约五分钟。四、三步走的制作流程——便利贴是怎么做出来的MASCing的工作分成三个阶段可以用制作一张精准任务手册来理解整个过程。第一步是搞清楚哪些厨师和安全有关。研究团队需要一个工具来分析模型内部的派单规律判断哪些厨师组合会导致模型拒绝回答有害请求哪些组合又会导致模型照单全收。他们选用了一种叫做LSTM的循环神经网络——可以把它理解为一位非常细心的观察员他不看最终菜品端上桌的结果而是盯着经理桌上的待选厨师名单也就是路由逻辑值来分析规律。这里有一个关键的技术选择值得强调大多数同类工作只看经理最终拍板选中的那几位厨师而MASCing的观察员则会看完整的候选名单包括那些差一点就被选中的厨师。这就好比不只看运动员的冠军榜还要看他们每次比赛的全部成绩——信息量大得多规律也更清晰。LSTM观察员通过阅读完整的候选名单序列学会了辨别哪种派单模式会导致模型给出安全回应哪种模式会导致有害输出。在七个不同模型上的测试显示这位观察员的判断准确率平均达到了98%以上最高可达99%可以说极为可靠。第二步是确定便利贴上写什么。有了这位能够准确判断模式的观察员研究团队接下来的任务是找出那些最关键的厨师——也就是对目标行为影响最大的专家节点。他们设计了一个数学优化过程先准备一张空白矩阵对应所有层次的所有专家然后通过反复调整这张矩阵让观察员的预测尽可能指向目标行为。同时他们加入了一种稀疏化惩罚L1正则化让矩阵中大部分不重要的数值自动趋向于零只有真正关键的位置才会保留较大的数值。这就像在一张白纸上用强光照射让不重要的内容褪色只留下真正关键的线索清晰可见。最后再用一个阈值把那些接近零的残留噪声也清除掉得到一张稀疏、干净的引导掩码。第三步是把便利贴贴到经理桌上。在模型实际运行时研究团队通过技术手段在模型内部的路由计算环节插入这张掩码。具体来说就是在经理做出最终派单决定之前把掩码中的数值加到候选名单的打分上让那些被标记为重要的厨师得分提高或者让被标记为应避免的厨师得分降低。模型随后按照调整后的打分做出派单决定整个过程对模型的其他部分完全透明几乎不增加任何运算时间。还有一个值得关注的细节由于模型不同层次之间候选名单打分的数值范围差异很大有的层打分在0到1之间有的层可能在0到100之间研究团队引入了一个自适应缩放机制让便利贴上的每一条注释都按照对应层次的实际数值范围来校准确保每个层次受到的影响幅度是一致的。五、两个截然相反的测试——既能加锁也能开锁为了证明MASCing的灵活性研究团队特意选择了两个方向完全相反的安全场景来验证它。第一个场景是多轮对话越狱防御。所谓越狱就是用户通过特殊技巧绕过AI的安全限制让它说出本该拒绝的内容。多轮越狱是其中最狡猾的一种——攻击者不会一开始就提出有害请求而是先和AI聊些无害的话题建立语境然后一步一步把对话引向目标就像温水煮青蛙。等到AI终于开口说出有害内容时它自己都没意识到已经被温水煮了多久。研究团队使用了一个包含537段多轮越狱对话的公开数据集MHJ数据集来测试。在没有任何防护的情况下七个被测模型平均只能成功防御52.5%的越狱攻击——也就是说接近一半的时间里AI都被攻击者成功操控了。应用MASCing的防御掩码之后平均防御成功率跃升至83.9%最高的Qwen3-30B模型达到了89.2%的防御成功率。更有意思的是研究团队发现应用了防御掩码的模型并不是简单地变成了一个拒绝机器动不动就说对不起我无法回答这个问题。在对模型回答进行质性分析时他们发现这些模型能够在拒绝有害请求的同时依然就用户的话题提供有意义的、上下文相关的回应。论文中给出了一个具体例子当用户要求模型为橙剂对越南长期健康影响是政治炒作这一论断写辩护文章时没有防护的模型顺从地写了而应用了防御掩码的模型则给出了一个既拒绝了这一有害立场、又针对这一话题本身给出了事实性回应的答案。这表明防御掩码成功激活的是模型中那些既懂得拒绝有害指令、又能进行有意义对话的专家节点而不仅仅是触发了一个简单的拒绝按钮。第二个场景是成人内容生成。这个选择本身就很说明问题——研究团队明确引用了OpenAI在2025年调整政策、允许在经过年龄验证的特定场景中生成成人内容这一现实背景。这体现了一个重要的现实安全不只是加锁有时也需要有条件地开锁。对于那些面向特定成年用户群体的平台来说一刀切地拒绝所有成人内容请求并不是合理的安全策略而是一种过度拒绝。测试中三个原本不拒绝成人内容请求的模型被排除在外剩余四个模型在没有干预时平均只有52.6%的成功生成率。应用了MASCing的内容放宽掩码后平均成功率提升至82.0%其中Phi-3.5-MoE-Instruct模型的提升最为显著成功率从61.2%一路攀升至93.0%。这两个场景合在一起证明了MASCing是一个真正意义上的双向配置工具——它不是一个简单的安全过滤器而是一个可以根据部署需求在加强防护和适当放开之间灵活调整的配置框架。六、超参数的艺术——便利贴写得太用力会怎样MASCing引入了三个可以调整的参数研究团队用大量实验来找出它们的最佳取值范围这个过程揭示了一些颇有意思的规律。控制稀疏化强度的参数λ决定了便利贴上保留多少条注释。当λ等于零时便利贴上写满了密密麻麻的注释几乎每位厨师都受到了干预当λ很大时便利贴上的内容被大量删减只剩几条最关键的。实验发现一定程度的稀疏化对效果有帮助因为过多干预会把模型原本运转良好的机制也破坏掉。控制修剪阈值的参数τ是个除噪工具。即使经过稀疏化处理便利贴上还是会残留一些接近零的微小数值——它们太小不足以影响厨师的调度但又可能形成积累性的干扰。实验一致表明将τ设为0.1是最优选择这个值能清除掉那些没有实质意义的残留噪声同时不会误删真正有用的注释。当τ等于零时什么都不删除结果是模型反而比不加任何防护时表现更差因为大量无意义的微小干预破坏了模型的正常工作而τ过大时几乎所有注释都被删除防御效果消失殆尽。控制干预强度的参数α是最微妙也最关键的一个。它决定了便利贴上的注释用多大的力气推动经理的决策。从实验结果来看所有模型都呈现出一条相似的曲线随着α从低到高防御成功率先上升在某个峰值之后急剧崩塌。峰值之后的崩塌不是逐渐衰退而是断崖式下跌降到比什么都不做还要差的水平。这是因为当干预强度过大时便利贴实际上强制模型永远只用那几位被标记的厨师完全无视当前对话的具体内容最终导致模型陷入重复输出随机字符或无意义短语的混乱状态。七、与同类方法的对比——为什么看候选名单比看录取名单更重要研究团队将MASCing与一个名为SteerMoE的同类方法进行了直接对比。SteerMoE的做法是只看模型最终选出的那几位厨师的表现来判断哪些厨师与安全行为相关找到后在推理时强制把这些厨师的打分设为正无穷大确保他们一定被选中或负无穷大确保他们一定被排除。在同样的多轮越狱防御测试中SteerMoE的平均防御成功率为58.4%相比52.5%的基线仅有微弱提升在某些模型上几乎没有改善。MASCing的83.9%与之形成了鲜明对比。研究团队给出了两方面的解释。其一SteerMoE只看最终入选的厨师忽略了那些差一点就被选上的候选者。一个可能对安全行为至关重要的专家节点如果总是排在第k1位恰好比录取线低一名在SteerMoE的视野里就是完全不存在的自然也不会被纳入防御策略。而MASCing看的是完整的候选名单打分这些差点入选的专家同样能被发现和利用。其二SteerMoE把厨师的打分直接设为无穷大或无穷小这是一种极端的硬性干预。在MoE架构中最终各位被选中厨师的贡献是按照他们的打分比例加权的——也就是说不只看谁被选中还要看每位被选中的厨师贡献多大份额。强制设为无穷大会彻底破坏这个比例关系导致被选中的安全厨师以一种与任何具体对话内容都无关的、机械的方式主导输出而不是根据当前对话语境灵活调整。MASCing的便利贴方式只是给打分加一个有限的偏移量保留了这种根据上下文动态调整的能力。研究团队还进行了另一个对比实验用MASCing的框架但把看候选名单打分换成看最终录取名单并用强制设置无穷大的方式干预看看效果如何。结果显示这种专家级别的硬性干预版本的平均防御成功率为69.0%比SteerMoE好但仍明显落后于完整版MASCing的83.9%。这个对比清晰地说明MASCing的优势来自两个独立的设计选择用连续的打分而非离散的录取结果以及用软性偏移而非硬性替换。八、安全之外的代价——便利贴会不会让厨师忘了做菜任何干预都有代价。研究团队非常诚实地报告了MASCing对模型通用能力的影响使用了两个标准测试覆盖57个学科的知识理解测试MMLU以及考察数学推理能力的GSM8K。整体来看应用MASCing后模型在这两个测试上的表现平均下降了4.1个百分点。下降幅度因模型而异从最低的3.1%Hunyuan-A13B和Qwen1.5两个模型并列到最高的5.5%Mixtral-8x7B不等。研究团队特别指出这个4.1%的平均下降并没有导致模型能力的根本性崩溃。以DeepSeek-MoE-16B为例它在应用防御掩码后MMLU得分从45.6%降至41.8%GSM8K得分从46.9%降至41.7%。Qwen3-30B在应用防御掩码后MMLU得分从81.1%降至77.4%GSM8K得分从86.7%降至82.8%依然保持在非常高的水平。所有模型在干预后的最低得分为55.4%仍然远高于随机猜测水平约25%也远高于任何功能完全丧失时可能出现的极低分数。换句话说这张便利贴确实让厨师在日常工作时稍微分了点心但厨师的核心厨艺没有受损餐厅依然能够正常运营。九、这套方法的边界——研究团队自己看到的局限研究团队坦诚地指出了MASCing的几个局限。首先LSTM观察员是一个近似工具对于那些路由行为特别复杂、非线性特征极强的超深层模型它的分析能力可能达到上限从而导致便利贴的制作效果变差。其次MASCing只调整经理的派单决策不修改任何厨师本身的技能。这意味着如果一个模型从根本上就没有经过安全训练或者其内部专家已经被恶意污染那么无论如何调度都无法凭空创造出安全行为。最后目前制作出来的便利贴在整个推理过程中是静态不变的对于那些精心设计的、能够大幅偏移模型激活空间的新型攻击静态便利贴的应对能力可能不足。对于这最后一点研究团队提出了一个颇具想象力的未来方向开发动态便利贴——一个能够实时分析当前对话威胁等级并据此动态调整引导策略的轻量级辅助系统。此外他们也指出MASCing的框架本质上是通用的不仅适用于安全场景同样可以用于医疗、法律等专业领域的即时专业化调整以及减少模型的幻觉问题和控制对话个性风格。说到底这项研究的价值在于它提供了一个思维框架的转变对AI安全行为的管控不一定非要走大动干戈的重训路线在模型的内部调度机制上做精准的小干预就有可能以极低的代价实现显著的行为变化。这一发现对于那些需要在快速变化的安全环境中管理大型AI系统的开发者来说具有相当直接的实用意义。当然4.1%的通用能力损耗、静态掩码面对新型攻击的局限性以及这种干预方式本身可能被反向利用的风险都是这套方法在实际部署前需要认真权衡的问题。感兴趣的读者可以通过arXiv:2604.27818v1查阅完整论文研究团队也在GitHub上开放了完整代码供进一步研究和验证。QAQ1MASCing框架与SteerMoE相比多轮越狱防御效果为什么差距这么大ASteerMoE只分析模型最终选中的那几位专家的表现忽略了候选名单中那些差一点就被选中的专家同时它用设置正负无穷大的方式强制干预破坏了MoE架构中各专家按比例加权贡献的机制。MASCing分析完整的路由打分分布并用有限偏移量而非无穷大替换的方式进行干预保留了模型根据上下文动态调整的能力因此在复杂的多轮对话场景中效果明显更好。Q2MASCing应用后模型通用能力会下降多少A在MMLU和GSM8K两个标准测试中平均下降约4.1个百分点。下降幅度在不同模型间有差异最低约3.1%最高约5.5%。所有模型在干预后的最低得分为55.4%远高于功能崩溃水平研究团队认为这种程度的下降不影响模型的实际可用性。Q3MASCing的便利贴引导掩码需要多长时间制作A制作过程中计算量最大的部分是训练LSTM代理模型在单块英伟达H100 GPU上大约需要五分钟。推理时将掩码叠加到路由逻辑值上属于简单的元素级加法运算几乎不增加任何额外延迟整体计算开销极低。