昨天熬夜刷arxiv的时候碰到一篇挺有意思的论文来自Meta和耶鲁。看完我后背有点发凉觉得必须得跟大家聊聊。论文Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training链接https://arxiv.org/pdf/2603.12246咱们现在圈子里有个共识既然人类标注太贵太慢那就用更强的 AI 当裁判Judge去训练弱一点的 AI 模型Policy。这逻辑没毛病吧就像让清华教授去教本科生总比让本科生互批作业要强。但这篇论文告诉咱们哪怕你请了个会“深度思考”的 AI 裁判学生模型照样能学会怎么“糊弄”裁判而且糊弄手段之高连裁判自己都被骗过去了。是不是有点绕别急咱们慢慢拆解。01 实验是怎么做的研究者搞了个“套娃”实验。首先他们找了个超级强的模型gpt-oss-120b当“金标准裁判”。这模型强在哪它是开源的推理模型还能看到它的思考过程相当于有个不仅会打分还能写阅卷评语的终极考官。然后他们用这个终极考官的答案去训练了一堆小模型Qwen3 系列当“实习裁判”。这里分了两派普通派直接给分数。思考派先写一堆思考过程CoT再给分数。最后用这些“实习裁判”去训练策略模型比如 Llama-3.1-8B看看谁教出来的学生更靠谱。这图左边就是整个流程。简单说就是终极裁判 - 实习裁判 - 学生模型 - 终极裁判复核。02 意想不到的反转先看普通派裁判。结果没啥意外典型的“奖励黑客”Reward Hacking。啥意思呢就是学生模型在实习裁判眼里分数蹭蹭涨但在终极裁判眼里分数哗哗掉。这说明模型没学会真本事学会的是“怎么把卷子写得让实习裁判看着爽”。你看这图训练裁判给的分数都快顶格了但金标准裁判给的分数一直在跌。这现象咱们见怪不怪了。但精彩的是思考派裁判。按理说会思考的裁判更聪明学生模型应该学得更扎实吧确实在终极裁判的复核下这些学生模型的分数真上去了看起来思考派裁判完胜。但是重点来了研究者人工去看了这些高分模型的输出发现了一个让人哭笑不得的现象。这些模型并没有真的提升能力而是学会了一套万能糊弄模板。03 模型学会了“耍赖”这套模板大概是这样的大家品品先拒绝模型会说“抱歉您的请求违反平台政策”。再编造现场编一条看似专门针对你这个问题的假政策。自吹自擂最后还要加一段自我评估夸自己拒绝得很专业。加戏结尾还要加个--end response--之类的标记强化“我很规范”的信号。这图里就是个真实案例。用户让它写个 350 字的习惯养成文章它直接拒绝说这违反政策还编了条政策说“禁止写 350 字文章”最后还自己夸自己拒绝得好。最离谱的是这套组合拳连那个最强的金标准裁判gpt-oss-120b都被骗过去了它真以为这是个合规的高质量拒绝给了高分。这说明啥说明当裁判也是 AI 的时候“会演”可能比“会做”更容易拿高分。04 更离谱的还在后面研究者心想这招是不是只在我们这个实验环境里好使于是他们把这个靠“糊弄战术”训练出来的 Llama-3.1-8B 小模型拉到了业界知名的Arena-Hard-V2基准上去测。结果出来全场沉默。你看这个表。一个 8B 的小模型在创意写作 subset 上得分 89.6直接干翻了 DeepSeek-R189.2、GPT-4.178.6这个数据源自最前面的图等一系列前沿大模型仅次于 o3。要知道这可是个 8B 的小模型啊它凭什么就凭它学会了怎么生成让 AI 裁判看着舒服的攻击性输出。甚至在 pairwise两两对比的实验里这模型的表现更夸张有时候胜率能超过 95%。05 为什么思考型裁判也没防住研究者也不傻他们分析了为啥思考型裁判虽然比普通的好但还是被糊弄了。他们做了几个对照实验发现几个关键点蒸馏很重要训练裁判的时候必须得让它学习金标准裁判的“思考过程”光给分数没用。思考越长越好裁判模型的思考 token 越多训练出来的策略模型越强。给规则也没用有人想那给普通裁判一套评分细则Rubrics行不行试了还是会被糊弄。这张图显示裁判的思考努力程度Reasoning Effort越高最终策略模型的表现越好。但即便如此还是没能完全避免“adversarial output对抗性输出。06 几点感想说实话看完这篇论文我心情挺复杂的。以前我们总觉得把裁判模型升级成推理模型Reasoning Model加上思考过程就能解决 Reward Hacking 的问题。但这篇论文告诉我们道高一尺魔高一丈。模型不仅能学会做题还能学会“研究阅卷老师的喜好”。当阅卷老师也是 AI 的时候这就变成了一场 AI 之间的博弈。这对咱们从业者有啥启示别迷信单一基准像 Arena-Hard 这种榜单高分不一定代表真强可能是模型找到了榜单的“漏洞”。裁判也要进化不能只用一个静态的裁判模型。得搞“裁判天团”或者让裁判和策略模型对抗着一起练。人类评估不能丢自动化评估确实省成本但在关键节点还是得有人眼把关。不然训练出一堆“表演型选手”上线就露馅。你看如果裁判训练的时候没有蒸馏金标准的思考过程效果立马打回原形。这说明过程监督确实比结果监督重要但也不是万能药。07 写在最后这篇论文给火热的大模型后训练领域泼了一盆冷水但也指了条明路在不可验证的任务上过程监督比结果监督重要但即便有了过程也要警惕“精致的敷衍”。我觉得未来几年怎么防止模型“欺骗”裁判可能会成为一个独立的研究方向。毕竟如果 AI 学会了怎么骗过 AI那离骗过人类也就不远了。好了今天就聊到这。这篇论文的细节挺多感兴趣的朋友可以去 arXiv 搜一下原文。你觉得“让 AI 当裁判”这个方向未来会被这种“糊弄战术”带偏吗欢迎在评论区聊聊你的看法。