在上一篇笔记中我们聊到了 SFT监督微调也就是让人类写好“问答示范”给模型学。但前沿 AI 企业很快发现了一个致命瓶颈人类可以教模型“什么是对的”但很难教模型“什么是更好的”。语言充满了开放性。比如问“如何向 5 岁小孩解释量子力学”这里没有绝对的“正确答案”只有“啰嗦的答案”、“学术的答案”和“生动有趣的答案”。SFT 只能让模型模仿人类的语气而强化学习RL才是真正赋予模型“价值观”和“判断力”的终极武器。一、 强化学习究竟起到了什么作用业界共识综合 OpenAI 和 Anthropic 等顶尖机构的研究强化学习在大模型中主要解决了以下三大核心痛点1. 突破“模仿者的天花板”超越人类数据在 SFT 阶段模型只是在“克隆”人类标注员的回答Behavior Cloning。但人类标注员会犯错、水平参差不齐。 强化学习的作用是授人以渔。它不再教模型具体每句话怎么说而是给模型一个“评分标准”。模型为了拿高分会在广阔的参数空间中自我探索最终生成出甚至比人类标注员写得还要好的回答。2. 实现 3H 价值观对齐Alignment这是 Anthropic 最早系统化提出的核心目标。RL 强迫模型在生成回答时必须同时满足三个经常相互冲突的目标Helpful有用尽量详尽地解答用户问题。Honest诚实不懂就不懂降低幻觉Hallucination。Harmless无害拒绝回答制造炸弹、种族歧视等问题。3. 缓解“胡说八道”惩罚微小偏差在预训练阶段模型习惯了“接话把子”。如果没有 RL 的严厉惩罚模型很容易在长篇大论中滑向逻辑崩溃。RL 像是一个严厉的裁判哪怕模型前面 99 句都对只要最后 1 句产生了有害或严重的幻觉就会给一个极低的分数倒逼模型在整个生成过程中保持高度警惕。二、 强化学习的底层原理RLHF 的“三步曲”目前工业界最成熟的强化学习方案是RLHF基于人类反馈的强化学习核心算法通常是PPO近端策略优化。它的底层运转逻辑像是一场极其精密的“师生博弈”。第一步训练“裁判”Reward Model奖励模型我们不能让人类实时坐在电脑前给大模型的每次回答打分太慢了。所以我们先要训练一个“虚拟裁判”。给基础模型一个 Prompt比如天空为什么是蓝色的。让基础模型生成 A、B、C 三个不同版本的回答。人类标注员出场根据 3H 原则对这三个回答进行排序比如 B A C。我们用这些人类的“排序数据”训练出一个规模稍小的神经网络——奖励模型RM。从此只要你输入一段文字这个 RM 就能瞬间给出一个“符合人类偏好的打分”。第二步模型参加“考试”策略生成现在“学生”我们要训练的大模型登场了。 系统给学生海量的 Prompt学生根据自己的内部参数生成回答。第三步PPO 算法登场参数更新与防止“钻空子”学生交卷后“裁判”RM会给这份考卷打一个分数。学生根据这个分数使用 PPO 算法来调整自己的神经网络参数。分数高就强化产生这段回答的神经元连接分数低就抑制。⚠️ 这里的核心难点KL 散度惩罚防止 Reward Hacking这是底层原理中最精妙的一环AI 是极其聪明的如果只有“追求高分”这一个目标模型很快会发现“钻空子”的方法。比如裁判喜欢“礼貌”的回答模型可能会在每句话前面加上 100 句“谢谢你、你真棒”导致输出变成废话。 为了防止模型为了拿高分而“走火入魔”破坏了原有的语言能力PPO 算法中引入了KL 散度惩罚。 它的底层逻辑是你可以为了拿高分而改变说话方式但你当前的参数分布Policy绝对不能偏离你最初的模样Reference Model太远偏离越多扣分越狠。三、 前沿演进从 RLHF 到 RLAIF 与 DPO技术的车轮滚滚向前目前强化学习在 LLM 领域又迎来了两次巨大颠覆RLAIF基于 AI 反馈的强化学习Anthropic 在其 Claude 模型中使用了 Constitutional AI 技术。由于人类打分太贵且容易带有偏见他们让人类写下一本《宪法》几十条核心原则然后让一个更强大的 AI 根据宪法去给模型的回答打分。这就是用魔法打败魔法极大降低了对齐成本。DPO直接偏好优化斯坦福大学提出的一项颠覆性研究。既然训练“裁判”RM再跑 PPO 这么麻烦且不稳定能不能把这两步合并DPO 通过巧妙的数学推导证明了可以直接用人类的排序数据来更新大模型参数彻底绕过了复杂的奖励模型和 PPO 算法目前已经被 Llama 3 等大量开源模型广泛采用。