在机器学习中标准的经验风险最小化ERM模型往往倾向于学习数据中的“捷径”Shortcut或虚假相关性Spurious Correlations。为了让模型具备分布外泛化OOD Generalization能力不变学习Invariant Learning应运而生。本文将从经典的 IRMInvariant Risk Minimization出发探讨在没有显式环境标签的严苛条件下如何通过 EIIL 推断环境并结合 GroupDRO 实现稳健的下游分类。1. 经典回顾不变风险最小化 (IRM, 2019)在跨分布泛化问题中我们的核心目标是学习到一个跨环境不变的特征表征使得在这组表征之上构建的最优分类器在所有不同的环境Environments下都是一致且最优的。IRM 提出了一种优雅的连续优化目标来实现这一点。其损失函数可以表示为公式解析第一项标准的经验风险要求模型在所有环境下的平均预测误差尽可能小。第二项梯度惩罚项这是 IRM 的灵魂所在。它强迫虚拟分类器通常固定为全 1 向量或标量 1在每个独立环境中的风险梯度都趋近于 0。这意味着无需针对特定环境对进行微调当前的在任何环境下都已经是最优的。通过这种方式IRM 强迫特征提取器过滤掉那些随环境剧烈波动的虚假特征只保留具有因果性质的不变特征。2. 无显式环境标签时的挑战与破局EIILIRM 虽好但它有一个致命的前提需要训练数据自带显式的环境标签例如明确知道哪些图片来自医院 A哪些来自医院 B。在真实场景中这种环境标签往往是缺失或获取成本极高的。为了解决这一痛点EIIL (Environment Inference for Invariant Learning, 2021)提出了一种极为巧妙的两阶段解决方案。2.1 EIIL 的两阶段算法框架EIIL 的核心思想是“用魔法打败魔法”。既然 ERM 容易学到虚假相关性那我们就利用它的这个“缺点”来反推环境。参考模型阶段Reference Model首先无视环境标签直接用所有数据通过普通 ERM 训练一个模型。这个模型一定会产生偏见Biased我们称之为有偏参考模型。它精准地捕捉到了数据中最强的虚假相关性Spurious Features。环境推断阶段Environment Inference优化一个软分配权重Soft Assignment使得上述的有偏参考模型在被划分出的不同“软环境”中表现出最大的梯度差异。其核心的环境推断EI目标函数定义为我们的优化方向是最大化在代码中通常写为最小化 Loss。2.2 深度理解 EIIL 的数学本质为什么最大化梯度的范数平方和就能分出环境我们可以将每个样本对虚拟分类头的梯度贡献预计算为。分配矩阵相当于为样本进行软分组的权重。目标函数本质上近似于。数学结论优化这个目标等价于最大化组间均值的平方和。算法会自动把“依赖虚假特征强度极端不同”的样本强行拉开分到不同的组里。2.3 案例直觉以 Colored MNIST 为例在 Colored MNIST给数字染色颜色与标签高度虚假相关任务中分组的语义会变得非常清晰一致组y spurious数字和颜色匹配例如红色的数字 0。参考模型在这个组游刃有余梯度。不一致组y $\neq$ spurious数字和颜色不匹配例如绿色的数字 0。参考模型在这里会犯大错产生巨大的正梯度。最优的 $q$ 会完美地将这两类样本割裂开来一致样本聚为一组不一致样本聚为另一组从而成功恢复了潜在的环境结构3. 下游不变学习GroupDRO 的强力接管推断出环境后接下来就是训练最终的不变模型。虽然可以接回 IRM但目前的主流做法是接入GroupDRO (Group Distributionally Robust Optimization)它在真实数据集上的表现往往更稳健。3.1 优化目标Min-Max 鞍点问题GroupDRO 放弃了“平均主义”它的哲学是只有最差的组表现好才是真的好。这是一个经典的鞍点Saddle Point问题内部最大化寻找当前损失最高的糟糕环境外部最小化优化模型参数以降低这个糟糕环境的损失。3.2 在线指数梯度更新在实际训练中GroupDRO 通常采用在线凸优化Online Convex Optimization框架中的 Mirror Descent镜像下降来更新环境权重这一步非常优雅随着训练的进行会自适应地、指数级地集中到当前误差最大的“最差组”上逼迫模型将注意力转移到 OOD 样本上。3.3 理论辨析GroupDRO vs. EM 算法初学者容易将上述交替优化的过程与 EM期望最大化算法混淆但两者有本质区别EM 算法是合作型的。它试图最大化带有隐变量的似然函数通过推导变分下界ELBO来交替进行 E 步和 M 步核心是寻找数据背后的联合分布。GroupDRO是对抗型的。它是 Primal-Dual主对偶交替优化目的是解决 Min-Max 鞍点问题最终诉求是追求最坏情况下的对抗鲁棒性Adversarial Robustness。4. 完整技术链路总结 (EIIL GroupDRO)将上述理论串联我们在无环境标签场景下的标准落地 Pipeline 如下捕获偏见使用普通 ERM 训练一个参考模型故意让它学到虚假相关性Spurious features。环境推断冻结参考模型通过最大化优化软分组参数。随后进行硬化操作例如设定阈值将软分组转化为硬分组 (Hard Groups)。重置模型抛弃有偏的参考模型使用步骤 2 得到的硬分组作为 Group Labels从随机初始化开始构建一个全新的模型。鲁棒优化基于推断出的 Group Labels 运行 GroupDRO或 IRM算法进行训练。经验表明GroupDRO 在高维真实数据集上直接优化 Worst-group 表现更佳。模型评估抛弃传统的平均准确率Average Accuracy必须使用最差组准确率 (Worst-Group Accuracy, WGA)作为唯一且核心的评估指标。5. 讨论与未来展望EIIL GroupDRO是当前无监督/弱监督不变学习领域最主流的范式之一。它优雅地解耦了“环境发现”与“鲁棒训练”两个过程。当前的局限性深度依赖参考模型的偏置如果 ERM 在第一阶段没有优先学到你想解耦的虚假特征或者学到了多个复杂的混合偏见EI 阶段就会失效。高维数据的波动在 ImageNet 级别的复杂真实数据上单纯依赖梯度范数进行分组的质量依然存在较大波动稳定性有待提升。未来研究方向无监督因果表征学习跳出判别式模型的框架借助 CausalVAE、CINN (因果可逆神经网络) 等生成式方法从根本上实现独立因果机制ICM的解耦。与大语言模型 (LLM) 的结合探索大模型时代的因果推理。例如通过 Causal Prompting 引导模型忽略虚假上下文或者在多模态领域构建真正具备干预能力的因果世界模型 (Causal World Models)。希望能帮助您更好地理解和整理因果不变学习的知识体系如果您有任何修改意见或需要进一步探讨某个公式的推导欢迎随时交流。