件保持内部分离未能实现在单一计算流形内对field-field、sequence-sequence and sequence-field三种交互的完全统一论文发现这种统一面临一个关键障碍顺序坍塌传播SCP。工业场景中非序列特征如低基数或偏斜分布的静态属性的嵌入天然倾向于占据低维子空间。在解耦模型中这种坍塌被安全地隔离在非序列侧但在统一模型中坍塌敏感的静态令牌通过共享算子直接与行为序列令牌交互导致序列表示遭受维度侵蚀论文通过分析揭示了这一现象上图左图以互信息MI衡量表征辨别力右图以奇异值谱和有效秩衡量维度鲁棒性反映表示在多少个互不冗余的维度上展开决定模型泛化能力。可见纯序列 Transformer 保留了较高维度的表示空间但缺乏静态信号导致辨别力不足而简单联合建模虽借助静态特征提升了 MI却引发了更剧烈的频谱衰减表明序列表示已经变得更加崩溃针对这个问题论文提出了TokenFormer其中包含三项核心创新统一 Token 流、Bottom-Full-Top-SlidingBFTS注意力调度、Non-Linear Interaction RepresentationNLIR门控机制方法统一 Token 流推荐输入由非序列多域特征 、序列行为 token 、目标特征 构成但是现有工作通常只操作其中一个子集。特征交互模型主要处理 序列模型主要处理 或 跨特征序列模型主要处理 。因此论文指出统一推荐可以被形式化为在完整实体集 上学习所有六种交互类型TokenFormer将所有输入拉平为统一 token 序列。设 为特征域数量 为历史序列长度 为目标 item 数量 为特殊分隔符数量则总输入长度为with actions的输入长度为 是因为序列的每个时间步从 item 变成了 item、action论文认为加法式的位置编码会引入交叉项噪声迫使语义 embedding 与低秩的位置向量进行加法交互破坏语义流形的内在几何结构。因此TokenFormer采用 RoPE 位置编码的方式同时为了在RoPE 增强注意力内部对齐顺序和非顺序多字段标记TokenFormer制定的位置索引策略如下静态特征 token位置映射到行为序列 token位置映射到时间索引目标 token位置映射到这样不同类型的 token 天然处于不同的位置区间RoPE 通过相对位置差 就能让模型隐式地区分出 token 类型同时避免了加法式编码的秩污染问题TokenFormer采用同构 decoder-only 骨干堆叠 个Unified Interaction BlockUIB。每个 UIB 是标准注意力块的变体增加了两项创新BFTS 注意力调度和 NLIR 门控机制。第 层的核心变换为通过堆叠这样的 blockTokenFormer在浅层逐步整合全局上下文信息在深层强调局部时序结构同时通过非线性交互增强注意力输出的表达能力BFTS 注意力调度先将归一化输入 投影为 、、然后用 RoPE 编码相对位置信息计算注意力输出。为了降低对长行为序列的密集关注成本TokenFormer使用了滑动窗口注意力SWA限制每个 token 只关注最近 个前驱 token其中 为 RoPE 变换 为第 层的滑动窗口可见性掩码这里加法是工程上的写法乘 0 也相当于加负无穷SWA 将注意力范围从全序列缩减为局部窗口适用于推荐中大量细粒度行为依赖具有局部性的场景。但是又不能直接对所有层统一使用 SWA因为TokenFormer的输入序列不仅包含序列行为 token还包含异构静态特征 token。早期层需要足够宽的感受野来建立全局跨域交互。若从第一层就限制为局部窗口模型将过早丧失在统一序列上传播全局上下文的能力因此为了平衡全局交互和局部细化论文提出了Bottom-Full-Top-SlidingBFTS注意力调度。关键思想很简单浅层使用完整的因果注意力而更深的层切换到SWA。设 层骨干中有 层全注意力层和 层滑动窗口层对于滑动窗口层采用收缩窗口策略窗口大小 递减 具体的 怎么设置的论文貌似没有说。最终窗口大小逐层缩减迫使模型将宽泛的全局依赖提炼为越来越精细和局部化的表示此外由于静态特征 token 主要在初始层充当全局上下文先验一旦信息被充分整合到序列表示中保留它们就变得冗余。因此在第 层之后模型完全停止关注前 个非序列 token这里的思想与OneTrans的 Pyramid Stack 相同。论文说这种操作能够迫使跨特征交互静态特征和顺序行为之间在早期层内彻底完成更深的层将专注于行为进化和目标感知NLIR 门控机制TokenFormer结合了统一的非线性交互范式旨在增强表征辨别力并恢复维度鲁棒性。具体而言NLIR在标准注意力的基础上插入了一个乘性变换从而实现了其中 是从当前层输入即残差路径上的原始输入学出来的门控信号。然后才是残差连接 。论文说这样做能够增强特征交互的判别性和潜在表示的多样性。通过乘性门控调制注意力输出模型有效保持了特征空间的秩丰富度为后续阶段产出更具表达力的交互表示注意这里是逐元素乘法即两个形状完全相同的向量或矩阵把对应位置的数字相乘和 FFN 不同这种做法可以提升有效秩SwiGLU 前馈网络在门控注意力操作之后TokenFormer使用 SwiGLU-based FFN 进一步计算其中 、、 为可学习权重矩阵。论文这里说该设计保持标准残差前馈更新的同时与注意力分支中的乘性交互原则一致PS我个人并不理解这里的NLIR是在干什么它和直接对注意力输出做一个 FFN 的区别在哪里呢为什么这么设计就能增强信息表示以及SwiGLU 前馈网络不也是逐元素乘和NLIR又有什么区别呢本质上不是重复的两个操作吗这两个 section 一直让我疑惑不解统一优化目标TokenFormer的一个显着特点是相同的统一 token 架构可以在共享监督框架下支持不同的推荐范式每个模型只会选择其中一种进行训练推荐场景的 one-epoch 特性使得重复训练会快速过拟合在海量、高度冗余、时效性强的推荐数据下只训练一个完整的轮次是工业界的标准做法。论文在这里提出了实验中使用的两种设置User-Centric setting这是一种稠密自回归监督方式。模型将历史行为、用户静态特征和候选相关 token 拼接成一条统一的序列并在整个序列上以next-token prediction的方式施加监督信号。也就是说序列中大量的历史交互 token 也会参与损失计算模型被强制从完整的交互上下文中学习全面的用户表征。模型只在 action token 位置产生预测而不是在 item token 位置New Impression Only setting这是一种稀疏目标监督方式。模型将用户历史序列仅作为上下文输入来提供背景信息而监督信号只施加在当前曝光的候选物品或决策 token 上历史交互 token 不贡献损失梯度。给模型一个用户的历史行为 一个候选广告让模型预测这个用户看到这个广告时会做出什么 action论文统一 Token 流的三段式序列构造严格来说只适用于New Impression Only因为引入了目标 Token而User-Centric的实际序列应为 。此外非序列特征 作为共享前缀只有一份隐含假设了 context 特征在整个序列时间跨度内是静态的。但实际中用户的城市、设备、兴趣标签等会随时间变化。工业实践中通常通过两种方式缓解(1) 将时变特征从 下沉到每个 item token 中 只保留真正静态的特征(2) 按时间窗口截断序列缩短窗口内 context 特征的变化幅度最终的损失函数为 softmax Cross-Entropy 进行多类别 action 预测而非二分类 CTR loss提供了更丰富的监督信号点赞、转发代表比点击更强的兴趣也与工业场景中多目标优化的需求对齐实验可以看到在User-Centric和New Impression Only设置下TokenFormer均表现出最佳效果PS对于User-Centric的设置假设测试集中有一个用户的历史序列 [item_A → action_like, item_B → action_click, item_C → ?]已发生此时 item_C 已经被曝光了预测 action 虽然没有意义但是能反映建模能力从 post-attention 表征和目标标签的互信息以及初始 layer 的 effective rank 可以看出TokenFormer设计的模块大大增强了模型的表征能力和鲁棒性。后续对 BFTS 的细致分析这里就省略了反正肯定是正向效果