从ID匹配到模态理解:推荐系统范式变革与LLM应用实战
1. 推荐系统范式变革从ID匹配到模态理解如果你在推荐系统领域摸爬滚打超过五年那么对“ID Embedding”这个词一定不会陌生。它几乎是过去十年工业界推荐模型的基石——无论是协同过滤的矩阵分解还是深度学习的双塔模型核心逻辑都是将用户和物品映射成高维空间中的向量ID Embedding然后通过向量内积或相似度计算来完成匹配。这套范式成就了无数成功的推荐产品但它的天花板也日益明显冷启动问题、数据稀疏性、跨域迁移困难以及那令人头疼的“信息茧房”。最近两年一股新风潮正在席卷整个推荐领域其核心驱动力来自自然语言处理NLP和计算机视觉CV领域的“基础模型”Foundation Models。大家开始思考几个根本性的问题推荐系统能否拥有像BERT、GPT那样强大的、可迁移的“基础模型”我们是否必须依赖ID Embedding当大语言模型LLM和多模态模型展现出惊人的理解和生成能力时推荐系统是否会从传统的“匹配”范式转向“生成”范式这篇文章我将结合最新的研究进展和我的个人实践为你深入拆解这场正在发生的范式变革探讨“无显式ID特征”的推荐系统究竟走到了哪一步以及我们作为从业者该如何应对。2. 核心争议ID特征的必要性与局限性要理解这场变革我们必须先回到起点审视ID特征ID Embedding的功与过。2.1 ID范式的辉煌与困境ID范式的核心优势在于其强大的记忆能力。通过海量的用户-物品交互数据模型能够学习到非常精准的、个性化的向量表示。例如一个经常购买“登山杖”和“冲锋衣”的用户其用户向量会与这些物品的向量高度相关从而能精准推荐“徒步鞋”或“露营灯”。这种基于共现统计的模式在数据充足、场景稳定的情况下效果极其出色。然而其局限性同样突出冷启动问题对于新用户或新物品由于缺乏交互历史无法生成有效的ID Embedding导致推荐质量急剧下降。常见的做法是引入内容特征或使用热门物品填充但这只是权宜之计。数据稀疏与泛化性差用户与物品的交互矩阵极度稀疏。ID Embedding本质上是为每个独立的ID学习一个参数这导致模型严重依赖见过的数据对于长尾物品或低频用户的泛化能力很弱。跨域迁移困难在电商平台训练的ID Embedding无法直接用于新闻推荐。因为ID空间是隔离的模型学到的“知识”被禁锢在特定的ID体系内无法迁移。这使得每个新业务场景都需要从头开始积累数据和训练模型成本高昂。信息利用不充分ID Embedding丢弃了物品丰富的模态信息如文本描述、图片、视频和用户行为序列中蕴含的语义信息。用户点击“iPhone 15 Pro”不仅仅是因为一个ID更是因为其“高端智能手机”、“苹果品牌”、“出色的摄像头”等语义属性。ID范式无法显式地建模和利用这些信息。2.2 模态范式的崛起从“Who”到“What”与ID范式相对的是“基于模态的推荐模型”。这里的“模态”指的是物品的原始内容特征如文本标题、描述、图片、视频、音频以及用户行为序列中的文本信息如搜索词、浏览的商品标题。模态范式的核心思想是我们不关心用户或物品的匿名ID是什么我们关心他们“是什么”和“做了什么”。通过深度理解物品的内容属性和用户行为序列的语义模型可以直接建立用户兴趣与物品内容之间的关联。一个简单的类比ID范式像是通过“人脸识别”ID来推荐朋友你必须见过这个人才能推荐而模态范式像是通过“性格、爱好、职业描述”模态信息来推荐朋友即使从未谋面只要描述匹配也能进行推荐。近年来随着CLIP、BERT、GPT等预训练模型的成熟从文本、图像等原始模态中提取高质量、可迁移的语义表示已成为可能。这为绕过ID直接构建基于语义理解的推荐系统提供了技术基础。一系列研究如《Where to Go Next for Recommender Systems? ID-vs. Modality-based recommender models revisited》开始系统地对比这两种范式发现在某些场景下尤其是数据稀疏或跨域场景纯模态模型的表现已经可以媲美甚至超越传统的ID模型。3. 基石面向推荐的基础模型与预训练如果我们要摆脱对ID的依赖首要任务就是构建能够理解推荐领域语义的“基础模型”。这不同于NLP中的通用BERT或CV中的CLIP它需要针对推荐任务特有的数据结构和目标进行预训练。3.1 推荐基础模型的独特挑战推荐领域的数据有其特殊性序列性用户行为是按时间排列的序列蕴含了兴趣的演变和转移。多模态性物品通常包含文本、图像甚至视频、音频等多种模态信息。交互信号稀疏且隐式点击、购买等信号是二元的、稀疏的且是隐式反馈用户可能不喜欢但不得不点。目标多样性不仅有点击率CTR预估还有转化率CVR、时长、完播率、多样性等多目标优化。因此一个理想的推荐基础模型应该是一个能够处理序列化、多模态输入并能够从隐式反馈中学习用户通用兴趣表示的预训练模型。3.2 关键技术路径与实践当前的研究主要沿着几个方向展开1. 序列表示学习 目标是学习用户行为序列的通用表示。代表性工作如《Towards Universal Sequence Representation Learning for Recommender Systems》KDD 2022它提出通过对比学习等自监督任务在大规模用户行为序列上预训练一个序列编码器如Transformer使其输出的序列表示能够捕获用户的通用兴趣模式从而可以迁移到不同的下游推荐任务中。实操心得在自建数据集上尝试这类方法时最关键的是设计有效的预训练任务。除了常见的“下一项预测”Next Item Prediction我们加入了“行为跨度预测”预测用户两次活跃间隔的时间和“序列对比学习”对同一用户序列进行随机掩码或重排要求模型判断其是否来自同一序列这些任务能更好地让模型学习用户活跃周期和兴趣稳定性。2. 多模态统一表征学习 旨在将不同模态的物品信息文本、图像映射到同一个语义空间。例如《MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation》等工作借鉴了VL-BERT、UNITER等视觉-语言预训练模型的思想但将训练数据换成了电商平台的商品图文对和用户交互序列。模型通过图文匹配、掩码语言建模、掩码区域建模等任务进行预训练。3. 基于语言模型的预训练 这是目前最火热的方向。既然物品的标题、描述、用户搜索词都是文本那么能否直接用强大的语言模型LLM作为推荐的基础模型P5《Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt Predict Paradigm》是这一方向的里程碑工作。它将所有推荐任务如评分预测、序列推荐、解释生成都统一转化为文本生成任务并用T5模型进行预训练。例如将用户历史序列“电影1电影2”和任务描述“根据用户历史推荐下一部电影”作为输入让模型直接生成“电影3”的文本。4. 适配器Adapter微调 直接微调LLM如百亿参数的GPT成本过高。适配器技术提供了一种轻量化的解决方案。如《Exploring Adapter-based Transfer Learning for Recommender Systems》所示在预训练好的LLM中插入少量可训练的适配器层而冻结LLM的主干参数。在下游推荐任务中只训练这些适配器和任务特定的输出层既能利用LLM的通用知识又大大降低了计算开销。注意事项适配器的插入位置和维度大小对效果影响显著。我们的实验发现在Transformer的每个注意力层和前馈网络层之后都插入适配器即Houlsby结构通常比只插在特定位置效果更好。适配器瓶颈层bottleneck的维度一般设置为原始隐藏层的1/16到1/8是一个不错的起点。4. 大语言模型LLM如何重塑推荐系统LLM的涌现能力Emergent Abilities为推荐系统带来了前所未有的可能性。它不再仅仅是一个特征提取器或排序模型而可能成为一个具备推理、解释和生成能力的“推荐智能体”。4.1 LLM在推荐中的四种应用范式根据LLM参与程度和方式的不同当前研究主要分为四大类1. LLM作为特征提取器Feature Extractor 这是最直接、应用最广的方式。利用预训练LLM如BERT、Sentence-BERT将物品的文本描述、用户的历史行为文本如点击的商品标题序列编码成高质量的语义向量。然后将这些向量作为特征输入到传统的推荐模型如DIN、DeepFM中替代或补充ID Embedding。优势实现简单能有效利用语义信息缓解冷启动。挑战LLM的语义空间与推荐任务的目标空间可能存在差异需要对齐。关键研究《Are ID Embeddings Necessary? Whitening Pre-trained Text Embeddings for Effective Sequential Recommendation》提出对LLM提取的文本向量进行“白化”Whitening处理以消除其各向异性使其分布更接近ID Embedding的分布从而在序列推荐中取得更好效果。2. LLM作为零样本/少样本排序器Zero/Few-shot Ranker 直接提示PromptLLM让其根据用户历史和行为描述对候选物品列表进行排序或打分。例如输入“用户最近购买了《三体》和《流浪地球》。请从以下书籍中选出他最可能喜欢的3本《球状闪电》、《超新星纪元》、《乡村教师》、《朝闻道》。”优势无需训练开箱即用尤其适合冷启动或探索性场景。挑战存在位置偏差候选物品在列表中的顺序可能影响结果、输出格式不稳定、计算成本高。关键研究《Large Language Models are Zero-Shot Rankers for Recommender Systems》系统评估了LLM如GPT-4作为零样本排序器的能力发现其在某些数据集上能达到有监督基线的水平但效率和稳定性仍是瓶颈。3. LLM作为生成式推荐器Generative Recommender 这是最具颠覆性的范式。模型不再从固定候选集中检索而是直接生成推荐内容。例如输入用户兴趣描述让LLM生成一个个性化的歌单名称和歌曲列表或者生成一个旅游攻略。优势突破候选池限制实现真正个性化的、创造性的推荐。挑战生成内容的可控性、安全性、实用性难以保证评估指标需要重新设计。关键研究《Generative Recommendation: Towards Next-generation Recommender Paradigm》和《Diffusion Recommender Model》等探索了基于扩散模型或自回归模型的生成式推荐直接生成物品的ID或表征。4. LLM作为推荐系统组件增强器Enhancer 利用LLM增强推荐系统的其他环节。例如查询理解与扩展用LLM解析用户模糊的搜索词并生成更精准的搜索query。解释生成用LLM为推荐结果生成自然语言的解释提升用户信任度和满意度。对话式推荐构建基于LLM的对话机器人通过多轮交互澄清用户意图完成推荐如《Chat-REC: Towards Interactive and Explainable LLMs-Augmented Recommender System》。4.2 实践中的挑战与应对策略将LLM应用于工业级推荐系统我们遇到了几个典型问题1. 效率与成本动辄百亿参数的LLM即使只是前向推理其延迟和计算成本也是推荐场景难以承受的。策略采用模型蒸馏、量化、剪枝等技术将大模型的知识压缩到小模型中。例如《CTR-BERT: Cost-effective knowledge distillation for billion-parameter teacher models》工作就是这方面的尝试。或者仅在离线阶段使用LLM生成高质量的特征或标签在线服务仍使用轻量级模型。2. 提示工程Prompt EngineeringLLM的表现极度依赖提示词的设计。策略需要针对推荐任务精心设计提示模板。我们的经验是结构化、分步骤的提示Chain-of-Thought效果更好。例如先让LLM总结用户兴趣再基于兴趣进行推荐比直接要求推荐效果更稳定。同时需要构建一个提示词库并进行A/B测试。3. 评估难题传统的AUC、NDCG等指标无法全面评估LLM推荐的多样性、新颖性、可解释性。策略需要建立多维度的评估体系结合人工评估。例如除了离线指标增加对生成解释的流畅度、相关性进行人工打分。4. 偏见与安全LLM可能继承训练数据中的社会偏见生成不安全或不公平的推荐。策略必须进行严格的内容安全过滤和公平性检测。在提示词中明确加入安全、公平的约束条件并在后处理阶段引入审核机制。5. 多模态推荐系统的融合与演进当推荐系统同时考虑文本、图像、视频、音频等多种模态信息时就进入了多模态推荐系统Multimodal Recommender System的范畴。其核心目标是通过融合多模态信息获得比单一模态更丰富、更精准的物品和用户表示。5.1 多模态融合的经典与前沿方法早期的多模态推荐如VBPRVisual Bayesian Personalized Ranking简单地将图像CNN特征作为辅助特征与ID Embedding拼接后输入模型。这种方法属于“后期融合”模态间的交互较浅。当前的主流方法是“中期融合”或“早期融合”中期融合分别用不同的编码器如BERT处理文本ResNet处理图像提取各模态的特征然后在模型中间层如Transformer的注意力层进行交互和融合。例如通过跨模态注意力机制让文本特征去关注图像中相关的区域反之亦然。早期融合更激进的思路是在输入层面就将多模态信息统一。例如将图片通过Vision TransformerViT打成patch序列与文本的token序列拼接一起输入一个统一的Transformer进行编码。这要求模型在预训练阶段就学习到跨模态的联合表征。实操心得在多模态融合中最大的坑是“模态噪声”和“模态主导”。例如商品图片可能包含无关的背景或模特而文本描述可能夸大其词。直接融合会导致噪声传播。我们的做法是引入“模态门控”或“模态注意力”机制让模型动态决定在预测某个物品时应该更依赖文本还是图像。例如对于“书籍”类目文本权重要调高对于“服装”类目图像权重要调高。5.2 从多模态到“无ID”的多模态最新的趋势是在多模态推荐中彻底抛弃ID Embedding完全依靠内容模态进行推荐。《ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation》这篇论文提出了一个有趣的观点ID Embedding所捕获的其实是物品内容和结构信息的“隐式摘要”。如果我们能用多模态特征更显式、更丰富地表达这些信息就有可能替代ID。实现路径物品侧使用强大的多模态预训练模型如BLIP、Flamingo将每个物品的图文信息编码成一个稠密的“内容表征向量”。这个向量应该能唯一地标识该物品的语义内容。用户侧将用户的历史交互序列一系列物品的内容表征向量通过序列模型如Transformer进行编码得到用户的“兴趣表征向量”。匹配通过计算用户兴趣向量与候选物品内容向量的相似度来完成推荐。这种方法在理论上完全可行并且在公开数据集如包含丰富图文信息的电商数据集上已经显示出巨大潜力。它的最大好处是天然的跨域能力一个在电商数据上预训练好的多模态编码器可以很容易地迁移到短视频推荐、新闻推荐等领域因为“内容理解”的能力是通用的。5.3 大规模多模态推荐数据集的价值研究的推进离不开高质量的数据。近年来出现的一系列大规模多模态推荐数据集如NineRec、PixelRec、MicroLens为这一领域的发展注入了强心剂。NineRec包含了九个不同下游领域的数据旨在评测推荐模型的跨域迁移能力。PixelRec独特之处在于它提供原始像素图像而非预提取的特征鼓励研究端到端的图像理解与推荐。MicroLens一个超大规模的短视频推荐数据集包含了视频帧、音频、文本标题、评论、标签等多模态信息极其贴近真实工业场景。这些数据集使得公平、全面的模型比较成为可能也催生了更多关于模态融合、跨域迁移、无ID推荐的研究。6. 构建可迁移与通用的用户表征无论是基于LLM还是多模态一个终极目标是学习一个通用的、可迁移的用户表征Universal User Representation。这个表征应该像ChatGPT的语言能力一样能够跨越不同的平台、不同的业务场景准确地刻画用户的核心兴趣偏好。6.1 通用用户表征的学习方法这本质上是一个跨域/多任务表示学习问题。核心思路是通过预训练从用户在不同场景下的行为数据中提炼出不变的兴趣内核。对比学习Contrastive Learning这是目前最主流的方法。基本思想是同一个用户在不同领域如电商和新闻的行为序列其表征应该相近正样本而不同用户的行为序列表征应该相远负样本。通过在大规模跨域数据上构建这样的对比学习任务可以迫使模型学习到与领域无关的用户通用兴趣表示。代表工作如《Learning Transferable User Representations with Sequential Behaviors via Contrastive Pre-training》。参数高效微调Parameter-Efficient Fine-Tuning, PEFT当拥有一个预训练好的通用用户编码器后如何快速适配到下游具体任务全量微调成本太高且可能导致“灾难性遗忘”。适配器Adapter、前缀微调Prefix Tuning、LoRALow-Rank Adaptation等PEFT技术成为首选。例如《Exploring Adapter-based Transfer Learning for Recommender Systems》系统研究了适配器在推荐任务上的有效性。终身学习Lifelong Learning用户的兴趣是随时间演变的。通用用户表征也需要能够持续学习在不遗忘旧知识的前提下吸收新知识。这涉及到持续学习、增量学习等技术。《One Person, One Model, One World: Learning Continual User Representation without Forgetting》等论文正是在探索这一方向。6.2 工程实践中的考量在业务中尝试构建通用用户表征时我们面临几个现实问题数据孤岛与隐私用户在不同平台的数据是隔离的且受隐私法规保护。如何在保护隐私的前提下进行联合预训练联邦学习Federated Learning和差分隐私Differential Privacy是潜在的技术路径。《TransFR: Transferable Federated Recommendation with Pre-trained Language Models》就探索了基于预训练语言模型的联邦推荐。表征的更新与维护用户表征不是静态的。我们需要一个高效的在线更新机制能够近乎实时地根据用户的最新行为调整其表征。这通常需要一个高效的向量检索系统如Faiss来存储和更新数十亿级别的用户向量并结合流式计算框架。评估体系如何衡量一个用户表征的“通用性”我们设计了一套离线评估协议领域内任务在预训练数据所在的领域评估推荐精度AUC/NDCG。跨域迁移任务将预训练好的编码器固定在下游新领域的数据上仅训练一个简单的预测层如MLP评估其效果。效果越好说明通用性越强。表征可视化通过t-SNE等技术将用户表征降维可视化观察不同领域、不同兴趣圈层的用户是否在表征空间中有清晰的聚类。7. 生成式推荐未来的主流范式如果说基于LLM和多模态的推荐是对现有匹配范式的“增强”那么生成式推荐则可能是一场“革命”。它不再是从一个巨大的候选池中检索和排序而是直接“创造”出符合用户需求的推荐内容。7.1 生成式推荐的两种实现路径生成物品ID/Token将推荐视为一个序列生成问题。模型接收用户历史行为序列编码为ID序列或语义Token序列然后以自回归的方式逐个生成下一个推荐物品的ID或Token。这类似于语言模型预测下一个词。《Generative Slate Recommendation with Reinforcement Learning》和《Diffusion Recommender Model》是这一路径的代表。扩散模型在生成高质量、多样性样本方面的优势使其在生成式推荐中备受关注。生成内容描述/规划更贴近LLM原生能力的做法是直接生成推荐内容的自然语言描述或结构化规划。例如输入“我想规划一个周末的北京文化之旅”模型直接生成一个包含“上午参观故宫中午在四季民福吃烤鸭下午逛国家博物馆晚上看话剧《茶馆》”的详细攻略。这已经超越了传统推荐进入了AI助理的范畴。7.2 生成式推荐的优势与待解难题优势突破候选池限制可以生成从未在候选池中出现过的新颖组合或概念。高度个性化与创造性能够综合复杂、模糊的用户需求生成量身定制的方案。自然的人机交互以自然语言的形式输出更易于理解和交互。待解难题可控性与安全性如何确保生成的内容是合规、安全、有用的如何避免生成虚假信息或有害内容这需要强大的对齐Alignment技术和内容过滤机制。可评估性如何量化评估生成推荐的质量传统的排序指标完全失效。需要结合人工评估、用户满意度调研以及基于规则的校验。效率与成本生成式模型通常比检索式模型大得多推理速度慢成本高。商业可行性生成的推荐如何与现有的商品库存、服务供应链对接例如生成了一个不存在的旅游路线或一道没有食材的菜谱是没有意义的。个人判断在短期内生成式推荐更可能以“辅助”或“混合”的形式存在。例如在传统检索排序系统产生一个粗排列表后用生成式模型对列表进行重排、解释或补充生成一些相关的建议。纯粹的、端到端的生成式推荐要成为主流还需要在可靠性、效率和商业化闭环上取得重大突破。8. 实战指南如何开始你的“无ID”推荐之旅理论探讨了很多最后分享一些落地实践的思路。如果你所在的团队也想尝试这些前沿方向我建议采用渐进式的路径第一步LLM作为特征增强器最容易落地行动选取业务中文本信息丰富的场景如新闻、商品标题。使用开源的Sentence-BERT或类似模型为所有物品生成文本语义向量。实验在现有的深度推荐模型如DIN或DeepFM中将这些文本向量作为额外的特征输入与现有的ID Embedding拼接或相加。目标观察离线指标AUC、GAUC是否有提升特别是在新物品和新用户上的表现。这一步风险最低收益明确能快速验证模态信息的价值。第二步探索纯模态模型验证可行性行动选择一个相对独立、数据质量高的子场景例如一个刚上线的新频道或品类。构建一个不包含任何ID特征的模型用户侧输入其近期交互物品的文本/图像特征序列物品侧就是其自身的多模态特征。模型使用Transformer或简单的MLP作为编码器和匹配器。目标与同场景下的ID基线模型进行A/B测试。重点关注其解决冷启动问题的能力。如果效果接近甚至反超说明在该场景下“无ID”路线是可行的。第三步引入预训练与适配器追求通用性行动如果第二步成功可以考虑引入更大的预训练模型。例如使用在电商图文数据上预训练过的多模态模型如阿里通义千问的视觉语言模型或开源模型来初始化你的物品编码器。策略采用冻结主干微调适配器Adapter的方式来快速适配你的具体业务数据。这能平衡效果与成本。目标构建一个初步的、可迁移的物品内容编码器并尝试将其应用到业务中其他相似但数据稀疏的场景验证其跨域能力。第四步谨慎探索生成式与LLM排序前沿探索行动在技术调研或创新项目中尝试使用GPT-4等API或开源大模型如LLaMA通过设计提示词进行零样本推荐或解释生成。场景优先选择对多样性、新颖性要求高而对绝对精度要求相对宽松的场景如“灵感发现”、“内容创作辅助”等。目标不是替代主推荐链路而是探索新的产品形态和用户体验积累对大模型在推荐中应用的经验和认知。贯穿始终的注意事项数据质量至上模态模型的效果极度依赖原始内容的质量。脏乱差的文本和图片再好的模型也无能为力。必须投入资源进行数据清洗和标注。评估体系重构除了AUC/NDCG务必增加对多样性、新颖性、惊喜度、可解释性等指标的监控和评估。成本与效率的权衡大模型意味着高成本。需要建立从实验到上线的完整成本评估模型明确ROI。保持技术敏锐但坚持业务价值导向不要为了用新技术而用新技术。每一个技术选型都要想清楚它到底解决了什么业务痛点带来了多少可量化的提升。这场从“ID”到“模态”的范式迁移本质上是推荐系统从“记忆”走向“理解”的必然过程。它不会一蹴而就传统ID模型在数据丰富的核心场景仍将长期存在。但毫无疑问融合了多模态理解、大语言模型和生成能力的新一代推荐系统正在打开一扇通往更智能、更通用、更人性化推荐体验的大门。作为从业者我们的任务就是理解它、驾驭它并最终让它为用户创造真实的价值。