导读一个 7B 参数的 Agent在 ALFWorld 上跑出了 97.5% 的平均成功率超过此前最强基线 2.6 个百分点。关键在于它的技能库从零开始由 Agent 自己检索、使用、蒸馏生成——整个过程只靠一个任务结果信号驱动。这篇来自中科大、美团、新加坡国立等团队的论文 Skill1正在重新定义 Agent 和技能库之间的关系。Agent 的错题本问题过去一年给 Agent 加技能库已经成了标配操作。ReAct、Reflexion 让 Agent 学会推理和反思ExpeL、RetroAgent 让 Agent 把成功经验写进外部记忆。但一个被反复忽视的问题是检索技能的模块不知道执行效果蒸馏技能的模块不知道检索偏好三个环节各优化各的奖励信号互相打架。论文原话讲得很到位“Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution.”「既有方法孤立地优化这些能力或用不同的奖励来源导致局部且冲突的演化。」打个比方一个学生做完数学题后写了错题本但查错题本的流程、用错题本的流程、整理新错题的流程是三套互不沟通的系统。查的时候不知道上次用了有没有效果整理的时候不知道哪些题型最该记。时间一长错题本越写越厚但考试成绩纹丝不动。▲ Skill1 论文 arXiv 页面标题直接点明统一演化Skill1 的做法一个 policy 管全程Skill1 的核心思路让同一个 policy 走完技能的全生命周期——从选择到使用到蒸馏所有学习信号只来自最终任务结果。具体流程拆开看**第一步选技能。**Policy 针对当前任务生成一条自然语言 query去技能库里做向量检索用的是冻结的 all-MiniLM-L6-v2 编码器拉回一批候选。然后 policy 自己对这些候选做重排序选出最相关的那条技能。**第二步用技能。**选定技能后policy 在该技能的条件下和环境交互完成任务。技能在这里扮演的角色类似于一份策略提示——告诉 Agent 面对这类场景该怎么行动。**第三步造新技能。**任务结束后policy 从整条交互轨迹里提取出两样东西一个可复用的策略描述reusable strategy一个场景标签scenario description。只有成功的轨迹才会被写入技能库。论文方法部分的原话“The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory.”「policy 生成 query 检索技能库重排候选选出技能在该技能条件下解决任务再从轨迹中蒸馏新技能。」▲ DailyPapers 推文训练同一个 policy同时选择、使用、蒸馏技能一个奖励信号怎么驱动三件事整个框架里最精巧的设计在奖励分配上。传统做法会给选择、使用、蒸馏各发一套奖励信号结果三套信号互相矛盾policy 左右为难。Skill1 只用一个终端任务结果 r(τ)但从中拆出两个维度低频趋势low-frequency trend用移动平均追踪某条技能被反复选用后的长期效果。如果一条技能持续带来好结果说明它本身有价值选择环节应该继续偏好它。这个信号驱动selection的学习。高频变化high-frequency variation看当前这次结果相对于长期趋势的偏差。如果某次使用了新蒸馏出的技能后结果大幅超出移动平均说明这条新技能带来了突破性的提升。这个信号驱动distillation的学习。而utilization最直接——任务做成了就是正反馈做砸了就是负反馈。这套设计的好处在于三个环节的梯度全部指向同一个目标——提高任务完成率。选择器学会找真正有用的技能执行器学会把技能用好蒸馏器学会生产下一轮能被用上的高质量技能。97.5%技能库确实在起作用说了这么多机制结果怎么样在 ALFWorld一个包含 6 类家务任务的模拟环境上Skill1 跑出97.5% 的平均成功率比此前最强的 RetroAgent 高出 2.6 个百分点在 6 类任务中有 5 类排名第一。在 WebShop模拟电商购物的环境上Skill1 的分数达到 89.7成功率 82.9同样领跑。但更值得关注的数据来自消融实验变体ALFWorld 成功率完整 Skill197.5%去掉整个技能库80.9%去掉选择模块91.8%去掉蒸馏模块92.4%**去掉技能库成功率直接掉了近 17 个百分点。**这组数据说明技能库对最终效果的贡献是实打实的选择和蒸馏每一环都在发挥作用。▲ Hugging Face Papers 社区页面Skill1 登上当日论文榜第二名几个需要冷静看的地方在为 97.5% 的数字兴奋之前有几个细节需要留意**第一实验环境是受控模拟。**ALFWorld 和 WebShop 都是标准化 benchmark任务模式相对固定。把这个结果直接外推到真实生产环境里的复杂 Agent还需要更多验证。**第二代码仓库暂时无法访问。**论文声称代码在 GitHub 上开源AlphaLab-USTC/Skill1但采集时仓库页面返回 404。具体实现细节和复现情况还需要等仓库上线后确认。**第三技能库有容量上限。**论文设定技能库最大容量为 5000 条。当 Agent 面对的任务类型持续扩展技能库的检索效率和淘汰策略是否能跟上论文没有深入讨论。▲ ArxivLens 第三方研究解读页面从调用工具到管理技能生命周期把 Skill1 放到 Agent 研究的大脉络里看它代表的趋势很明确Agent 正在从被动调用外部工具走向主动管理自己的技能生命周期。过去的 Agent 框架里工具是静态的——你给它一把锤子它就只能锤钉子。技能库比工具进了一步Agent 可以积累经验。但传统技能库的检索、使用、更新三个环节各跑各的本质上还是拼凑式架构。Skill1 提出的方向是**让 Agent 对技能库有完整的控制权——知道该找什么技能知道怎么用这个技能做完之后还能把经验提炼成新的技能反哺回技能库。**整个循环由同一个 policy 驱动由同一个结果信号校准。论文摘要里有个说法值得记住“A persistent skill library allows language model agents to reuse successful strategies across tasks.”「持久技能库让语言模型 Agent 能跨任务复用成功策略。」在 Hugging Face 社区的讨论里这篇论文被放在 skill bank、agentic RL、self-improving agents 这几条研究线上讨论——它的邻居包括 Dynamic Dual-Granularity Skill Bank、ARISE、Co-Evolution of Policy and Internal Reward 等工作。这个方向的共识越来越清晰Agent 的下一步进化重点在于让经验可积累、可检索、可迭代。Skill1 用一个 7B 模型和一个统一的 RL 框架在这个方向上迈出了相当扎实的一步。至于这套方法能否从模拟环境走到真实世界的复杂任务还需要后续工作来回答。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】