从LLM到Agent：AI核心知识体系解析

张

张建站

2026/4/20 10:04:20

10分钟阅读

最近刷科技新闻你大概率会频繁碰到这几个词LLM、Agent、MCP、Skills……它们频频出现在各类技术文章和AI产品发布会上几乎成了AI行业的必修词汇很多人会将它们混为一谈但其实它们不是同一类东西。今天我们就一次性把这这些概念讲明白看懂 AI 是如何从只会聊天一步步变成能独立完成任务的~先用一句话概括他们是什么小明通过 Vibe Coding 用自然语言提出“做一个记账网站”的需求这个需求变成 Prompt 进入 LLM在 Context Window 中理解后通过 RAG 补充知识再借助 Tool / MCP 获取外部能力由 Agent Team 分工协作内部通过 SubAgent 拆解任务使用 Skill 完成功能实现按照 Workflow 有序执行并由 LangChain 进行工程化编排最终通过 API 输出成一个真正可用的应用。接下来我们一个一个说一.基础层1.1 LLM.大语言模型LLM是整个AI世界的核心这点没什么好说的。它通过海量文本数据训练获得了理解和生成语言的能力。现在主流的 LLM 有很多OpenAI的GPT-5.4Anthropic的Claude 4系列Google的Gemini国内的话有文心、通义、混元等等不同LLM擅长不同场景选型的时候得看具体需求。比如Claude写代码能力强GPT-4综合能力强等等。有个概念得搞清楚LLM本身只是脑子上面还得套壳才能变成产品。ChatGPT、Claude这些产品就是LLM加了一层UI让你普通人能直接用。1.2 Token.计量和处理的基本单元AI处理文本的方式跟人不一样的。它会把所有内容切成小块每块叫一个Token。大概的换算关系是英文1 Token ≈ 4个字符中文1 Token ≈ 1-2个汉字API调用是按Token数收钱的.你发的越长,花的越多。还有Context Window这个限制超过上限的内容会被直接截断.写代码的时候一般会用tiktoken这种库来算Token数提前知道自己发了多少.1.3 Context Window,AI的内存Context Window翻成上下文窗口,就是AI单次能处理的最大Token数量.这个数字非常重要.你跟AI的对话历史,你上传的文件,你给它的系统设定,全得塞进这个窗口里。塞不下的就被截断.现在主流模型的Context对比模型Context WindowGPT-5.4200kClaude 4200k/1MGemini 3.1pro1MDeepSeek V3128KQwen 2.5128K/1M工程实践里面,Context管理是个很重要的课题.超过几十轮的对话就得考虑怎么压缩或者截断否则有效信息反而被挤掉了.二.交互层2.1 Prompt写的好不好直接决定输出质量Prompt就是你给LLM的输入。Prompt Engineering已经成为AI应用开发的基础技能。核心原则就那么几个第一清晰。你到底要什么说清楚别让AI猜。第二具体。给够上下文包括背景、格式要求、长度限制这些。第三结构化。用分隔符、列表这些把内容组织好AI更容易理解。第四迭代。别想着一遍就写好基于输出持续调优。常见模式有这么几种Zero-shot直接给任务不给示例Few-shot给几个示例让AI学习 patternChain-of-thought引导AI一步步推理写Prompt这事真的得练。同一件事prompt怎么写决定了AI是给你精品还是给你一堆废话。2.2 Chat/Chatbot 就是LLM的UI壳子Chat本质上就是在LLM外面包了一层对话界面让普通人能直接用.Chatbot这个词就是这种交互形式的了统称,没什么神秘的.三.能力层3.1 RAG,检索增强生成RAG解决的是LLM的两个固有问题知识有截止日期、不知道私有内容。原理很简单用户提问 → 去外部知识库检索相关内容 → 塞进Context → LLM基于这些参考资料生成答案RAG的几个核心组件Embedding模型负责把文本变成向量。向量数据库负责存储和检索这些向量。检索策略决定怎么找到最相关的内容.RAG应用现在遍地开花企业知识库问答,客服系统,文档智能检索,用的都是这个.3.2 Tool,让LLM能操作外部世界LLM以前只能说话Tool给了它动手的能力。比如搜索工具让AI能查实时信息日历工具让AI能看和创建日程邮件工具让AI能发邮件数据库工具让AI能查数据Function Calling就是让LLM判断什么时候该调用哪个工具、传什么参数的技术。调用链路大概是这样的LLM分析用户意图 → 决定需要调用哪个Tool → 生成调用参数 → 执行 → 把结果整合进回答。3.3 Skill,封装好的流程Skill就是把怎么做一件事的流程固化下来打包让AI每次都按这个流程执行。比如一个代码审查Skill可能包含这些步骤读取代码文件运行ESLint做静态分析做安全扫描生成审查报告输出改进建议有些事你经常做比如下载PDF→翻译成中文→保存成Word。每次让Agent从头想又慢又费钱调用LLM要花token按字收费。3.4 Agent,自主规划执行Agent是现在最火的概念。本质上就是给AI一个目标AI自己制定计划、调用工具、执行任务、中间可能反思和调整、直到达成目标。对比一下Chat你问它答Agent你说帮我整理会议纪要并发给同事它会自动读邮件、整理内容、写邮件、确认收件人、点击发送Agent的典型架构大概是这样的:Agent ├── LLM大脑 ├── Memory记忆 ├── Tools工具集 ├── Planning规划 └── Reflection反思现在做Agent的框架很多LangChain、AutoGPT、还有Claude自己的Agent SDK。选哪个看具体需求。3.4.1 SubAgnet,子任务执行者在复杂任务中单个 Agent 往往不够用。这时候 Agent 会把任务拆解然后交给多个 SubAgent子执行单元去并行处理。可以理解为Agent项目经理SubAgent外包团队 / 小组成员举个例子比如用户说“帮我写一个电商系统设计方案”Agent 会这样拆SubAgent1数据库设计SubAgent2接口设计SubAgent3权限系统设计SubAgent4前端结构设计Agent 汇总所有 SubAgent 的结果 → 输出完整方案3.4.2 Agent Team,多Agent协作系统当任务复杂度继续提升时单个 Agent 已经不够用了。于是系统会引入 Agent Team智能体团队.可以把 Agent Team 看成一个“小公司”不同 Agent 扮演不同角色每个 Agent 有自己的职责范围由一个 Coordinator主 Agent统一调度一个典型分工Research Agent负责查资料RAGCoding Agent负责写代码Planning Agent负责拆解任务Review Agent负责检查结果工作流程如下:用户需求 ↓ Coordinator Agent总控 ↓ 分发任务给多个 Agent ↓ 各 Agent 并行执行 ↓ 汇总结果 ↓ 输出最终答案Agent Team, SubAgent以及Workflow的区别概念层级特点SubAgent执行层一个 Agent 内部拆分任务Agent Team组织层多个 Agent 协作Workflow流程层控制步骤顺序3.5 Workflow,流程编排Agent 解决的是“一个任务怎么完成”但在真实场景中往往是多个步骤组成一个完整流程这时候就需要 Workflow。Workflow 本质上就是把多个 AI 能力按顺序串起来。有些事你经常做比如下载PDF→翻译成中文→保存成Word。每次让Agent从头想又慢又费钱调用LLM要花token按字收费。能不能把流程固定当然可以。比如一个典型流程用户提问→ RAG 检索资料→ LLM 总结内容→ 调用 Tool 生成结果→ 输出最终答案3.6 LangChain,AI应用开发框架LangChain 就是一个专门用来搭建 AI 应用的框架帮你把这些能力组织起来。它主要解决三件事封装 LLM 调用不同模型统一接口提供 RAG 能力embedding、检索、向量库支持 Agent 和 Workflow 编排LangChain,Skill,Workflow对比程序员直接写代码用LangChain框架把流程写死稳定但不灵活。不会代码的用Workflow工作流像搭积木一样拖拽简单但还是不够灵活。想又灵活又省事用Skill技能。四.技术层4.1 API,AI能力的出口API是标准化的软件接口这个搞开发的肯定熟悉。AI API就是让你在自己的应用里面调用AI能力的通道。不用自己训练模型按用量付费接上就能用。主流AI API提供商OpenAIGPT系列AnthropicClaude系列GoogleGemini国内文心、通义、混元调用方式都是RESTful API发HTTP请求传JSON参数没多复杂。4.2 MCP,新兴的协议标准MCP是Anthropic提出的开放协议全称Model Context Protocol。解决的问题是以前AI连接外部工具每个组合都得单独开发。N个AI乘M个工具是N乘M的工作量。MCP搞了个统一标准传统每个AI × 每个工具 N×M次开发MCP每个工具实现一次MCP → 所有支持MCP的AI都能用这就像USB接口统一了各种外设一样一次开发到处使用。4.3 AIIDE,开发新范式Cursor是第一个真正意义上的AI原生IDE内置了GPT-4和Claude。几个核心功能聊天基于整个项目上下文CmdK跨文件编辑自动代码生成和解释用Cursor写代码真的快很多。尤其是不熟悉的语言或者框架让AI先跑一遍自己再 review 就行。4.4 Vibe Coding,自然语言驱动开发核心思路你描述你想要什么AI生成代码。你的角色从打字员变成了产品经理评审。你负责想清楚要什么产品设计描述清楚需求Review AI生成的代码做决策AI负责代码实现语法正确性基础测试现在很多非程序员都在用这个方式做自己的小工具、产品原型。门槛真的降低了很多。实战串联拿企业智能助手这个场景举例用户说“帮我查一下Q1销售数据做成PPT”Agent接管之后大概会这样执行第一步规划。拆解成几个子任务——查数据、分析数据、生成PPT内容。第二步Tool调用。用数据库查询Tool拿到Q1销售数据。第三步RAG检索。查一下有没有历史销售报告模板或者分析框架可以参考。第四步LLM处理。分析数据提取关键洞察。第五步Skill执行。调用PPT生成Skill按模板填充内容。第六步返回结果。整个过程用户只说了一句话。简要概括概念作用实践要点LLM语言理解和生成选型看场景Token计量和处理单元控制长度省成本Context记忆上限注意截断Prompt交互指令结构化表达RAG知识增强检索质量很重要Tool能力扩展判断调用时机Skill流程封装复用和组合Agent自主执行规划反思机制API能力输出RESTful调用MCP协议标准一次对接多处复用Vibe Coding自然语言开发关注需求而非语法总结AI 应用开发的核心知识体系其实可以压缩成一条清晰的分层结构LLM 是核心引擎——决定整个系统的智能上限需要理解它的能力边界上下文、推理能力、幻觉问题等。Prompt 是交互接口——所有能力调用的入口本质是“如何正确指挥模型”。RAG / Tool / Skill 是能力扩展层——RAG负责补知识Tool负责连外部世界Skill负责封装可复用能力让模型从“会说”变成“能做”。Agent 是执行进化层——从单次问答升级为目标驱动的任务执行者能够规划、拆解、调用工具并完成闭环。Workflow / Agent Team / SubAgent 是系统组织方式——解决复杂任务的结构化编排与分工协作问题。API / MCP 是基础设施层——统一连接模型、工具与外部系统是AI应用真正落地的工程接口。LangChain 等框架是工程封装层——把上述能力标准化、模块化降低构建复杂AI系统的成本。Vibe Coding 是开发范式——改变人和AI的协作方式让自然语言成为新的“编程语言”。地基打好了上层怎么变化都能跟上。

告别HAL库臃肿代码：手把手教你为STM32F0 SPI DMA编写轻量级驱动

STM32F0 SPI DMA驱动优化实战：从HAL库到寄存器级精简在嵌入式开发领域，SPIDMA的组合一直是实现高效数据传输的黄金搭档。但当遇到对时序要求严苛的应用场景时，标准HAL库的通用性设计往往会成为性能瓶颈。本文将带您深入STM32F0的SPI DMA驱动…...

2026/4/20 9:57:12 阅读更多 →

终极指南：如何在iOS 17-26系统上安全越狱并解锁iPhone隐藏功能

终极指南：如何在iOS 17-26系统上安全越狱并解锁iPhone隐藏功能【免费下载链接】Jailbreak iOS 26.4 - 26, 17 - 17.7.5 & iOS 18 - 18.7.3 Jailbreak Tools, Cydia/Sileo/Zebra Tweaks & Jailbreak News Updates || AI Jailbreak Finder 👇 项…...

2026/4/20 9:55:20 阅读更多 →