从 RNN 到 GPT:大模型架构演化史
网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、RNN第一次让 AI 拥有「记忆」二、为什么 RNN 注定会失败三、LSTM给 RNN 加了一块「记忆芯片」四、Transformer真正改变世界的是并行计算五、为什么最终赢的是 GPT而不是 BERT六、MoE参数越来越大成本却越来越低七、AgentAI 正在从模型演变成系统总结AI 架构演化的真正主线引言过去十几年大模型架构几乎每隔几年就会发生一次革命。很多人看到的是RNN ↓ LSTM ↓ Transformer ↓ GPT ↓ MoE ↓ Agent但真正推动这条演化路线的并不是论文而是一个始终没有改变的问题如何让 AI 更好地理解上下文同时以更低的成本完成更复杂的任务回顾整个 AI 架构的发展你会发现每一代模型其实都在解决上一代留下的瓶颈。今天我们就从系统架构的角度回顾这十几年的 AI 架构演化史。一、RNN第一次让 AI 拥有「记忆」在 RNN 出现之前大多数神经网络都是输入 ↓ 计算 ↓ 输出每个词都是独立处理模型根本不知道今天 天气 很好三个词之间存在关联。RNN 引入了 Hidden State把上一时刻的信息传递给下一时刻。整个流程变成Token1 ↓ Hidden State ↓ Token2 ↓ Hidden State ↓ Token3模型第一次拥有了上下文 顺序 短期记忆机器翻译、语音识别等任务因此取得了巨大突破。二、为什么 RNN 注定会失败RNN 最大的问题不是效果而是架构。所有 Token 都必须按顺序计算Token1 ↓ Token2 ↓ Token3无法并行而 GPU 最擅长的是矩阵计算随着模型越来越大GPU 的计算能力越来越强但 RNN 却无法充分利用这些算力。同时Hidden State 还会随着序列变长不断衰减导致经典的问题梯度消失 长期依赖因此RNN 的瓶颈其实不是算法而是计算架构。三、LSTM给 RNN 加了一块「记忆芯片」LSTM 可以理解为升级版 RNN它引入了 Memory Cell并增加Forget Gate Input Gate Output Gate三种门控机制模型终于可以决定哪些信息保留 哪些信息遗忘相比普通 RNNLSTM 能够处理更长的文本也成为 NLP 的主流架构。但遗憾的是它依然保留了 RNN 最大的问题串行计算。GPU 利用率始终提不上来。四、Transformer真正改变世界的是并行计算2017 年《Attention Is All You Need》发布。很多人认为Transformer 最大的创新是 Self-Attention。其实从工程角度来看真正改变 AI 世界的是Transformer 第一次真正拥抱了 GPU。过去Token1 ↓ Token2 ↓ Token3必须依次执行现在所有 Token ↓ 同时进入 Self-Attention ↓ 并行计算训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题还让 GPU 的计算能力得到充分释放。AI 开始进入 Scale Up 时代。五、为什么最终赢的是 GPT而不是 BERTTransformer 发布之后最先爆火的是BERT它采用 Encoder Only 架构理解能力很强。但真正改变行业的是 GPT。原因在于 GPT 采用了 Decoder Only 架构训练目标非常简单预测下一个 Token这种方式更容易扩展参数 扩展数据 扩展算力于是 OpenAI 发现了著名的Scaling Law模型越大数据越多算力越强模型能力几乎持续提升。GPT 真正改变世界的并不是架构而是证明了模型可以通过持续扩大规模不断获得更强能力。六、MoE参数越来越大成本却越来越低随着 GPT 参数不断增长一个新的问题出现了。例如600B 参数每生成一个 Token都需要激活全部参数。推理成本急剧增加于是 MoEMixture of Experts开始流行。它把模型拆成多个 ExpertRouter ↓ Expert 1 Expert 8 Expert 21每次推理只激活少量 Expert。例如671B 参数 ↓ 仅激活 37B模型能力保持增长而推理成本却大幅下降。DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。七、AgentAI 正在从模型演变成系统今天大模型的发展方向已经不再只是更大的参数 更高的分数而是Planner Memory Tool Workflow Runtime越来越多能力开始从模型内部迁移到系统架构。传统 GPTPrompt ↓ LLM ↓ ResponseAgentGoal ↓ Planner ↓ Tool ↓ Memory ↓ LLM ↓ Execution此时大模型更像 CPU。真正负责完成任务的是 Runtime。AI 正在从一个模型演变成一个完整的智能系统。总结AI 架构演化的真正主线如果回顾过去十几年的发展会发现每一次架构升级其实都是为了突破一个工程瓶颈。传统神经网络 │ ▼ RNN解决上下文 │ ▼ LSTM解决长期依赖 │ ▼ Transformer解决并行计算 │ ▼ GPT解决规模扩展 │ ▼ MoE解决推理成本 │ ▼ Agent解决任务执行换句话说AI 架构的发展从来不是简单的技术迭代而是一场围绕记忆、计算、扩展、成本和执行能力展开的持续演进。过去十年行业竞争的是谁的模型更大。未来十年更重要的问题可能变成谁的智能系统效率更高。因为对于下一代 AI 来说Transformer、GPT、MoE 都只是智能的基础组件而真正决定生产力的将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。