人工智能发展简史：从图灵测试到 GPT-5

张

张建站

2026/4/20 22:07:05

10分钟阅读

人工智能发展简史从图灵测试到 GPT-5完整记录 AI 从诞生到大模型时代的每一个关键里程碑目录奠基时代1950-1980AI 的诞生专家系统时代1980-2000第一次 AI 浪潮机器学习时代2000-2012统计方法崛起深度学习革命2012-2017神经网络的复兴Transformer 时代2017-2020注意力机制的革命大模型爆发2020-2022GPT 引领生成式 AIChatGPT 时刻2022-2023AI 平民化元年多模态与 Agent2023-2024AI 能力跃迁推理与自主2024-2025AI 的下一个前沿未来展望2025通往 AGI 之路奠基时代1950-1980AI 的诞生1950 年图灵测试艾伦·图灵Alan Turing发表《计算机器与智能》提出著名的图灵测试“如果一台机器能够与人类展开对话而不被辨别出其机器身份那么这台机器就具有智能。”这是人工智能概念的最早理论奠基。1956 年达特茅斯会议 —— AI 正式诞生时间1956 年夏季地点美国达特茅斯学院发起人约翰·麦卡锡John McCarthy、马文·明斯基Marvin Minsky、克劳德·香农Claude Shannon、纳撒尼尔·罗切斯特Nathaniel Rochester历史意义首次提出人工智能Artificial Intelligence这一术语确立了 AI 作为独立学科的地位汇聚了当时最顶尖的科学家奠定了符号主义 AI 的基础会议预言过于乐观“我们认为在一代人时间内机器将能够完成任何人类能够完成的智力任务。”1957 年感知机Perceptron弗兰克·罗森布拉特Frank Rosenblatt发明感知机这是最早的人工神经网络模型。特点能够学习简单的线性分类任务为后来的神经网络奠定基础但无法解决 XOR 问题1969 年被明斯基和佩珀特证明1966 年ELIZA 聊天机器人约瑟夫·魏泽鲍姆Joseph Weizenbaum开发 ELIZA模拟心理治疗师对话。意义最早的对话系统之一展示了简单的模式匹配就能产生智能的错觉引发了关于机器能否真正理解语言的哲学讨论1970 年代第一次 AI 寒冬背景早期承诺过于乐观实际进展缓慢计算能力严重不足资金削减研究陷入停滞标志性事件1973 年《莱特希尔报告》批评 AI 研究未能兑现承诺英国政府大幅削减 AI 研究经费美国 DARPA 也减少了对 AI 的资助专家系统时代1980-2000第一次 AI 浪潮1980 年代专家系统兴起核心思想将人类专家的知识编码为规则让计算机模拟专家决策。代表系统系统领域开发者MYCIN医学诊断斯坦福大学DENDRAL化学分析斯坦福大学XCON计算机配置卡内基梅隆大学技术特点基于规则的推理IF-THEN知识库推理引擎架构在特定窄域表现优异局限性知识获取瓶颈专家难以表达隐性知识缺乏学习能力无法处理不确定性1997 年深蓝击败国际象棋世界冠军时间1997 年 5 月 11 日事件IBM 深蓝Deep Blue击败加里·卡斯帕罗夫Garry Kasparov技术细节专用硬件30 个 IBM RS/6000 处理器 480 个专用象棋芯片算力每秒评估 2 亿个棋局算法暴力搜索启发式评估函数历史意义首次在复杂智力游戏中击败人类世界冠军标志着专用 AI 系统在特定领域可以超越人类但并非真正的智能而是计算能力的胜利1990 年代机器学习兴起统计方法取代符号方法数据驱动而非规则驱动概率模型、贝叶斯网络支持向量机SVM随机森林自然语言处理统计机器翻译取代规则翻译IBM 的 Candide 系统基于语料库的方法机器学习时代2000-2012统计方法崛起2006 年深度学习元年杰弗里·辛顿Geoffrey Hinton等人发表深度信念网络DBN论文“深度学习”Deep Learning术语开始流行。关键突破解决了深层神经网络的训练难题逐层预训练反向传播开启了神经网络复兴的序幕三巨头科学家贡献2018 年图灵奖得主Geoffrey Hinton反向传播、玻尔兹曼机、深度学习✅Yann LeCun卷积神经网络CNN✅Yoshua Bengio循环神经网络、注意力机制✅2009 年ImageNet 数据集发布李飞飞Fei-Fei Li发布 ImageNet包含 1400 万张标注图片2 万多个类别。意义为计算机视觉提供大规模基准测试催生了 ImageNet 挑战赛ILSVRC成为深度学习爆发的催化剂2011 年IBM Watson 赢得《危险边缘》事件IBM Watson 在智力问答节目《危险边缘》Jeopardy!中击败人类冠军。技术特点自然语言理解知识图谱多策略集成但仍是专用系统不具备通用性深度学习革命2012-2017神经网络的复兴2012 年AlexNet —— 深度学习爆发的标志性事件时间2012 年 10 月事件AlexNet 赢得 ImageNet 挑战赛错误率比第二名低 10.8%技术细节参数数值网络深度8 层参数量6000 万激活函数ReLU正则化Dropout硬件2 块 GTX 580 GPU关键创新ReLU 激活函数解决梯度消失Dropout 防止过拟合GPU 加速训练历史意义证明了深度神经网络在计算机视觉的有效性开启了深度学习革命引发了工业界对 AI 的投资热潮2014 年生成对抗网络GAN伊恩·古德费洛Ian Goodfellow提出 GAN包含生成器和判别器两个网络。公式min_G max_D V(D, G) E[log D(x)] E[log(1 - D(G(z)))]应用图像生成风格迁移超分辨率数据增强2014 年神经机器翻译NMT序列到序列Seq2Seq模型出现使用编码器-解码器架构。特点端到端学习无需人工设计特征翻译质量大幅提升2016 年AlphaGo 击败李世石时间2016 年 3 月事件DeepMind 的 AlphaGo 4:1 击败围棋世界冠军李世石技术架构组件方法策略网络监督学习强化学习价值网络预测棋局胜率蒙特卡洛树搜索决策历史意义围棋被视为人类最后的智力堡垒10^170 种可能证明了深度强化学习的威力引发了全球对 AI 的关注2016 年TensorFlow 开源谷歌开源 TensorFlow成为最流行的深度学习框架之一。后续框架框架发布开发者TensorFlow2016GooglePyTorch2016FacebookKeras2015François CholletTransformer 时代2017-2020注意力机制的革命2017 年 6 月Transformer 架构 —— “Attention Is All You Need”论文Google Brain 团队发表《Attention Is All You Need》核心创新完全基于注意力机制无需 RNN 或 CNN并行计算训练速度大幅提升长距离依赖建模能力强架构组件Transformer Encoder Decoder Multi-Head Attention Feed Forward Layer Norm注意力公式Attention(Q, K, V) softmax(QK^T / √d_k)V历史意义奠定了现代大语言模型的基础架构GPT、BERT、T5 等模型都基于此被称为AI 的 Transformer 时刻2018 年 6 月GPT-1 —— 生成式预训练OpenAI 发布 GPT-1Generative Pre-trained Transformer技术细节参数数值参数量1.17 亿层数12 层注意力头12 个训练数据BookCorpus约 5GB核心思想无监督预训练有监督微调证明了生成式预训练的有效性大力出奇迹的雏形2018 年 10 月BERT —— 双向编码器谷歌发布 BERTBidirectional Encoder Representations from Transformers技术细节参数BERT-BaseBERT-Large参数量1.1 亿3.4 亿层数1224隐藏层维度7681024核心创新双向上下文理解Masked Language ModelMLM在 11 项 NLP 任务上取得 SOTA影响开启了预训练微调的范式成为 NLP 的标准做法与 GPT 形成编码器 vs 解码器两大路线2019 年 2 月GPT-2 —— 规模化的威力OpenAI 发布 GPT-2技术细节参数数值参数量15 亿层数48 层训练数据WebText40GB争议OpenAI 最初拒绝发布完整模型称太危险担心被用于生成假新闻引发 AI 伦理讨论能力展示生成连贯的多段落文本零样本Zero-shot学习能力提示了 Scaling Law 的存在2020 年 5 月GPT-3 —— 大模型时代的开端OpenAI 发布 GPT-3震撼整个 AI 界。技术细节参数GPT-3 SmallGPT-3 MediumGPT-3 LargeGPT-3 XL参数量1.25 亿3.5 亿13 亿67 亿GPT-31750 亿---训练数据Common Crawl过滤后约 410B tokensWebText2Books1、Books2Wikipedia核心能力上下文学习In-context Learning无需微调通过提示即可完成任务少样本学习Few-shot给几个例子就能学会新任务零样本学习Zero-shot直接描述任务就能执行标志性示例翻译任务英语I love you 法语Je taime 英语Good morning 法语 GPT-3 输出Bonjour历史意义证明了规模即智能Scale is All You Need开启了千亿参数模型时代催生了提示工程Prompt Engineering2020 年其他重要模型模型开发者特点T5GoogleText-to-Text 统一框架ELECTRAGoogle判别式预训练ALBERTGoogle参数共享轻量化大模型爆发2020-2022GPT 引领生成式 AI2021 年多模态与代码模型CLIPOpenAI连接图像和文本理解一张猫的图片和cat是同一概念为零样本图像分类开辟道路DALL-EOpenAI文本生成图像展示了 Transformer 在视觉的潜力GitHub CopilotOpenAI GitHub基于 Codex 模型AI 辅助编程的开端改变了软件开发方式2022 年Stable Diffusion 开源Stability AI 发布 Stable Diffusion文本生成图像模型开源。影响降低了 AI 图像生成的门槛催生了 AI 艺术热潮引发版权和伦理争议2022 年ChatGPT 前夜InstructGPT2022 年 3 月引入 RLHF人类反馈强化学习让模型更符合人类意图ChatGPT 的直接前身ChatGPT 时刻2022-2023AI 平民化元年2022 年 11 月 30 日ChatGPT 发布 —— AI 的 iPhone 时刻OpenAI 发布 ChatGPT基于 GPT-3.5 架构。技术细节参数数值基础模型GPT-3.5训练方法RLHF对话优化多轮对话微调为什么 ChatGPT 如此成功易用性自然语言交互无需技术背景实用性写作、编程、翻译、问答样样精通免费降低了尝试门槛病毒式传播5 天用户破百万2 个月破亿社会反响全球媒体头条教育界恐慌学生用它写作业科技巨头紧急响应引发 AI 投资热潮2023 年大模型军备竞赛OpenAI时间模型特点2023.03GPT-4多模态推理能力大幅提升2023.09GPT-4V视觉理解2023.11GPT-4 Turbo128K 上下文更便宜GPT-4 细节参数数值参数量估计 1.8 万亿MoE 架构上下文8K / 32K多模态支持图像输入考试能力通过律师资格考试前 10%GoogleBard基于 LaMDA后改用 GeminiGemini 系列原生多模态AnthropicClaude 系列强调安全性和有用性长上下文100K tokensMetaLLaMA开源引发开源大模型热潮LLaMA 2可商用中国大模型公司模型时间百度文心一言2023.03阿里通义千问2023.04智谱ChatGLM2023讯飞星火2023腾讯混元20232023 年开源大模型生态LLaMAMeta7B、13B、33B、65B 参数性能接近 GPT-3开源引发二次开发热潮Alpaca斯坦福基于 LLaMA 7B低成本微调$600证明了小模型也能有不错表现Vicuna基于 LLaMAShareGPT 数据微调达到 ChatGPT 90% 水平生态影响降低了大模型开发门槛催生了大量垂直领域模型推动了 AI 民主化多模态与 Agent2023-2024AI 能力跃迁2023 年多模态大模型GPT-4V2023.09理解图像内容图表分析OCR 能力Gemini2023.12Google 原生多模态模型文本、图像、音频、视频统一处理2024 年视频生成突破SoraOpenAI2024.02文本生成视频最长 60 秒高质量、连贯性强引发现实世界模拟器讨论其他视频模型模型开发者特点Runway Gen-2Runway视频生成编辑PikaPika Labs短视频生成Stable VideoStability AI开源视频生成2024 年AI Agent 元年核心概念AI Agent 大模型工具记忆规划代表产品产品开发者特点AutoGPT开源自主任务执行GPTsOpenAI自定义 AgentClaude Computer UseAnthropic控制计算机DevinCognitionAI 软件工程师技术栈LangChainLangGraphAutoGenCrewAI推理与自主2024-2025AI 的下一个前沿2024 年推理模型突破OpenAI o12024.09专注推理能力思维链Chain of Thought内化数学、编程、科学问题大幅提升DeepSeek R12025.01开源推理模型性能接近 o1引发全球关注2025 年GPT-5 与新一代模型趋势模型能力持续快速提升多模态成为标配推理能力成为新战场Agent 能力不断增强技术方向测试时计算Test-time Compute强化学习优化工具使用自动化长期记忆和规划未来展望2025通往 AGI 之路什么是 AGI定义通用人工智能Artificial General Intelligence指具备人类水平通用认知能力的 AI。特征跨领域学习和迁移自主学习和适应常识推理创造性思维自我意识争议通往 AGI 的路径路径代表观点规模扩展OpenAI继续扩大模型规模神经符号DeepMind结合神经网络和符号推理世界模型Yann LeCun构建世界内部模型具身智能机器人领域通过物理交互学习关键挑战对齐问题Alignment确保 AI 目标与人类一致可解释性理解 AI 决策过程安全性防止恶意使用和失控计算资源训练和运行成本数据瓶颈高质量数据耗尽时间预测专家意见专家预测观点Ray Kurzweil2029乐观派Elon Musk2029接近人类水平Geoffrey Hinton不确定警告风险Yann LeCun很远当前路线不对主流 AI 研究者20-50 年谨慎乐观关键数据总结模型参数增长2018 GPT-1 1.17 亿 2019 GPT-2 15 亿 2020 GPT-3 175 亿 2022 PaLM 540 亿 2023 GPT-4 约 1.8 万亿MoE规律每年增长约 10 倍持续约 5 年训练成本模型估计成本GPT-3$460 万GPT-4$1 亿Gemini Ultra$2 亿能力里程碑时间里程碑1997国际象棋深蓝2016围棋AlphaGo2020文本生成GPT-32022对话ChatGPT2023多模态GPT-4V2024视频Sora2024推理o1总结AI 发展的三大范式转移第一次从规则到统计1990s-2000s专家系统 → 机器学习人工设计特征 → 数据驱动第二次从浅层到深层2012-2017手工特征 → 神经网络自动学习浅层模型 → 深度模型第三次从判别到生成2017-至今判别任务 → 生成任务专用模型 → 通用大模型监督学习 → 自监督学习单模态 → 多模态参考资源经典论文论文年份意义Attention Is All You Need2017Transformer 架构ImageNet Classification with Deep CNNs2012AlexNetMastering the Game of Go2016AlphaGoLanguage Models are Few-Shot Learners2020GPT-3Training language models to follow instructions2022InstructGPT推荐书籍《人工智能一种现代的方法》Stuart Russell《深度学习》Ian Goodfellow《生命 3.0》Max Tegmark关注人物人物贡献Geoffrey Hinton深度学习之父Yann LeCunCNN、Meta AI 首席科学家Yoshua Bengio序列建模、注意力机制Ilya SutskeverOpenAI 联合创始人Andrej KarpathyTesla AI、OpenAI李飞飞ImageNet、AI 民主化文档版本v1.0最后更新2026年4月字数约 12,000 字

从战场到物流：拆解异构无人机集群的‘大脑’——任务规划核心模型与避坑要点

从战场到物流：拆解异构无人机集群的‘大脑’——任务规划核心模型与避坑要点当你在山区看到无人机群精准投递医疗物资，或在万亩农田上空同步完成喷洒与监测时，背后是任务规划系统在实时处理数百个动态变量。这套系统正从军事领域快速渗透到民…...

2026/4/20 22:03:15 阅读更多 →

Windows下跑PyTorch模型，一验证就报CUDA device-side assert？试试把DataLoader的num_workers设为0

Windows下PyTorch验证阶段CUDA报错的深度分析与解决方案引言在Windows平台上使用PyTorch进行深度学习模型训练时，许多开发者都遇到过这样的场景：训练过程一切正常，但一到验证阶段就突然抛出RuntimeError: CUDA error: device-side assert t…...

2026/4/20 22:01:37 阅读更多 →