10万引普林斯顿刘壮最新访谈:架构没那么重要,数据才是王道
听雨 发自 凹非寺量子位 | 公众号 QbitAI引用量超过10万次清华姚班校友ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——普林斯顿大学助理教授刘壮在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。架构真的重要吗数据集真的足够多样吗归一化层是必需的吗大语言模型有世界模型吗AI智能体能替代博士生吗在《信息瓶颈》的最新播客中刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈解答了这些问题。刘壮给出了几个核心判断太长不看版1、架构选什么没你想的重要。只要把残差连接、自注意力、归一化层、线性层这四大基础做对不管用ConvNet还是Transformer最终都会落在同一条性能曲线上。过去十年真正推动AI进步的是更大程度上是数据规模和计算规模而不只是架构创新。2、数据集远没有我们以为的多样。他和何恺明做了一个实验训练神经网络来判断一张图片来自哪个数据集。结果在三个号称“多样化”的亿级数据集上准确率高达80% 以上——说明这些数据集在模型眼里仍然泾渭分明距离“无偏的全球分布”还差得远。3、大语言模型有世界模型但只在语言空间里。LLM在高层次事件推理上表现出色但视觉空间的精细世界模型我们还没有——根本原因是视觉数据的信息密度太高现有算力还处理不了。而且对于超过一半的工作场景尤其是数字化的白领工作根本不需要视觉世界模型。4、记忆才是当前最大的瓶颈不是能力。现有模型的推理能力已经足够强真正缺的是稳定的长期记忆。我们需要那么多智能体协作恰恰是因为一个智能体记不住所有事情。5、自主科研还没到位AI替代不了研究生。他亲自测试过让Claude Code在一两天内独立完成一个研究项目。结论是低层次任务还行但提出有意思的问题、设计实验、保持方向感——这些还做不到。整个访谈有一条隐藏的主线我们在AI领域里奉为圭臬的很多东西其实是历史偶然。而真正决定成败的往往是那些更朴素、更无聊的因素——数据、规模、记忆。以下是量子位梳理的刘壮最新访谈为便于理解有部分删减和润色并在必要的地方添加了编者注各位enjoy~架构没那么重要但细节决定一切编者注2020年前后计算机视觉领域掀起了一场“Transformer热”。2020年Google Brain提出的视觉TransformerViT横空出世整个视觉社区迅速向它迁移传统的卷积神经网络ConvNet被普遍认为已经落伍。2022年刘壮团队发表ConvNeXt把经典的 ResNet 架构一步步“现代化”最终让它在性能上追平了当时最强的视觉Transformer——结论令人意外两者的差距并非来自架构本身而是来自训练方案的不同。Ravid今天我们会聊聊你的一些论文。总体上我们要探讨当今AI中真正重要的组成部分是什么。你的研究成果很多我想我们可以从“哪些组件最关键”开始。几年前你发表了一篇关于“面向2020年代的卷积神经网络”的论文。你能先介绍一下这篇论文然后我们再来拆解当前AI系统的各个组成部分吗刘壮嗯当然。那是一段非常有趣的经历。这篇论文我们是在2021年写的那时候Transformer刚刚通过视觉Transformer的引入进入了计算机视觉领域整个视觉社区都在从传统的卷积网络切换到视觉Transformer性能也越来越好。在这项工作中我们想研究ConvNet是否真的已经丧失了竞争力是否有可能通过系统性地控制所有设计细节来验证ConvNet能否被现代化、达到当时视觉Transformer的水平我们想搞清楚Transformer和ConvNet之间看似存在的性能差距究竟是源于架构本质的不同——比如用自注意力还是卷积——还是源于一些看似微小的设计细节。最终我们发现答案是后者。经过大量对ConvNet各组件的研究我们最终让模型在多种任务上达到了当时最强视觉 Transformer 的水平。这说明无论选择ConvNet还是视觉Transformer只要把所有细节都做对就能在视觉任务上达到同等的前沿性能。Ravid你现在还相信这一点吗你还认为架构其实并不重要吗刘壮我不会这么说——总体上我倾向于认同但我不会说架构不重要。我的意思是只要你把所有细节都做对只要你对设计空间探索得足够充分就会收敛到一个类似“帕累托前沿”的点——在精度和效率之间取得最佳平衡。要突破这条前沿线是非常困难的。我觉得过去这么多年除了几年前已经成熟的那些架构之外真正被广泛采用的架构创新其实并不多。不过这个探索过程本身非常有趣。最近一些开源模型公司比如Kimi、DeepSeek还在不断折腾架构比如怎么改残差连接、怎么连接不同层我非常尊重这类工作。事实上学术界现在架构研究没那么活跃部分原因是我们负担不起用足够说服力的规模来验证这些效果所需的计算资源。但我自己还是会用学校的资源去尝试。现在有了Claude Code的帮助我可以自己动手写代码去探索这非常有趣。从实用角度来看我认为我们用什么数据训练模型比选择什么架构更重要——前提是输入输出接口不变。架构本质上是我们参数化函数近似器的方式这是神经网络或深度学习最基本的功能。只要你把几件事做对比如用残差连接、用自注意力或其他合理的机制、在合适的位置放激活函数和前馈层你就能非常接近甚至达到性能与效率的前沿曲线。从实际应用的角度我认为更重要的是这个模型用什么数据训练的它怎么处理上下文和记忆在上下文和记忆这方面确实有一些架构工作在解决这个问题。我觉得这才是让AI再上一个台阶最迫切需要解决的问题。Allen根据我的理解你们是把ResNet逐步往类似Swin Transformer的设计方向现代化最终得到一个能与 Transformer强力竞争的ConvNet。在那篇论文里哪一个消融实验最让你对“Transformer的优势究竟从何而来”改变了看法编者注消融实验ablation study是深度学习研究中的常用方法指的是逐一去掉或改变模型中的某个组件观察性能如何变化以此判断每个组件的贡献大小。刘壮哪一个我觉得是每一个。你看那张图没有任何单一改动能大幅拉升性能。有些改动比其他的更有效但没有哪一个能改变一切。△ConvNeXt论文的Figure 2展示了ResNet现代化的完整过程和每一步对应的性能变化也许激活函数的使用以及减少归一化层的数量是让我比较感兴趣、也有明显性能提升的一个点。但真正起作用的是把所有改动叠加在一起。这些看似微小的组件当我们把它们组合起来的时候产生的性能差距是那种通常只有把卷积换成自注意力这种大改动才能带来的效果。所以我认为这篇论文最大的启示是这些小细节组合在一起比那些看起来很核心的网络组件影响更大。Ravid对我来说感觉我们是在大量尝试各种东西有些起效了模型就变好了。然后回过头来我们才开始真正理解哪些组件是关键的。你觉得我们是需要先有突破再回头理解细节还是说我们只需要反复试错不需要明确的方向刘壮Transformer对整个社区来说绝对是一个福音把Transformer引入计算机视觉这件事意义重大。是那几年里绝对是最重要的突破之一。但视觉Transformer还有另一个好处就是它实现了文本和图像表示的统一。Transformer的使用对后来的发展非常关键比如LLaVA这类多模态框架——用视觉编码器把图像编码成token然后和文本 token 一起输入到下游的大语言模型里。这是现在很多多模态模型的基本框架。编者注LLaVALarge Language and Vision Assistant是2023年提出的一种多模态大语言模型框架将图像编码器通常是CLIP和大语言模型如LLaMA连接起来让模型能同时理解图像和文字。这一框架成为后来GPT-4V、Gemini等多模态模型的基础思路。回到我们的研究这种对细节的深入分析我觉得更像是一堂课。它改变了我自己的认知也改变了很多人的认知这让我更引以为傲。当然人们还是可以继续用ConvNet它也有自己的优势尤其是在纯视觉任务里部署方便比较容易理解也因为操作是局部的所以对更高分辨率和长序列有更好的支持。两种架构只是在不同地方各有所长。Ravid好架构不那么重要——你还有一篇更近的论文证明了归一化层也不那么重要对吗基本上可以用双曲正切激活函数来取代归一化层只需要一些调整但效果一样好。那你觉得真正重要的核心组件是什么而且为什么好的AI模型只是在最近五年才出现而不是十年前编者注这里指的是2025年刘壮与Yann LeCun等人合作发表的论文《Transformers Without Normalization》。归一化层Normalization Layer是现代神经网络中几乎无处不在的组件最常见的是LayerNorm它的作用是稳定训练过程、加速收敛。这篇论文用一种称为“动态双曲正切dynamic tanh”的激活函数替换了LayerNorm在多种设置下仍能与标准Transformer持平甚至更好。刘壮这是个好问题。首先Transformer大约是十年前提出来的九年前吧。所以在那之后很长一段时间里我们基本还是沿用类似的基本框架只有一些小改动比如激活层、专家混合不是每次都用、局部注意力、滑动窗口注意力等但核心框架和九年前论文刚出来时基本一样。所以我的答案是数据以及训练时使用的计算规模。这就像GPT-1到GPT-3的经典故事——基本上是同一个模型用更多计算量、更多数据、更多样化的数据、更大规模的互联网数据来训练就得到了我们现在看到的这些强大能力。所以我会把这归因于数据其次是算力。我认为数据是主要因素因为现在大多数模型训练的epoch数都不超过一个。编者注Epoch指的是模型把整个训练数据集完整过一遍的次数。“不超过一个 epoch”意味着模型甚至没有把所有数据看第二遍——这说明数据的总量和多样性比反复训练同一批数据更关键。Allen我注意到你的研究有一个贯穿始终的论点就是这个领域常常把架构和训练方案混为一谈。如果你要为今天的架构论文设定规则在有人声称某种架构选择有价值之前你会要求哪些控制条件刘壮好在理想世界里我们有无限计算资源对吧首先我会要求在一定规模上验证效果不一定是前沿模型但至少要在70亿、300亿参数这个量级。规模对工业界来说很重要只有在这个规模上大家才真的会相信你的改动有效。当然这并不总是可行的。其次如果你要在较小规模上研究架构变化我会要求首先做超参数搜索。你不能只在一组超参数下证明新架构比旧架构好尤其是当这组超参数是专门为这个新模型调过的。每个模型都应该在各自最优的超参数下进行比较最重要的超参数是学习率、衰减、优化器类型。让我很烦的一件事是有人甚至不去调基线模型的学习率只调自己方法的然后就声称有效——这是导致很多”结果无法泛化”的最常见的问题所在。第三我会要求这个想法或方法在不止一个数据集上得到验证最好是在一个合理规模的数据集上。ImageNet今天仍然适用但理想情况下还应该在一些小规模的大语言模型上验证比如在FineWeb上训练。我非常赞成在多样的数据集上验证想法至少要在领域内常用的数据集上。这就是我会提的几个标准。编者注FineWeb是Hugging Face于2024年发布的大规模网页文本数据集经过严格清洗常被用作语言模型预训练的基准数据集。Ravid如果一个想法是真正好的它是否应该在不同领域、不同数据集、不同场景下都有效还是说有些非常好的想法只适用于非常特定的场景刘壮我认为两种都同样有价值。在第二种情况下我希望研究者能清楚地说明这个方法在什么特定场景下更好仍然应该在不止一个数据集上验证。如果你声称你的模型在长上下文音频上效果更好你仍然可以在这个方向上用多个数据集测试。同时要解释清楚为什么这个方法在这个特定领域好为什么在其他领域不好然后从这里出发去解决那些弱点。这就是研究的价值所在——你不需要第一步就全面成功那固然很好但不是必须的。数据集没你想的那么“多样”编者注这部分讨论应指刘壮与何恺明合作发表的论文《A Decade’s Battle on Dataset Bias: Are We There Yet?》研究动机是我们一直以为主流视觉数据集越来越多样、越来越全面但真的是这样吗Ravid好那我们来聊聊数据。你说数据是最重要的。具体是数据的哪些方面我们先从你那篇关于“数据集偏差的几十年之争”的论文说起。你们的研究动机是什么刘壮这篇论文主要聚焦在视觉领域。多年来人们一直在从越来越多样化的来源构建越来越大的数据集——从最初的MNIST到CIFAR再到ImageNet再到互联网规模的 DataComp、Google 的 Conceptual Captions 等。这些数据集看起来越来越多样规模从几万张到十亿级别。大家很自然地会认为我们已经收集了互联网上能拿到的所有东西数据集应该足够了吧编者注MNIST是手写数字识别数据集约7万张图片CIFAR是小图像分类数据集约6万张ImageNet是目前最权威的图像识别基准约120万张DataComp和Conceptual Captions则是十亿级别的互联网图文对数据集。这条发展脉络代表了过去二十年视觉数据集规模的指数级扩张。但在我们的初步实验里我们发现这些数据集彼此之间其实差异极大。我们是怎么衡量的呢我们设计了一个非常“蠢”的实验——从深度学习训练的角度来看完全没有实际意义。我们做的是给定三个很大的数据集训练一个神经网络来判断一张图片来自哪个数据集。这不是什么实际问题只是想猜测图片的来源是个多分类问题。结果发现在这三个看似非常多样化的数据集上模型仍然能以超过80%的准确率回答这个问题。而随机猜测的准确率是33%模型的准确率远远超过这个基线。这意味着在模型看来这些数据集仍然非常不同有非常清晰的线索让模型判断图片来自哪里。当然我们是在留出的验证集上做测试不是在训练集上猜。这促使我们反思我们真的成功构建了一个大规模、全面覆盖的数据集了吗什么样的数据才是终极目标这个“无偏的全球分布数据集”本身就很难定义不同的人可能有不同的标准。大语言模型成功的一个重要原因是它不是领域专用的模型它能做所有事。要做到这一点一个普遍的假设是模型在训练时需要见过所有东西。但从这个初步实验来看我们显然还没有达到那个程度。Ravid那你觉得答案是什么好的数据需要具备哪些属性——多样性、不确定性、避免冗余刘壮是的内容多样性、风格多样性……深度学习的一个大教训是想让它擅长所有事就要在所有事上训练它。但在当今的条件下我们仍然面临权衡问题——算力有限模型容量有限。模型学到的不同能力之间可能会相互竞争比如如果你想让模型在编程上更好可能就需要牺牲一点它在心理咨询方面的能力这只是举个例子。如何配比训练数据让每个我们希望模型擅长的领域都得到足够的表示这是一个重要的设计问题。在我们最近一个文字转图像的项目里我们发现了一个出人意料的简单方案——不是最优的但足够简单——就是把你关心的所有领域大致等权重地混合。你不会希望“如何理发”和“如何编程”得到同等权重因为它们对大多数人的重要程度差别很大你当然希望模型在编程上见过更多数据。但如果你把“理发”扩展为“日常生活技能”这个层面把它和另一个同等重要程度的领域放在一起然后从每个领域收集高质量数据并等权重混合这种做法在很多其他项目里效果都不错。Ravid你觉得这就是未来的方向吗就是把各种来源简单地混合在一起刘壮对于通用模型来说是的。如果你只是想让模型在所有事情上都还不错而不是在某个特定困难任务上特别拔尖那我认为数据覆盖是王道。Ilya Sutskever有句名言大意是只要你有一个大模型收集了足够多的数据模型就一定能训好。我认为这在现代深度学习里仍然适用。当面对用户时想让模型在某个任务上表现好就在训练集里放足够多这方面的数据这是最合理的解决方案。视觉是桥梁但语言先点燃了这把火编者注这部分涉及两篇论文。一是2023年Meta发表的ImageBind由刘壮参与将图像、文本、音频、深度、热成像、IMU运动传感器六种模态对齐到同一个嵌入空间。二是同年发表的《Eyes Wide Shut》揭示了 CLIP视觉编码器的系统性盲点。CLIP是 OpenAI于2021年提出的图文对比学习模型目前是绝大多数多模态大语言模型的视觉编码器基础。AllenImageBind把六种模态对齐到同一个嵌入空间里。你觉得这是在说明视觉模态本身的特殊地位还是只是说明了视觉数据在大规模数据中碰巧有这样的角色刘壮我觉得这篇论文一个很重要的信息是不同模态确实可以被嵌入在一起这是现在多模态基础模型运作方式的基础。常见的做法是用编码器把每个模态对齐到语言模型的token表示。ImageBind更专注于学习编码器本身而不是把它们连接到大语言模型上。另一个洞见是视觉是连接所有模态的天然桥梁因为视觉数据就像是我们人类的默认输入。它经常和很多其他模态同时出现比如音频——看YouTube视频时音频和视觉数据自然地融合在一起你可以用这个信号来对齐两者。还有运动数据也经常和图像或视觉数据同时出现。这揭示了视觉在我们日常感知中的根本性地位。Ravid但为什么最终能力上的大跃升是通过语言模型实现的我们有视觉好一段时间了但没有看到AI在所有领域、所有公司里大规模普及。直到语言模型变强人们才突然开始用 AI。你觉得这只是巧合还是语言本身有什么根本性的优势刘壮是的这是个被广泛讨论的话题。我的理解是视觉本质上是吞吐量非常高的数据——它流入我们感知系统的带宽远高于语言而我们还没有足够的算力来真正处理这些数据。想想看就一帧图像存储它所需的空间就远大于用语言描述这张图像——描述可能只需要几个字节图像却需要几千字节相差上千倍。所以一张图片的信息量确实超过一千个词。另外我们也没有好的机制让模型在图像上做精细定位——在当前的多模态语言模型里所有信息都已经编码在视觉 token 里了模型没有办法回头去重新聚焦图像的某个区域。如果视觉编码器质量不好自回归模型对此毫无办法。而语言处于一个低维得多的空间每个词都有明确的含义——这有点像人类从自然界里做无监督学习。我们在进化过程中筛选出了这些重要概念把它们凝缩成词每个词只需要几个字节的存储空间而用图像来表示”杯子”这个概念可能需要成千上万张图片。处理这么大量信息所需的算力自然要高得多我觉得我们目前还没有到那个程度。Allen好然后是那篇我很喜欢标题的论文——《Eyes Wide Shut》斯坦利·库布里克的最后一部电影。你在论文里提出很多多模态大语言模型的失败都可以追溯到CLIP这样的视觉编码器以及CLIP的盲点。能概括一下这篇论文吗在你看来这个瓶颈究竟有多少是视觉问题又有多少是语言模型或对齐问题刘壮我认为这在很大程度上是视觉编码器的问题。正如我之前说的这些模型只会学训练时教它们学的东西。如果训练时没有让模型面对你希望它擅长的任务类型测试时它就不会好。具体来说CLIP训练的目标是让图像表示和它的文字描述对齐。而图像描述自然地更关注图像的内容——里面有什么物体它们在做什么——而不太会明确说明这些物体的位置。如果图中有一个人和一条狗描述大概只会说“人和狗玩耍”而不会说人在左边还是右边——这是我们人类描述图像时很自然的方式。对人来说这没问题我们不太在乎谁在左边。但如果你希望模型能够回答这类位置关系的问题就需要在训练里用到这些。而这正是CLIP训练所忽略的。结果我们得到一个被用作多模态语言模型视觉编码器的CLIP模型它根本没被训练去处理这些任务。这再次印证了我的观点想让模型擅长什么就要在那件事上训练它。Allen在《Eyes Wide Shut》那篇论文里你建议把视觉特征和自监督特征混合来改善视觉定位。如果同时优化语言对齐和细粒度视觉辨别你认为多模态语言模型最理想的视觉编码器应该是什么样的编者注自监督学习self-supervised learning是一种不需要人工标注的训练方式模型通过预测图像的一部分、或者预测被遮挡的区域来学习视觉表示。典型的方法有MAEMasked Autoencoders、DINO等它们往往能学到比 CLIP 更细粒度的视觉特征。刘壮我现在心里想的解决方案就是两者都做。这两种是现在视觉预训练的两大主流范式。我还想加一个——现在很多人在讨论世界模型——我会在视觉部分加入时间维度这也会非常有帮助。大语言模型有世界模型但只在语言空间里编者注“大语言模型有没有世界模型”是近年来 AI 领域最激烈的争论之一。Yann LeCun长期主张现有大语言模型没有真正的世界模型他力推一种基于能量的层次化架构来显式构建世界模型。而另一些研究者如Ilya Sutskever则认为足够大的语言模型在预测下一个token的过程中已经隐式地学到了世界模型。刘壮在这里给出了他自己的第三种答案。Ravid我们来聊聊世界模型。你对世界模型的定义是什么刘壮对我来说世界模型就是预测世界如何运作根据你当前的状态来预测世界接下来会发生什么。Ravid这具体是什么意思比如几周前Stephane Mallat来这里声称大语言模型有世界模型而之前Yann LeCun来这里说我们需要显式地构建世界模型目前的大语言模型并没有。你怎么看你觉得我们能定义出一个标准来判断哪些模型有世界模型、哪些没有刘壮是的我认为大语言模型在语言空间里是有世界模型的这毫无疑问。语言是我们所接收的所有感知信号的更高层次的抽象大语言模型在这个层面上有着相当好的世界模型。我经常和ChatGPT讨论历史。几天前我让它想象一个假设场景中国历史上某个事件里我让ChatGPT想象如果那个失败的势力赢得了战争历史会怎么变它给出的回答非常合理——把所有小事件串联起来一切都讲得通只是一些小概率的决策偏移然后一切随之改变像真实历史一样完全有可能就是真实历史。在这个意义上我觉得没有哪个小说家或历史学家能超越它在这串事件中的逻辑推理水平。所以它们确实有一个很好的世界模型只不过是在非常高的抽象层次上。当我们说“我们现在没有世界模型”说的其实是视觉空间的世界模型——我们没法在像素空间里完整地恢复或模拟世界这也是真的。我认为模型有没有世界模型取决于你想对世界的哪个层次建模。如果你把世界的高层次事件视为一个自包含的世界那我们通过语言模型确实有。但如果你把每个像素、每个原始信号、每个物理信号包括世界上每种物质的物理属性都纳入考量那我们确实还没有那个层次的精细化模型。根本原因还是视觉数据的吞吐量太高我们还没有足够的算力来完美地对它建模。Ravid那你觉得我们真的需要世界模型来解决 99% 的任务吗刘壮 对于数字化工作比如白领工作我认为不需要视觉世界模型。很多事情都在数字空间里运作我最多需要模型能读取我的电脑屏幕而屏幕内容可以被数字化或压缩通常最多是一组图像不是实时视频流这相对容易。我目前用Claude Code的瓶颈之一就是需要截屏这个问题应该很快可以解决因为这些模型可能很快就能以安全的方式访问我们的屏幕。但对于体力劳动比如建筑、驾驶、体力活动我认为确实需要视觉模型因为这类工作中的反馈是非常细粒度的。还有理发——你想剪哪部分头发、剪多少这是没法靠语言模型来完成的。还有一些物理性的工作比如外科手术。我认为真正需要视觉世界模型才能做好的工作不会超过一半。记忆才是真正的瓶颈智能体只是权宜之计编者注这部分话题涵盖了几个相互关联的议题强化学习RL训练、Agent、持续学习以及AI辅助科研的现状。刘壮还提到了另一篇自己的论文《Idiosyncrasies in Large Language Models》大语言模型中的特异性该论文发现不同大语言模型生成的文本存在可被识别的“指纹”即便经过改写或翻译仍然保留。Ravid你怎么看强化学习现在所有实验室都在建自己的环境想在编程或某些特定任务上做得更好就搭一个专用环境让模型在这个环境里训练给它反馈和奖励。你觉得这是未来的方向吗刘壮是的实际上我不确定每个实验室都这样做强化学习或监督微调是否真的可行。我希望未来能有一套像预训练一样成熟的方法来做持续训练。可以是强化学习也可以是情境工程、提示工程、智能体协作这些都还是开放的。也许还需要调整架构让模型有更大的记忆、更长的上下文。持续学习这件事把通用模型适配到特定领域我认为非常重要。因为每个人在一生中会遇到不同的情境。你希望模型成为你的好助手赋能你的生活和工作你需要它记住大量上下文。在这方面人脑仍然远超模型——极大的记忆容量快速学习只需见一次就能记住一个事实而且不会忘记。你今天用Claude Code时最让我担心的就是它是否还记得我之前做过的事我相信很多人都有这个感受。在我们各自的职业生涯里有太多东西希望模型记住不用每次都重新解释。不是什么特定任务而是所有一切——我们与他人的互动方式、过去的成就和失败等等。我觉得这个答案可能不只是强化学习更像是系统工程——怎么组织一切让模型能轻松访问所需信息。说到底还是数据问题怎么组织数据怎么提供足够的数据怎么整合来自不同来源、不同输入的数据。也许以后我们会戴智能眼镜给这些模型提供视觉输入。Ravid但你觉得基本的组件已经到位了还是会保持不变我们只是需要搭好脚手架——比如怎么让智能体在世界里行动、收集数据、组织记忆这些事情还是说我们需要从根本上改变什么刘壮是的这是个很好的问题。有一个令人遗憾的现实是不是每个人都能在这些超大模型的基础层面上做研究只有负担得起训练成本的人才能做实验。所以现在我们看到大量的智能体工作——因为这几乎是很多人能对系统做出改进的唯一方式。智能体很好但我注意到我构建的每一套智能体系统每一个脚手架——比如我试图搭一个能让Claude Code长时间运行的框架——通常过几周或几个月我会找到一个更简单的解决方案比如用提示或一些内置命令和技能来实现同样的效果而不需要Python脚手架这类东西。所以我认为最大的教训是保持系统简单让模型自己做很多决定。遗憾的是不是每个人都能为底层模型能力的提升做贡献。我们能做的是情境工程和智能体。但在基础能力方面我认为我们仍然可以追赶。我们现在关心的每一个任务在一定的性能水平上都可以用更少的智能体、更少的脚手架来完成而更多地依赖模型本身的能力。我认为我们仍然处在这条曲线上。Ravid但我们为什么要在意呢在算力和数据越来越多的世界里为什么不就直接搭智能体解决所有问题刘壮智能体还是会犯错——代码智能体也是。我遇到的很多错误都是因为它记不住某些东西这很明显应该是显而易见的。所以我认为在记忆方面——记忆和上下文——这是目前最重要的问题尤其是记忆。它们是一枚硬币的两面。即使你有无限的上下文如果它忘记了或者记错了事实它的记忆力仍然不好。Claude Code前几天宣布支持100万token的上下文窗口大家都很振奋包括我这很好。但我们怎样才能拥有无限的记忆至少是持续学习问题——怎样才能不忘记我觉得这比怎么构建协作智能体更重要如果我们在这方面取得突破会更有价值。我们需要很多智能体恰恰是因为一个智能体记不住所有事情需要拆分任务。如果一个智能体能记住所有事情做完这个任务还不忘记上一个任务那所有工作就可以交给这一个智能体完成。作为个人助手有一个能记住所有事情的助手总比协调多个智能体更方便。Allen你还有一篇我很感兴趣的论文——《大语言模型中的特异性》发现模型特有的特征在改写、翻译、摘要之后仍然保留。你觉得这些“指纹”到底在度量什么是预训练数据、训练后的风格、解码行为还是更底层的结构性因素刘壮 这篇论文做的是同样的分类任务——给定一段文本让一个独立的神经网络判断它是由哪个语言模型生成的。我们发现准确率可以非常高在五个候选模型的情况下可以达到99%。当时对我们来说也挺出乎意料的。但现在我认为大家越来越接受一件事语言模型生成的文本里确实存在线索即使不是AI研究者的普通人也能判断出大概是哪个模型写的。现在这不再那么令人惊讶了因为每家公司都有自己的策略来最大化用户参与度导致模型输出了不同的风格。到底是什么造成了这些差异我认为每家提供商对风格的选择非常关键——系统提示我们看不到他们的系统提示他们有没有让模型输出详细或简洁有没有用列表后训练策略也有很大影响不同公司的后训练方式不同他们招募标注员的方式、评分标准都会有系统性差异这些都会鼓励不同的行为模式。预训练也有影响每家公司的预训练数据来源不同有些侧重编程和数学推理有些优化通用知识覆盖。令人遗憾的是我们不知道这些差异各自贡献多少。总体来说我认为后训练和系统提示的设计是造成差异的主要原因占大部分比重。Ravid你怎么看预训练这件事预训练、中训练、后训练这种划分会继续存在吗编者注中训练mid-training是近年来工业界出现的一个新阶段介于预训练和后训练之间主要目的是在更高质量的数据上继续训练、或者扩展模型的上下文长度而不引入人类偏好标注。后训练post-training则泛指在预训练完成后通过人类反馈强化学习RLHF、监督微调SFT等方式让模型更符合人类偏好、更安全、更有用。刘壮 我认为预训练和中训练彼此更相似都和后训练有所不同。后训练的奖励信号是不同的因为它涉及到人类判断和人类偏好。预训练和中训练本质上都是自回归只是数据风格和上下文长度不同。中训练是个比较新的概念几年前我们只有预训练和后训练现在多了一个中训练。中训练或许是一种临时状态因为中训练的核心是扩展上下文长度、引入更高质量的数据。我没有这些公司的内部信息但我觉得这可能是一种妥协——我们没有足够的算力始终在超长上下文上训练、始终在最高质量数据上训练。所以预训练和中训练可以统称为“预训练”引号里的那种。后训练不同因为它涉及人类对模型行为的主动引导这种区别不会消失。但我希望未来还有另一个阶段——针对每个用户定制的持续训练定制偏好、记忆需求、使用风格那会非常好。Ravid你怎么看持续学习是像自监督学习那样从不同视角的差异里学习还是针对特定任务有了新数据再解决特定问题刘壮我认为持续学习不太是关于增强能力的。我更愿意把它看作更好的记忆。这些模型已有的能力已经很好了它们能解出大多数人解不了的数学题。我们需要的是让模型记住每个人的个性习惯——我会如何回应某些事件我有哪些基本原则即使我把自己生活里所有的经历和偏好都写在一个Markdown文件里它还是可能遗漏。比如我现在有一个全局的Claude MD文件告诉模型遇到某些情况时要注意什么但它们经常还是会忽略。我没有好的办法让这些内容真正“粘”在模型上。所以我一直认为持续预训练更多是关于拥有稳定的记忆、不在小事上犯错而不是发展更多能力。是找到在合适场景下使用正确技能的能力而不是发展更强大的技能。Ravid你怎么看这件事我好像在LinkedIn或Twitter上看到有人说有了新的编程智能体他不再需要学生了直接告诉智能体想做什么让它跑实验、出结果、写报告就行了。你觉得我们会看到更多学生还是更少学生刘壮从教育角度来说我认为我们需要更多深度投入其中的学生需要能够使用AI并进一步推动AI发展的学生。这一点不应该有什么争议。从实际项目的角度我认为答案是一样的。只要有合理的资源和时间我现在可以用Claude Code自己做一个小项目。但这不是全自动的。我曾经让它在一两天内独立完成一个项目从构思到实验到写论文但效果不好——提出的问题很模糊对我来说没什么意思做的实验不够全面只是勉强能支撑结论我需要反复提示才能把它引到正确的方向。它忘记事情的频率也超出我的预期。我让它一直用某个GPU分区它可能遵守几个小时任务完成后就忘了。我希望它永不停歇根据当前实验结果不断探索、设计下一个实验测试新假设但它就是不听有时候会陷入局部最优。所以我认为它们擅长低层次的任务在更高层次的研究理解和导航上还不够好。学生也可以像我一样让Claude Code帮自己提高工作效率。而且如果他们有正确的心态不把所有事情都委托给AI他们仍然会在这个过程中成长成为好的研究者。我认为我们需要更多这样的学生不是更少。Ravid你听说过吗Andrej Karpathy 发布了AutoResearch就是给一个代码智能体去优化NanoGPT让它连夜跑多个实验结果验证损失确实在下降。编者注Andrej Karpathy是前Tesla AI总监、OpenAI联合创始人现独立从事AI教育。NanoGPT是他开源的一个极简GPT实现常被用于教学和研究实验。AutoResearch是他探索的一个概念让AI智能体自主设计实验、运行训练、分析结果全程无需人工干预。刘壮对对。Ravid智能体提出的一个建议是改变随机种子然后结果就变好了很多。我自己也试过类似的事就是对这个项目做了个很简单的贝叶斯优化超参数搜索。结果发现用更少的迭代次数、更短的时间就能得到更好的结果。我觉得最终我们需要搞清楚哪些用法真正有效哪些还没到位哪些只是因为看起来时髦、大家都用所以我们在浪费时间去提示它。刘壮嗯。Ravid所以我同意你的判断自主研究目前还没到那个阶段。未来会不会到我不知道也许会。但至少对某些场景对某些用途用来开发产品已经相当不错、接近可用了。刘壮嗯嗯。Ravid但在研究方面还没到。刘壮确实这也是我的亲身体验。参考链接https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/—完— 量子位智库「2026中国AI应用全景图谱」与「值得关注落地案例」评选启动征集 扫码申报让你的产品定义2026中国AI应用行业格局。