一个被反复验证的“反常识”判断2023 年 9 月李彦宏在百度云智大会上对一群创业者说了一句当时听上去有点扫兴的话“卷大模型没有意义卷应用机会更大。”那是百模大战最热闹的时候几乎每周都有新模型发布、新榜单刷新所有人都盯着参数量和跑分。说“别卷模型”多少有点泼冷水。可两年多过去这句话正在一条一条地应验。到了 2026 年 5 月的 Create 开发者大会上他干脆把话挑明“第一次AI 的主角不是模型而是应用。”他甚至提出用 DAA有多少 Agent 在替人类干活并交付结果取代移动时代的 DAU 作为衡量标准——因为“Token 的消耗量只是成本衡量的是投入无法回答消耗得有没有效率、产出了什么价值”。这不是某一家公司的立场而是整个产业重心迁移的信号。它背后的逻辑值得每一个做技术的人认真品一品。二、价格战打到“地心”模型层正在被快速商品化要理解“为什么不该再卷模型”先看一组真实的价格数字。2024 年 5 月 21 日阿里云把通义千问 GPT-4 级主力模型 Qwen-Long 的推理输入价格从 0.02 元/千 Tokens 直接砍到0.5 元/百万 Tokens降幅 97%——相当于 1 块钱能买 200 万 Tokens约等于 5 本《新华字典》的文字量。消息发出仅几小时连锁反应就来了百度智能云宣布文心 ERNIE Speed、ERNIE Lite 两款主力模型直接免费而在更早之前字节豆包通用模型的推理输入价已经报到 0.8 元/百万 Tokens。这还只是开始。到 2024 年 9 月的云栖大会阿里云再次宣布 Qwen-Turbo 价格直降 85%低至 0.3 元/百万 Tokens智谱把 GLM-4-Flash 打到 0.06 元/百万 Tokens火山引擎的豆包企业定价更是号称比行业便宜 99.3%。一年之内百万 Tokens 的成本从“元时代”跌进“厘时代”再向“免费”逼近。价格战的本质是模型层正在被快速商品化。当多家“性能追平 GPT-4”的模型把调用成本压到几乎可以忽略参数本身就不再是护城河——它越来越像水和电重要但不稀缺也不再是你向客户收费的理由。李彦宏打过一个精准的比方大模型是基础底座类似操作系统不会太多。移动互联网时代操作系统只有安卓和 iOS 两个重复造系统是对基础资源的浪费。AI 原生时代需要的是100 万量级的应用而不是 100 个大模型。当“底座”趋于免费和同质化价值自然就溢出到了上层。三、横在落地路上的拦路虎幻觉把模型搬到便宜并不等于把价值兑现。从“能聊天”到“能干活”中间隔着一道企业最在意的坎——幻觉Hallucination。通用大模型会“一本正经地胡说八道”。在闲聊场景里这顶多是个笑话但在企业应用里容错率极低。一个金融合规助手如果把已经废止的法规当成现行规定推荐给员工造成的是真金白银的合规风险一个医疗辅助系统若编造一条不存在的用药禁忌后果不堪设想。幻觉之所以难缠是因为它源于大模型的工作机制本身模型的知识是“固化的通用库”训练完成那一刻就被冻结既不知道你公司的内部数据也跟不上昨天刚更新的政策。企业要的是“动态的专属库”模型给的却是“过时的通用库”——错配由此产生。所以决定 AI 能不能真正落地的往往不是模型在公开榜单上多领先而是它在你的业务场景里会不会胡说、敢不敢被追责。这恰恰是应用层要解决的核心工程问题也是模型参数解决不了的问题。四、RAG把幻觉关进笼子的工程答案针对幻觉目前最主流、也最务实的解法是RAGRetrieval-Augmented Generation检索增强生成。它的思路朴素得近乎“笨”不让模型凭记忆作答而是先查书、再回答。系统在生成前先把用户的问题转成检索指令从企业的向量数据库、知识库甚至行业知识图谱里捞出最相关的几段事实再把这些“证据”和原始提问拼成一个“携带知识”的提示词最后交给大模型组织成答案。一句话概括强制模型“基于检索到的事实说话”。只要知识库片段靠谱模型“想编也编不动”。RAG 之所以成为企业 AI 的事实标准在于它一次性解决了三个痛点治幻觉答案有据可查每条结论都能标注来源、可追溯核验天然适合政策频繁变动的客服、合规场景。保隐私合同、财务这类敏感数据不必上传公网训练企业无需微调模型就能让 AI 拥有“私有记忆”既安全又便宜。追时效知识库实时同步最新文件模型不再被训练截止日卡住。效果是看得见的。有报道提到某中型制造企业有上千份产品手册和维修规范过去员工查一个参数要翻半小时接入 RAG 后1 秒返回精准答案并标注出处效率提升 60% 以上还顺带解决了客服口径不统一、易出错的老问题。在医疗领域有团队把向量数据库与覆盖 4 万多个实体、30 万条关系的行业知识图谱结合构建“检索—验证—生成”全流程已落地到术前感染预测等高精度场景。Gartner 更预测到 2025 年超过 75% 的企业级 AI 应用将采用 RAG 架构支撑。注意RAG 几乎全部是“应用层的活”——文档怎么分片、用什么向量模型、召回率和延迟如何平衡、检索结果如何重排序。这些工程细节没有一项是靠“把模型参数堆得更大”能搞定的。价值正是在这一层被一点点拧出来的。五、为什么是中国应用层的天然主场把镜头拉远会发现“卷应用”不只是一句口号而是中国 AI 产业的结构性优势所在。李彦宏在访谈中点出一个差异与美国执着于追求 AGI 不同中国制造业对“低成本、高效率”的迫切需求为 AI 应用提供了独特而广阔的场景。制造、能源、电力、化工、交通这些实体产业正是大模型和 AI 原生应用最重要的落脚点也是数实融合的主阵地。仅在百度智能云千帆平台上就已有超过 1.7 万家企业在开发产业模型和解决方案。更关键的是产业判断的转向不必执念于做出一个 DAU 上亿的“超级应用”而要打造数百万个“超级有用”的应用——哪怕日活不高只要能为产业带来实质增益价值就远超传统互联网产品。技术突破往往是规模化应用的结果而不是原因。当模型调用便宜到可以忽略、RAG 这类工程方法日趋成熟门槛就从“雄厚资本 顶尖算法”转向了“超前视野 商业洞察 对场景的理解”——这正是无数中小团队和开发者能挤进来的窗口。结语技术的生命力长在真实痛点里回到最初那句“卷应用不要卷大模型”。它从来不是说模型不重要——没有底座应用无从谈起。它真正想说的是当底座趋于免费和同质化决定胜负的不再是谁的参数更大而是谁能让 AI 在真实场景里少出错、干成活、交付结果。价格战把模型打成了水电幻觉把企业挡在门外而 RAG 这样的应用层工程正一点点把 AI 从“能说”变成“可信”。这条从参数到场景、从投入到产出的迁移路线指向同一个朴素的道理——技术只有真正落地、解决真实痛点才有生命力。能跑分的是模型能解决问题的才是价值。