原文Cloudflare’s AI Platform: an inference layer designed for agents发布时间2026 年 4 月 16 日从一个真实的困境说起如果你正在构建一个 AI 应用大概率已经遇到过这样的局面三个月前选定的最佳模型今天可能已经不是最优选择。新的模型不断涌现来自不同的供应商各有擅长。你的客服 Agent 需要一个快而廉价的模型做意图分类一个推理能力强的大模型做决策规划还需要一个轻量模型执行具体任务。于是你开始同时对接 OpenAI、Anthropic、Google……每家都有自己的 SDK、自己的账单系统、自己的限流规则。费用分散在多个平台出了故障也不知道该找谁。更关键的是当你构建的不是简单聊天机器人而是真正的Agent智能体时这些问题会被成倍放大。一次用户请求Agent 可能要串联 10 次推理调用任何一个环节的延迟或失败都会形成连锁反应。Cloudflare 的这次发布正是针对这个问题给出的答案。核心发布一个统一的推理层Cloudflare 将自己的 AI 平台定位为一个统一推理层Unified Inference Layer目标是让开发者通过一套 API访问任意供应商的任意模型。70 模型12 供应商一行代码切换过去Workers AI 只能调用 Cloudflare 自托管的开源模型。现在开发者可以用同一个AI.run()方法调用来自 OpenAI、Anthropic、Google 等主流供应商的模型切换模型只需修改一行代码// 调用 Anthropic 的模型constresponseawaitenv.AI.run(anthropic/claude-opus-4-6,{input:What is Cloudflare?,},{gateway:{id:default},});此次接入的新供应商包括阿里云、AssemblyAI、字节跳动、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu 等模型类型从文本扩展到了图像、视频、语音支持多模态应用场景。对于不使用 Workers 的开发者REST API 支持也将在未来几周内上线。费用统一管理告别多平台账单目前企业平均同时使用 3.5 个 AI 模型分布在不同供应商没有任何一个平台能给出完整的费用视图。通过 AI Gateway所有模型的调用都汇聚在同一个入口费用可以按照自定义维度拆分查看比如免费用户 vs 付费用户的消耗对比或者特定业务流程的成本占比constresponseawaitenv.AI.run(cf/moonshotai/kimi-k2.5,{prompt:What is AI Gateway?},{metadata:{teamId:AI,userId:12345}});自带模型BYOM把你的私有模型也放上来通用模型并不总是最优解。对于需要在私有数据上微调过的模型或者针对特定场景优化的模型Cloudflare 正在开放自带模型Bring Your Own Model能力。这项功能基于 Replicate 的 Cog 技术将 ML 模型容器化。开发者只需编写一个配置文件和推理脚本Cog 会处理 CUDA 依赖、Python 版本、模型权重加载等繁琐的环境问题cog.yaml依赖配置build:python_version:3.13python_requirements:requirements.txtpredict:predict.py:Predictorpredict.py推理逻辑fromcogimportBasePredictor,Path,InputimporttorchclassPredictor(BasePredictor):defsetup(self):self.nettorch.load(weights.pth)defpredict(self,image:PathInput(descriptionImage to enlarge),scale:floatInput(descriptionFactor to scale image by,default1.5))-Path:outputself.net(input)returnoutput构建完成后推送容器到 Workers AI后续通过标准 API 调用即可。目前该功能已在内部和部分外部客户中测试Cloudflare 也在招募设计合作伙伴有意向的团队可以直接联系。极速首 Token全球网络的推理优势对于 Agent 场景首 Token 时间Time to First Token比总体推理时长更影响用户体验。即便整个推理过程需要 3 秒如果首 Token 能提前 50ms 到达用户感知到的响应就会明显更流畅。Cloudflare 在全球 330 座城市部署了数据中心AI Gateway 可以就近处理请求缩短网络传输时间。对于 Workers AI 托管的模型代码与推理跑在同一个全球网络上完全不需要经过公共互联网延迟可以做到最低。目前 Workers AI 的公开模型目录中已经包含了专为 Agent 场景优化的大模型包括Kimi K2.5和实时语音模型。可靠性自动故障转移与断线续传Agent 工作流的每一步都依赖上一步的结果推理调用的可靠性直接决定整条链路的稳定性。Cloudflare 在两个层面解决了这个问题自动故障转移如果某个模型同时在多个供应商上提供服务当某个供应商出现故障时AI Gateway 会自动将请求路由到其他可用供应商无需开发者编写任何故障处理逻辑。流式响应断线续传AI Gateway 会在推理过程中缓存流式响应。如果 Agent 在中途断开连接重新连接后可以直接取回已生成的内容不需要重新发起推理请求也不会重复计费。结合 Agents SDK 的检查点机制最终用户完全感知不到中断的存在。Replicate 并入生态整合提速Replicate 团队已正式加入 Cloudflare AI 平台团队两个团队现在已经完全合并。接下来Replicate 上的所有模型将陆续接入 AI GatewayReplicate 原有的托管模型也将迁移到 Cloudflare 基础设施上运行。对于已经在 Replicate 上部署了模型的用户后续可以通过 AI Gateway 访问也可以将其迁移到 Workers AI 托管。小结这次发布的核心逻辑并不复杂AI 开发的碎片化问题正在变得越来越严重而 Cloudflare 试图用一个统一的推理层来收拢这些散乱的线头——统一 API、统一账单、统一可靠性保障同时利用自身全球网络的优势压低延迟。对于正在构建 Agent 应用的开发者来说这是一个值得关注的方向不是为了把所有鸡蛋放进 Cloudflare 这个篮子而是通过一个中间层让你在不同供应商之间保持灵活性同时不用自己处理那些繁琐的基础设施问题。相关文档AI Gateway 文档https://developers.cloudflare.com/ai-gatewayWorkers AI 文档https://developers.cloudflare.com/workers-aiAgents SDK 文档https://developers.cloudflare.com/agents模型目录https://developers.cloudflare.com/ai/models