降低大模型 API 使用成本的常规思路往往是切换到更便宜的模型。但模型切换会带来能力降级的风险。要安全地省钱最务实的做法是从提示词Prompt优化入手。以下四种经过生产环境验证的方法能在不牺牲 Gemini 3.5 核心能力的前提下显著降低成本。动手优化之前把优化前后的 Prompt 分别推给多个模型跑一遍。平台集齐了主流大模型国内环境可以直接访问。通过实时对比 Token 消耗的变化你能快速筛选出性价比最高的 Prompt 结构。系统指令与上下文的结构化精简很多 Prompt 越长成本越高信息密度反而越低。Gemini 3.5 对指令的遵循度更高这意味着过往为了约束旧模型而加入的冗余背景铺垫和防御性指令如“请务必”、“严格禁止”大概率可以被删减。需要区分系统指令System Instructions和用户提示词User Prompt。系统指令应只保留角色设定、全局输出格式和最高优先级的安全红线用最简练的陈述句固化下来。不要把琐碎的业务逻辑塞进系统指令里因为系统指令的任何微小改动都会导致整个缓存失效。可变的任务背景、示例和约束应放在用户提示词中这样既保证了系统指令的高度可缓存性又能灵活适应不同的任务场景。通过预处理降低多模态 Token 消耗Gemini 3.5 的原生多模态能力虽然强大但直接把超高分辨率的原始图片丢给它会消耗大量 Token。对于文档分析、发票识别等场景图像预处理是投入产出比最高的降本手段。分辨率归一化Gemini 对图片的计费基于像素量。一张 4K 高清图直接输入会非常昂贵而模型内部会自动缩放多余的像素全浪费了。建议在调用前将图片的短边控制在 1080px 以内文字密集的文档控制在 1600px 左右。图片体积变小不仅省 Token还能降低传输延迟。格式与质量平衡对于非专业摄影类图片不要用无损 PNG 格式。将图片转为 JPEG质量 85% 左右或 WebP 格式传输文件体积能数倍缩小而对视觉理解准确率的影响微乎其微。充分发挥 Prompt Caching 的潜力上下文缓存是 Gemini 3.5 最直接的成本优化手段专门针对被高频重复处理的 Token 给予大幅费用减免。要最大化其效果需要遵循“动静分离”原则。固化高频前缀把角色的长篇设定、Few-shot 示例、大段的文档背景等固定的内容放在 Prompt 的最开头。Gemini 会自动识别并缓存这些内容当后续大量请求共享同一套系统指令时这部分 Token 的计费极低。减少缓存失效系统指令一旦确定不要频繁改动。每次哪怕增减一个字缓存都会瞬间失效。同时要避免在缓存段内插入“当前时间”、“会话 ID”等动态变量把这些变量后置到用户消息部分确保核心指令的缓存能稳定命中。长会话与 Agent 任务的上下文裁剪在 Agent 链式调用或多轮对话中如果不加控制历史信息会迅速膨胀导致每次请求的成本指数级上升。使用“滑动窗口”与“摘要压缩”的组合策略可以解决这个问题。基于 Token 数的滑动窗口在应用层设定一个阈值如 10 万 Token。当历史记录超过这个阈值时只保留最近的 N 轮完整对话其余超出的部分要么直接丢弃要么在后台异步交给更便宜的轻量模型进行极度压缩用简短的摘要文本代替冗长的历史对话。结构化记忆重置对于长流程的 Agent 任务不要把所有推理过程都留给模型。可以在关键节点总结出 JSON 格式的“中间结论/状态”然后手动重置上下文以这个状态摘要作为新会话的第一条消息从而将上下文长度压缩到可控范围。