Gemini 3.5 API 实战：自动抓取数据、分析、生成报告的全流程跑通

张

张建站

2026/6/9 20:06:29

10分钟阅读

最近接了个活把用户行为数据跑完分析后自动输出 PDF 报告和 Excel 明细表。折腾了两天把链路跑通踩了不少坑。测试过程中主要通过 leadhi.cn 聚合平台接入 Gemini 3.5 API国内直连比较方便。下面把全流程和踩坑记录整理出来。为什么选 Gemini 3.5 做这个链路Gemini 3.5 Flash 每秒可输出近 300 个 Token是 3.1 Pro 生成速度的约四倍。它在 Terminal Bench、SWE-Bench Pro 等基准测试中的得分与 3.1 Pro 相当甚至略有超越。对查资料→分析→生成报告这种需要高速吞吐的链路Flash 版本的性价比极高。更关键的是Gemini 3.5 原生支持 URL Context 工具——开发者只需在 API 请求中包含目标网页 URL模型系统将自动完成网页访问、内容解析和数据提取的全部流程。这比传统爬虫方案省掉了大量前置工作。全流程架构四个阶段texttext阶段一数据抓取URL Context 搜索工具 └─ 配置搜索工具 → 构造采集指令 → 分批获取原始数据阶段二数据清洗Python 脚本 └─ 提取 JSON → 去除单位/逗号 → 统一格式 → 缺失值赋 None 阶段三数据分析与图表生成Gemini 3.5 生成代码 └─ 双 Y 轴图表 → 中文字体配置 → 保存 PNG 阶段四报告打包Gemini 3.5 生成 Word/PDF └─ 封面页 → 数据摘要 → 表格页 → 图表页 → 输出文件阶段一配置搜索工具自动抓取数据第一步是让 Gemini 能调用搜索工具。必须显式传入 tools 参数否则后续所有获取最新数据类请求会返回空结果。Gemini 3.5 支持 URL Context 工具每次请求最多支持 20 个 URL 的并发处理单个 URL 对应的内容大小上限 34MB。HTML、JSON、纯文本、PDF 文档和 PNG、JPEG、WebP 等主流图片格式都在支持范围内。数据采集有两种策略策略一直接指定字段。一次性告诉模型提取哪些字段、什么时间范围、输出什么格式。策略二分批次采集降低幻觉。先列出目标列表再逐条追问。虽然多操作几步但能规避单次长上下文中混淆不同条目数据的风险。必须等待上一轮返回非空内容后再发下一条否则会因会话状态未更新导致重复或跳过。阶段二数据清洗API 返回的原始数据不能直接用需要标准化处理。第一步提取响应文本中的 JSON 片段用json.loads()解析若失败则用正则匹配最外层大括号内容再解析。第二步对数值字段执行re.sub(r[^\d.], , value)去除单位与逗号再转为 float对百分比字段统一提取数字部分并除以 100 转为小数。第三步检查缺失键对缺失项赋值 None 而非跳过整条记录避免 DataFrame 行数错位。这一步不做清洗后续绘图时会因字符串混入数值列而报错。阶段三驱动 Gemini 生成图表代码向 Gemini 发送指令让它生成 Matplotlib 双 Y 轴图表代码。关键参数配置pythonpythongeneration_config{ temperature: 0.2, # 数据分析类任务建议 0.2-0.4(citation:16) max_output_tokens: 2048 }执行 Gemini 返回的代码时必须在开头插入中文字体配置pythonpythonplt.rcParams[font.sans-serif] [SimHei, Arial Unicode MS] plt.rcParams[axes.unicode_minus] False跳过这一步图表标题和坐标轴文字将全部显示为方块。阶段四打包为 Word/PDF 报告Gemini 3.5 原生支持文件生成。但实测有几个坑必须注意文件格式Gemini 3.5 FlashGemini 3.1 Pro最大单次输出PDF支持但有限制稳定支持~2MBExcel (.xlsx)返回损坏文件稳定支持~5MBCSV稳定支持稳定支持无明显上限PNG/图表稳定支持稳定支持~4MB重点Gemini 3.5 Flash 生成的 Excel 文件用 openpyxl 打开会报zipfile.BadZipFile因为 Flash 模型把 xlsx 请求当 PDF 生成了。解决方案是换 3.1 Pro或者在 prompt 里显式加一句 Output format must be Microsoft Excel .xlsx, not PDF。如果对格式精确度要求极高更稳的方案是让 Gemini 生成结构化 JSON再用模板引擎WeasyPrint 转 PDF、openpyxl 转 Excel做最后一步。AI 负责内容传统代码负责格式。生产环境三个必踩的坑限流问题。免费层有每分钟请求次数限制遇到 429 错误说明触发了限流。批量生成时务必加入指数退避重试机制。Token 消耗。图片和视频的 token 消耗远高于文本。一张高清图片可能消耗几百个 token。多模态场景下要特别注意成本控制。输出格式不可控。即使在提示词里要求 JSON 格式输出模型偶尔也会输出带额外文字的非标准 JSON。建议在代码层做格式校验和容错处理。趋势AI 正在把数据分析→报告交付变成一条流水线两个判断。第一URL Context 工具标志着网页数据处理技术的重要进步。传统方案需要开发者掌握爬虫技术、HTML 解析库、反爬虫机制现在这些复杂性被完全封装在 API 内部。开发者只需关注业务逻辑本身。第二混合模型架构是当前最务实的成本策略。用 Gemini 3.5 处理核心的长文本分析和业务逻辑规划格式化输出分发给响应更快、单价更低的轻量模型。简单任务用国内模型控制成本复杂多模态任务用 Gemini 保证质量。正如一位开发者总结的别太信一步到位的宣传LLM 擅长内容生成格式渲染这种确定性任务还是让传统代码来干更靠谱。拿自己的真实业务场景跑一遍完整链路比看任何评测都靠谱。数据基于 2026 年 Q2 各平台公开文档与实测整理模型能力以最新公告为准。