分析报告-技能文件怎么处理大数据文件内容目录分析报告-技能文件怎么处理大数据文件内容一、根因表索引号是怎么来的(步骤 1 → 步骤 4)1)先在 pandas 里算出「候选标签组」(无 LLM)2)每组挑 12 个工单做摘录(仅 3 个字段,不传整段对话)3)一批 4 组一起塞进一个 prompt(不是一个一个丢)4)「根因(参考)」「改善方向(参考)」也是这一次 LLM 输出的5)二次校验:工单号必须落在允许集二、原始 CSV 对话数据是怎么投入 LLM 的(直接答你最后一问)三、几个容易踩坑的细节下面按「数据真源 → LLM 输入 → LLM 输出 → 索引号校验」四段拆开讲清楚,结论先说:不是逐条把原始对话丢给 LLM。索引号(即「涉及工单号」单元格里那几条#YYYYMMDD-NNNNN)走的是「pandas 先按二级标签聚合 → 给每组挑最多 12 个样本工单号 → 摘录 3 个打标字段送进 LLM → LLM 从允许集中选回 1~8 个 → 二次校验过滤」这条流水线。LLM 拿到的从来不是原始 CSV 的整段英文对话("工单内容"列),而是已经被预打标处理过的「核心故障现象 + 客服故障定位结论」摘录。一、根因表索引号是怎么来的(步骤 1 → 步骤 4)1)先在 pandas 里算出「候选标签组」(无 LLM)aggregate_csv一次性扫 CSV,按(一级标签, 二级标签)拼 key,逐行累加 Counter,并把工单号塞进对应组的pair_tickets列表里(每组最多 80 个,按出现先后):for chunk in iter_csv_c