利用Python自动化抓取金铲铲英雄数据并转换为结构化JSON

张

张建站

2026/4/22 23:35:48

10分钟阅读

1. 为什么需要抓取金铲铲英雄数据作为一个金铲铲之战的老玩家我经常遇到这样的困扰想研究某个阵容搭配时总是要反复切换游戏和攻略网站查看英雄属性。后来我发现如果能把这些数据整理成结构化格式分析起来会方便很多。这就是为什么我们需要用Python来自动化抓取游戏数据。金铲铲之战作为一款自走棋游戏英雄数据会随着版本更新频繁变动。手动记录不仅效率低下还容易出错。通过自动化抓取我们可以实时获取最新英雄属性建立自己的英雄数据库为阵容分析提供数据支持我尝试过几种方法后发现SeleniumPandas的组合最适合这个任务。Selenium能模拟浏览器操作完美解决网页动态加载问题Pandas则让数据处理变得异常简单。下面我就分享这套方案的完整实现过程。2. 环境准备与工具安装2.1 安装必要的Python库在开始之前我们需要准备好Python环境。我推荐使用Python 3.8版本这个版本对各种库的支持最稳定。打开你的终端或命令行执行以下安装命令pip install selenium pandas beautifulsoup4 webdriver-manager这里用到的几个核心库各有分工Selenium自动化浏览器操作解决动态页面加载Pandas数据处理和分析神器BeautifulSoupHTML解析工具Webdriver-manager自动管理浏览器驱动2.2 配置浏览器驱动由于我们要模拟真实浏览器操作需要配置对应的驱动。这里有个小技巧直接使用webdriver-manager可以免去手动下载驱动的麻烦from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager service Service(ChromeDriverManager().install())这个方案会自动检测你的Chrome版本并下载匹配的驱动特别适合新手。我第一次尝试时手动下载驱动经常遇到版本不匹配的问题这个工具完美解决了这个痛点。3. 数据抓取实战3.1 分析网页结构金铲铲的官方英雄页面采用了动态加载技术这正是Selenium大显身手的地方。通过开发者工具(F12)分析我发现每个英雄都有唯一的IDURL格式如下https://jcc.qq.com/#/heroDetail/10,S11,10.4.5/{hero_id}英雄ID看似随机但实际上不同费用的英雄ID范围相对集中。经过多次测试我整理出各费用英雄的大致ID范围1费英雄1190-12022费英雄2177-21933费英雄3194-32094费英雄4185-41995费英雄5158-51713.2 编写抓取代码下面是完整的抓取代码我添加了详细注释帮助理解from selenium import webdriver from bs4 import BeautifulSoup import pandas as pd import time # 初始化数据存储结构 data { 英雄名称: [], 英雄技能: [], 技能描述: [], 生命值: [], 攻击力: [], 护甲: [], 魔抗: [], 攻速: [], 羁绊信息: [], 费用: [] } # 创建浏览器实例 driver webdriver.Chrome(serviceservice) for hero_id in range(5158, 5171): # 以5费英雄为例 try: url fhttps://jcc.qq.com/#/heroDetail/10,S11,10.4.5/{hero_id} driver.get(url) time.sleep(2) # 等待页面加载 soup BeautifulSoup(driver.page_source, html.parser) detail_wrap soup.find(div, class_hero-detail-wrap) if not detail_wrap: continue # 提取基础信息 name detail_wrap.find(p, class_name).text skill detail_wrap.find(p, class_title skill-name).text.strip() desc detail_wrap.find(p, class_active).text.strip() # 提取属性信息 attrs detail_wrap.find(div, class_attri).find_all(td) hp, atk, armor, mr, aspeed [attr.text for attr in attrs] # 提取费用 price detail_wrap.find(li, class_price1).text.strip() # 提取羁绊 synergies [s.text for s in detail_wrap.find_all(p, class_synergy-name)] # 存储数据 data[英雄名称].append(name) data[英雄技能].append(skill) data[技能描述].append(desc) data[生命值].append(hp) data[攻击力].append(atk) data[护甲].append(armor) data[魔抗].append(mr) data[攻速].append(aspeed) data[羁绊信息].append(,.join(synergies)) data[费用].append(price) except Exception as e: print(f处理英雄ID {hero_id} 时出错: {str(e)}) driver.quit() df pd.DataFrame(data) df.to_csv(hero_data.csv, indexFalse)这段代码有几个关键点需要注意加入了time.sleep(2)确保页面完全加载属性信息分开存储方便后续分析使用try-except捕获异常避免因单个英雄出错中断整个流程4. 数据清洗与转换4.1 处理原始数据抓取到的原始数据往往不够规整我们需要进行清洗。常见的问题包括属性值带有单位如550/990/1980羁绊信息合并在一个字段中费用是中文文字我们可以用Pandas快速解决这些问题# 拆分生命值范围 df[[生命值1, 生命值2, 生命值3]] df[生命值].str.split(/, expandTrue) # 转换费用为数字 cost_map {一:1, 二:2, 三:3, 四:4, 五:5} df[费用] df[费用].map(cost_map) # 拆分羁绊 df[羁绊列表] df[羁绊信息].str.split(,)4.2 转换为JSON格式CSV适合表格数据但JSON更适合嵌套结构。特别是英雄的羁绊信息用JSON数组表示更自然import json # 转换为字典列表 hero_list df.to_dict(records) # 保存为JSON文件 with open(hero_data.json, w, encodingutf-8) as f: json.dump(hero_list, f, ensure_asciiFalse, indent2)得到的JSON结构如下[ { 英雄名称: 亚托克斯, 英雄技能: 暗裔剑魔, 技能描述: 亚托克斯挥舞他的巨剑..., 生命值: 1100/1980/3564, 攻击力: 90/162/291, 费用: 5, 羁绊列表: [暗裔, 战神] } ]这种结构特别适合前端应用展示数据库导入跨平台数据交换5. 高级技巧与优化5.1 处理反爬机制在实际操作中我发现金铲铲官网有一些基本的反爬措施。经过多次测试总结出几个有效的方法随机延迟避免固定间隔请求import random time.sleep(random.uniform(1, 3))User-Agent轮换模拟不同浏览器from fake_useragent import UserAgent ua UserAgent() options webdriver.ChromeOptions() options.add_argument(fuser-agent{ua.random})使用代理IP注意仅用于合法用途5.2 增量更新策略游戏数据会定期更新我们不需要每次都全量抓取。可以设计一个增量更新方案保存已抓取的英雄ID每次只抓取新英雄合并新旧数据# 读取已有数据 try: existing_df pd.read_json(hero_data.json) existing_ids set(existing_df[英雄ID]) except: existing_ids set() # 只抓取新英雄 new_heroes [id for id in hero_ids if id not in existing_ids]5.3 数据验证与监控为了保证数据质量我建议添加验证步骤# 检查必填字段 required_fields [英雄名称, 费用, 技能描述] if df[required_fields].isnull().any().any(): print(警告存在缺失的必要字段) # 检查费用范围 if not df[费用].between(1, 5).all(): print(警告费用值超出合理范围)6. 实际应用案例有了结构化数据后我们可以做很多有趣的分析。比如我最近做的一个项目是阵容强度评估器羁绊分析统计各羁绊的英雄分布from collections import Counter all_synergies [] for synergies in df[羁绊列表]: all_synergies.extend(synergies) synergy_count Counter(all_synergies) print(synergy_count.most_common(5))费用曲线分析评估阵容的经济合理性import matplotlib.pyplot as plt df[费用].value_counts().sort_index().plot(kindbar) plt.title(各费用英雄数量分布) plt.xlabel(费用) plt.ylabel(数量)属性对比找出同费用最强英雄df.groupby(费用)[[攻击力, 生命值]].mean().plot(kindbar, subplotsTrue)这些分析帮助我在排位赛中快速评估阵容强度胜率提升了至少20%。特别是在选择过渡英雄时数据驱动的决策比凭感觉可靠得多。7. 常见问题与解决方案在实际使用中我遇到过不少坑这里分享几个典型问题的解决方法问题1页面元素加载不全现象某些英雄信息抓取为空解决方案增加显式等待from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC element WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME, hero-detail-wrap)) )问题2英雄ID范围变化现象新版本英雄ID不在已知范围内解决方案开发ID探测功能def find_hero_ids(start, end): valid_ids [] for id in range(start, end1): driver.get(fhttps://jcc.qq.com/.../{id}) if 英雄不存在 not in driver.title: valid_ids.append(id) return valid_ids问题3数据格式不一致现象不同费用的英雄属性格式不同解决方案统一处理函数def parse_attributes(text): if / in text: # 处理范围值 return [float(x) for x in text.split(/)] elif text.endswith(%): return float(text[:-1])/100 else: return float(text)8. 扩展思路这套方案不仅适用于金铲铲稍作修改就能应用到其他游戏数据分析中。比如多游戏数据对比比较不同自走棋游戏的英雄数值设计版本变化追踪建立历史数据库分析版本更新趋势AI阵容推荐基于英雄属性训练推荐模型我最近正在尝试用这些数据训练一个简单的推荐系统初步效果还不错。核心思路是将英雄属性向量化然后计算阵容相似度from sklearn.metrics.pairwise import cosine_similarity # 简单的向量化表示 def hero_to_vector(hero): return [ hero[费用], float(hero[攻击力].split(/)[0]), float(hero[生命值].split(/)[0]) ] vectors [hero_to_vector(h) for h in hero_list] similarity cosine_similarity(vectors)这个项目让我深刻体会到数据抓取只是第一步真正的价值在于如何利用这些数据创造洞察。每次版本更新后我都会第一时间运行脚本更新数据库这已经成为我的一个习惯性动作了。