从Excel到3D图：一份内部数据的K-Means聚类与可视化完整实战记录（避坑xlrd与编码）

张

张建站

2026/5/26 2:01:50

10分钟阅读

从Excel到3D图：一份内部数据的K-Means聚类与可视化完整实战记录（避坑xlrd与编码）

从Excel到3D图K-Means聚类实战全流程解析当业务部门甩过来一份销售数据Excel表格要求明天上班前给出客户分群报告时很多数据分析师的第一反应可能是打开Excel的筛选功能手动分类。但面对成百上千条多维数据传统方法不仅效率低下还容易受主观判断影响。本文将手把手带你用Python实现从原始Excel到三维可视化的完整分析闭环特别针对中文编码、数据预处理等实际场景中的高频坑点提供解决方案。1. 环境准备与数据读取工欲善其事必先利其器。我们先配置好分析环境# 基础环境安装建议使用conda创建虚拟环境 conda create -n kmeans_analysis python3.8 conda activate kmeans_analysis pip install numpy pandas scikit-learn matplotlib openpyxl xlrd为什么选择openpyxlxlrd组合在读取老版本Excel文件(.xls)时xlrd从2.0版本开始不再支持xlsx格式而openpyxl对xlsx的兼容性更好。实际项目中常遇到混合格式的情况建议同时安装这两个库。读取数据时的典型问题及解决方案问题类型错误示例解决方案中文路径UnicodeEncodeError路径前加r或使用os.path.normpath空单元格NoneType异常增加if cell_value is not None判断日期格式显示为浮点数使用xlrd.xldate_as_datetime转换import os from pathlib import Path def read_excel_safe(file_path): 安全读取含中文路径的Excel文件 try: file_path str(Path(file_path).resolve()) if file_path.endswith(.xlsx): from openpyxl import load_workbook wb load_workbook(filenamefile_path) ws wb.active return [[cell.value for cell in row] for row in ws.iter_rows()] else: import xlrd wb xlrd.open_workbook(file_path) ws wb.sheet_by_index(0) return [[ws.cell_value(r, c) for c in range(ws.ncols)] for r in range(ws.nrows)] except Exception as e: print(f读取失败: {str(e)}) return None2. 数据预处理实战技巧原始业务数据往往存在各种问题直接扔进算法就像把没洗的菜下锅——结果可想而知。以下是三个关键预处理步骤2.1 缺失值处理的三重境界简单删除当缺失比例5%时可用df.dropna(inplaceTrue)均值/中位数填充适合数值型特征from sklearn.impute import SimpleImputer imputer SimpleImputer(strategymedian) df_filled imputer.fit_transform(df)模型预测填充利用其他特征建立预测模型2.2 特征标准化方法对比业务数据常存在量纲差异如销售额vs客户年龄标准化是聚类的必要步骤方法公式适用场景Scikit-learn实现MinMax(x-min)/(max-min)已知边界的数据MinMaxScalerZ-Score(x-μ)/σ正态分布数据StandardScalerRobust(x-median)/IQR含异常值数据RobustScalerfrom sklearn.preprocessing import MinMaxScaler # 保留原始数据副本 raw_data np.array(data) scaler MinMaxScaler(feature_range(0, 1)) normalized_data scaler.fit_transform(raw_data)2.3 分类变量编码策略遇到地区、产品类别等文本字段时需要转换为数值# 有序分类变量 from sklearn.preprocessing import OrdinalEncoder ordinal_encoder OrdinalEncoder(categories[[低, 中, 高]]) df[等级] ordinal_encoder.fit_transform(df[[等级]]) # 无序分类变量避免引入虚假顺序 from sklearn.preprocessing import OneHotEncoder onehot OneHotEncoder(sparseFalse) encoded onehot.fit_transform(df[[地区]])3. K-Means建模的进阶技巧3.1 如何科学确定K值业务部门说分4类但数据真的适合分4类吗三个验证方法肘部法则观察SSE下降拐点sse [] for k in range(1, 10): kmeans KMeans(n_clustersk) kmeans.fit(data) sse.append(kmeans.inertia_) plt.plot(range(1,10), sse, bx-)轮廓系数评估聚类紧密度from sklearn.metrics import silhouette_score sil_score silhouette_score(data, kmeans.labels_)Gap统计量比较实际数据与参考分布3.2 处理非凸聚类的小技巧标准K-Means假设聚类是球形的当遇到如下情况时尝试谱聚类from sklearn.cluster import SpectralClustering spec SpectralClustering(n_clusters4, affinitynearest_neighbors)使用核K-Meansfrom sklearn.cluster import KMeans from sklearn.metrics.pairwise import rbf_kernel gamma 0.1 K rbf_kernel(data, gammagamma) kmeans KMeans(n_clusters4).fit(K)3.3 聚类结果评估矩阵不要只依赖模型输出要用业务指标验证# 计算每个簇的统计量 df[cluster] kmeans.labels_ cluster_stats df.groupby(cluster).agg({ 销售额: [mean, count], 利润率: median })4. 三维可视化与结果输出4.1 交互式3D绘图技巧静态图难以观察数据全貌推荐使用import plotly.express as px fig px.scatter_3d(df, x特征1, y特征2, z特征3, colorcluster, hover_name客户ID) fig.update_traces(marker_size5) fig.show()实用参数调整opacity0.7解决点重叠问题size_max10控制点大小范围animation_frame时间字段制作动态演变图4.2 结果保存的最佳实践避免中文乱码的CSV输出方案with open(聚类结果.csv, w, encodingutf-8-sig, newline) as f: writer csv.writer(f) writer.writerow([原始索引, 聚类标签] feature_names) for i, (orig, label) in enumerate(zip(raw_data, labels)): writer.writerow([i, label] list(orig))4.3 制作可交互报告用Pyecharts生成HTML分析报告from pyecharts.charts import Scatter3D from pyecharts import options as opts scatter3d ( Scatter3D() .add(, [(d[0], d[1], d[2]) for d in data], grid3d_optsopts.Grid3DOpts(width100, depth100)) .set_global_opts(title_optsopts.TitleOpts(title客户分群3D视图)) ) scatter3d.render(cluster_3d.html)5. 业务落地常见问题为什么聚类结果不符合业务直觉检查特征相关性高相关特征会导致维度浪费尝试特征组合如客单价×购买频率可能比单独使用更有意义考虑非线性关系先用PCA降维观察数据结构如何向非技术人员解释聚类结果为每个簇起业务名称如高价值休眠客户制作雷达图对比簇特征from pyecharts.charts import Radar radar Radar().add_schema(schema).add(簇1, values1)提供典型客户案例不要只用统计数字模型迭代策略定期用新数据验证聚类稳定性设置业务指标监控如不同簇的转化率变化建立自动化重训练机制如每月第一个周一自动运行

通达信公式预警，如何实现自动下单？——自动交易小精灵使用指南

自水母量化推出打板助手2.0以来，这款基于level-2极速行情数据，能真正实现毫秒级打板买入的神器正逐步成为专业打板人士的必备工具。今天我们将为大家介绍其工作原理并通过举例演示其使用过程。(在菜单栏目中的交易程序模板即可找到打板助手)打板助手的工…...

2026/5/26 2:00:44 阅读更多 →

避坑指南：从下载到跑通第一个Cypher查询，Neo4j社区版在Windows/Mac上的完整配置流程

避坑指南：从下载到跑通第一个Cypher查询，Neo4j社区版在Windows/Mac上的完整配置流程第一次接触图数据库时，很多人会被它独特的数据模型吸引——用节点和关系代替传统的行列结构。Neo4j作为图数据库领域的代表，其直观的图形化界面…...

2026/5/26 1:58:16 阅读更多 →

告别安装失败：openEuler系统yum源配置详解与国内镜像加速方案（2023年更新）

深度优化openEuler的yum源配置：原理剖析与实战指南在开源操作系统领域，openEuler作为一款面向企业级应用的高性能发行版，正获得越来越多开发者和运维人员的青睐。然而，许多用户在初次接触openEuler时，往往会遇到软件包…...

2026/5/26 1:57:19 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/24 0:02:18 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/24 0:04:53 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/25 23:09:30 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/25 2:38:43 阅读更多 →