第一章 绪论——《数据挖掘主编吕欣、王梦宁》读书笔记参考资料《数据挖掘主编吕欣、王梦宁》XL-lab-bigdata/DataMiningCSDN / 知乎相关学习笔记《复杂网络》《Python 大数据实践》《大数据平台架构》1. 数据挖掘的时代背景1.1 大数据时代的到来随着互联网、移动通信、物联网与社交媒体的发展人类社会已经进入“大数据时代”。目前数据具有典型的4V 特征特征英文含义Volume数据量大TB、PB、EB级数据Velocity数据速度快实时流式数据Variety数据多样文本、图像、轨迹、网络Value价值密度低有价值信息占比低传统数据分析方法已经难以处理海量数据高维数据动态数据非线性复杂系统因此数据挖掘逐渐成为现代数据科学的重要基础。2. 什么是数据挖掘2.1 数据挖掘定义数据挖掘Data Mining从大量、不完全、有噪声、随机的数据中自动提取潜在有价值知识与模式的过程。其核心目标是数据(Data) ↓ 信息(Information) ↓ 知识(Knowledge) ↓ 决策(Decision)2.2 数据挖掘与传统统计分析的区别对比维度传统统计分析数据挖掘数据规模小样本海量数据数据类型结构化多源异构分析目标验证假设自动发现规律方法特点理论驱动数据驱动可扩展性较弱强3. 数据、信息与知识3.1 三者关系原始数据数据清洗统计分析信息提取知识发现决策支持3.2 数据层次分析层次特点示例数据原始记录GPS轨迹信息加工结果出行热点知识潜在规律城市中心吸引效应4. 数据挖掘与相关学科4.1 学科交叉关系数据挖掘数据库统计学机器学习人工智能复杂网络模式识别5. 数据挖掘的核心任务5.1 分类Classification监督学习问题根据已知标签训练模型对未知样本进行预测。Python 示例fromsklearn.treeimportDecisionTreeClassifierfromsklearn.model_selectionimporttrain_test_split X_train,X_test,y_train,y_testtrain_test_split(X,y)clfDecisionTreeClassifier()clf.fit(X_train,y_train)predclf.predict(X_test)5.2 聚类Clustering无监督学习自动发现数据中的潜在结构。K-Means 聚类流程否是随机初始化中心计算样本距离重新划分簇更新中心是否收敛结束Python 示例fromsklearn.clusterimportKMeans modelKMeans(n_clusters4,random_state42)model.fit(X)labelsmodel.labels_5.3 回归分析Regression线性回归模型y\beta_0\beta_1x\epsilonPython 示例fromsklearn.linear_modelimportLinearRegression modelLinearRegression()model.fit(X_train,y_train)y_predmodel.predict(X_test)6. 数据挖掘的一般流程数据采集数据清洗特征工程模型训练模型评估知识解释7. 模型评估指标分类任务指标指标含义Accuracy准确率Precision精确率Recall召回率F1-score综合指标回归任务指标指标含义RMSE均方根误差MAE平均绝对误差R²拟合优度R²公式R^21-\frac{\sum(y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}8. 大数据平台架构Hadoop 生态Hadoop EcosystemHDFSMapReduceHiveSparkHBase9. 数据挖掘在复杂系统中的应用城市科学应用包括城市功能区识别mobility regime碳排放预测交通优化疫情传播Mobility Network SEIR Model Machine Learning ↓ Epidemic Prediction10. 个人理解与思考我认为数据挖掘不仅是一种算法工具更是一种理解复杂系统的方法。未来数据挖掘的重要方向包括方向特点图神经网络网络结构学习因果推断超越相关性时空数据挖掘动态系统可解释AI增强可信度多模态学习图文融合11. 总结数据挖掘本质上是从复杂数据中发现规律、提取知识、辅助决策的过程。随着AI大数据复杂网络城市计算的发展数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。参考资料《数据挖掘主编吕欣、王梦宁》XL-lab-bigdata/DataMining《复杂网络》《Python 大数据实践》《大数据平台架构》