《数据挖掘（主编：吕欣、王梦宁）》读书笔记总结

张

张建站

2026/5/19 23:17:40

10分钟阅读

第一章绪论——《数据挖掘主编吕欣、王梦宁》读书笔记参考资料《数据挖掘主编吕欣、王梦宁》XL-lab-bigdata/DataMiningCSDN / 知乎相关学习笔记《复杂网络》《Python 大数据实践》《大数据平台架构》1. 数据挖掘的时代背景1.1 大数据时代的到来随着互联网、移动通信、物联网与社交媒体的发展人类社会已经进入“大数据时代”。目前数据具有典型的4V 特征特征英文含义Volume数据量大TB、PB、EB级数据Velocity数据速度快实时流式数据Variety数据多样文本、图像、轨迹、网络Value价值密度低有价值信息占比低传统数据分析方法已经难以处理海量数据高维数据动态数据非线性复杂系统因此数据挖掘逐渐成为现代数据科学的重要基础。2. 什么是数据挖掘2.1 数据挖掘定义数据挖掘Data Mining从大量、不完全、有噪声、随机的数据中自动提取潜在有价值知识与模式的过程。其核心目标是数据(Data) ↓ 信息(Information) ↓ 知识(Knowledge) ↓ 决策(Decision)2.2 数据挖掘与传统统计分析的区别对比维度传统统计分析数据挖掘数据规模小样本海量数据数据类型结构化多源异构分析目标验证假设自动发现规律方法特点理论驱动数据驱动可扩展性较弱强3. 数据、信息与知识3.1 三者关系原始数据数据清洗统计分析信息提取知识发现决策支持3.2 数据层次分析层次特点示例数据原始记录GPS轨迹信息加工结果出行热点知识潜在规律城市中心吸引效应4. 数据挖掘与相关学科4.1 学科交叉关系数据挖掘数据库统计学机器学习人工智能复杂网络模式识别5. 数据挖掘的核心任务5.1 分类Classification监督学习问题根据已知标签训练模型对未知样本进行预测。Python 示例fromsklearn.treeimportDecisionTreeClassifierfromsklearn.model_selectionimporttrain_test_split X_train,X_test,y_train,y_testtrain_test_split(X,y)clfDecisionTreeClassifier()clf.fit(X_train,y_train)predclf.predict(X_test)5.2 聚类Clustering无监督学习自动发现数据中的潜在结构。K-Means 聚类流程否是随机初始化中心计算样本距离重新划分簇更新中心是否收敛结束Python 示例fromsklearn.clusterimportKMeans modelKMeans(n_clusters4,random_state42)model.fit(X)labelsmodel.labels_5.3 回归分析Regression线性回归模型y\beta_0\beta_1x\epsilonPython 示例fromsklearn.linear_modelimportLinearRegression modelLinearRegression()model.fit(X_train,y_train)y_predmodel.predict(X_test)6. 数据挖掘的一般流程数据采集数据清洗特征工程模型训练模型评估知识解释7. 模型评估指标分类任务指标指标含义Accuracy准确率Precision精确率Recall召回率F1-score综合指标回归任务指标指标含义RMSE均方根误差MAE平均绝对误差R²拟合优度R²公式R^21-\frac{\sum(y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}8. 大数据平台架构Hadoop 生态Hadoop EcosystemHDFSMapReduceHiveSparkHBase9. 数据挖掘在复杂系统中的应用城市科学应用包括城市功能区识别mobility regime碳排放预测交通优化疫情传播Mobility Network SEIR Model Machine Learning ↓ Epidemic Prediction10. 个人理解与思考我认为数据挖掘不仅是一种算法工具更是一种理解复杂系统的方法。未来数据挖掘的重要方向包括方向特点图神经网络网络结构学习因果推断超越相关性时空数据挖掘动态系统可解释AI增强可信度多模态学习图文融合11. 总结数据挖掘本质上是从复杂数据中发现规律、提取知识、辅助决策的过程。随着AI大数据复杂网络城市计算的发展数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。参考资料《数据挖掘主编吕欣、王梦宁》XL-lab-bigdata/DataMining《复杂网络》《Python 大数据实践》《大数据平台架构》

使用 Python 快速将现有项目接入 Taotoken 聚合平台

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度使用 Python 快速将现有项目接入 Taotoken 聚合平台如果你已经在使用 OpenAI 官方的 Python SDK 进行开发，希望接入 T…...

2026/5/19 23:16:47 阅读更多 →

Meshroom 3D重建终极指南：从零到专业的三步进阶之路

Meshroom 3D重建终极指南：从零到专业的三步进阶之路【免费下载链接】Meshroom Node-based Visual Programming Toolbox 项目地址: https://gitcode.com/gh_mirrors/me/Meshroom Meshroom作为一款基于AliceVision框架的开源3D重建软件，通过节点化…...

2026/5/19 23:15:42 阅读更多 →

RAG瓶颈找到了，ACL 2026新作

如果你做过 RAG 系统，大概率经历过这种挫败感：检索器明明找到了正确答案，LLM 却还是答错了。这证明检索没问题。这是信息整合的问题。传统 RAG 把原始文档直接塞进 LLM 上下文，让模型自己去「读」——听起来合理，实…...

2026/5/19 23:13:26 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/19 12:48:20 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →