别再死记硬背了！用Python+Sklearn实战复现机器学习期末考题（附完整代码）

张

张建站

2026/5/15 6:03:49

10分钟阅读

别再死记硬背了！用Python+Sklearn实战复现机器学习期末考题（附完整代码）

用PythonSklearn把机器学习考题变成实战项目从死记硬背到真正掌握期末考试季又到了那些枯燥的机器学习选择题和简答题是否让你头疼不已与其机械记忆KNN是有监督学习这样的知识点不如打开Jupyter Notebook用代码亲手验证每个概念。本文将带你用Python和Sklearn库把典型的期末考题转化为可运行的实验项目——当你看到自己实现的朴素贝叶斯分类器准确率达到95%时那些公式和定义自然会深深刻在脑海中。1. 从选择题到代码验证建立你的机器学习实验室1.1 搭建基础实验环境首先确保你的Python环境已安装以下核心库pip install numpy pandas matplotlib scikit-learn典型的机器学习选择题往往考察基础概念比如这道题 K近邻算法是(A) A.有监督学习 B.无监督学习我们可以用代码来验证这个结论。创建一个虚拟数据集并观察KNN的工作方式from sklearn.neighbors import KNeighborsClassifier import numpy as np # 创建特征矩阵和标签向量 X np.array([[3,2], [3,1], [1,3], [3,4], [2,2], [7,4], [5,3], [9,2]]) y np.array([0, 0, 0, 0, 1, 1, 1, 1]) # 有明确标签 # 实例化KNN分类器 knn KNeighborsClassifier(n_neighbors3) knn.fit(X, y) # 这一步就是监督学习的关键注意所有有监督学习算法都必须调用fit(X,y)方法而无监督学习只需fit(X)1.2 选择题变实验解决欠拟合问题考题问以下属于解决模型欠拟合的方法是(C) A、增加训练数据量 B、对模型进行裁剪 C、增加训练过程的迭代次数让我们用线性回归做个对比实验from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error # 生成欠拟合数据 X np.array([1, 2, 3, 4, 5]).reshape(-1,1) y np.array([3, 4, 6, 8, 9]) # 默认迭代次数(通常为1000次) model_default LinearRegression() model_default.fit(X, y) pred_default model_default.predict(X) # 增加迭代次数到5000次 model_more_iter LinearRegression(max_iter5000) model_more_iter.fit(X, y) pred_more_iter model_more_iter.predict(X) print(f默认迭代MSE: {mean_squared_error(y, pred_default):.4f}) print(f增加迭代MSE: {mean_squared_error(y, pred_more_iter):.4f})2. 名词解释的代码诠释让抽象概念具象化2.1 可视化理解欠拟合与过拟合考题要求解释欠拟合我们可以用多项式回归来演示import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import make_pipeline # 生成带噪声的数据 np.random.seed(42) X np.linspace(0, 10, 20) y 0.5*X**2 X 2 np.random.normal(0, 3, 20) # 不同阶数的多项式回归 degrees [1, 2, 10] plt.figure(figsize(12,4)) for i, degree in enumerate(degrees): model make_pipeline(PolynomialFeatures(degree), LinearRegression()) model.fit(X[:, np.newaxis], y) y_pred model.predict(X[:, np.newaxis]) plt.subplot(1, 3, i1) plt.scatter(X, y, colorblue) plt.plot(X, y_pred, colorred) plt.title(fDegree {degree})2.2 用代码理解朴素贝叶斯公式考题给出的朴素贝叶斯判定公式H(x)argmax P(Ci)ΠP(ak|ci)用Sklearn的GaussianNB实现并拆解计算过程from sklearn.naive_bayes import GaussianNB from sklearn.datasets import load_iris iris load_iris() X, y iris.data[:, :2], iris.target # 取前两个特征 gnb GaussianNB() gnb.fit(X, y) # 手动计算第一个样本的类条件概率 sample_idx 0 for class_idx in range(3): prior np.log(gnb.class_prior_[class_idx]) likelihood np.sum(np.log(gnb._joint_log_likelihood(X[sample_idx:sample_idx1])[0][class_idx])) print(fClass {class_idx}: prior {prior:.2f} likelihood {likelihood:.2f} {priorlikelihood:.2f}) # 对比sklearn预测结果 print(f\nSklearn预测: {gnb.predict(X[sample_idx:sample_idx1])[0]})3. 简答题的代码解答从理论描述到实践验证3.1 用代码解释决策树原理考题问决策树算法的原理是什么用可视化工具展示决策过程比文字描述更直观from sklearn.tree import DecisionTreeClassifier, plot_tree from sklearn.datasets import load_breast_cancer data load_breast_cancer() X, y data.data[:, :2], data.target # 取前两个特征 dt DecisionTreeClassifier(max_depth3) dt.fit(X, y) plt.figure(figsize(12,8)) plot_tree(dt, filledTrue, feature_namesdata.feature_names[:2], class_namesdata.target_names) plt.show()3.2 SVM线性不可分的可视化理解考题要求解释SVM中的线性不可分概念。我们用核技巧来演示from sklearn.svm import SVC from sklearn.datasets import make_circles X, y make_circles(n_samples100, noise0.1, factor0.5) # 线性核 svm_linear SVC(kernellinear).fit(X, y) # 高斯核(RBF) svm_rbf SVC(kernelrbf).fit(X, y) # 绘制决策边界 def plot_decision_boundary(model, X, y): x_min, x_max X[:, 0].min()-0.5, X[:, 0].max()0.5 y_min, y_max X[:, 1].min()-0.5, X[:, 1].max()0.5 xx, yy np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100)) Z model.predict(np.c_[xx.ravel(), yy.ravel()]).reshape(xx.shape) plt.contourf(xx, yy, Z, alpha0.3) plt.scatter(X[:,0], X[:,1], cy) plt.figure(figsize(12,5)) plt.subplot(121) plot_decision_boundary(svm_linear, X, y) plt.title(Linear Kernel - 无法分割) plt.subplot(122) plot_decision_boundary(svm_rbf, X, y) plt.title(RBF Kernel - 成功分割)4. 编程题的深度扩展超越考题要求4.1 完整机器学习工作流实现考题要求说明用简单线性回归算法进行数据回归的编程步骤我们可以实现一个完整流程from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.pipeline import Pipeline from sklearn.metrics import r2_score # 完整流程示例 def ml_pipeline_demo(): # 1. 数据准备 X np.array([1,2,3,4,5]).reshape(-1,1) y np.array([3,4,6,8,9]) X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2) # 2. 创建管道(标准化回归) pipe Pipeline([ (scaler, StandardScaler()), (regressor, LinearRegression()) ]) # 3. 训练模型 pipe.fit(X_train, y_train) # 4. 评估模型 y_pred pipe.predict(X_test) print(fR² Score: {r2_score(y_test, y_pred):.2f}) # 5. 可视化 plt.scatter(X_train, y_train, colorblue, labelTrain) plt.scatter(X_test, y_test, colorgreen, labelTest) plt.plot(X, pipe.predict(X), colorred, labelPrediction) plt.legend() ml_pipeline_demo()4.2 模型评估指标对比考题提到多个评估指标(MAE、MSE、R²)我们可以系统比较from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score def evaluate_metrics(y_true, y_pred): metrics { MAE: mean_absolute_error(y_true, y_pred), MSE: mean_squared_error(y_true, y_pred), RMSE: np.sqrt(mean_squared_error(y_true, y_pred)), R²: r2_score(y_true, y_pred) } return pd.DataFrame(metrics, index[Value]).T # 用之前的线性回归结果 y_true [3,4,6,8,9] y_pred pipe.predict(np.array([1,2,3,4,5]).reshape(-1,1)) evaluate_metrics(y_true, y_pred)提示在实际项目中建议使用交叉验证获取更可靠的评估结果from sklearn.model_selection import cross_val_score scores cross_val_score(pipe, X, y, cv3, scoringr2) print(f交叉验证R²: {scores.mean():.2f} (±{scores.std():.2f}))5. 期末考题的进阶挑战5.1 超参数调优实战考题通常不涉及参数调优但这是实际项目中的关键步骤from sklearn.model_selection import GridSearchCV # 为KNN寻找最佳n_neighbors param_grid {n_neighbors: range(1, 15)} knn KNeighborsClassifier() grid_search GridSearchCV(knn, param_grid, cv5) grid_search.fit(X, y) print(f最佳参数: {grid_search.best_params_}) print(f最佳得分: {grid_search.best_score_:.2f}) # 可视化不同K值表现 results pd.DataFrame(grid_search.cv_results_) plt.plot(param_grid[n_neighbors], results[mean_test_score]) plt.xlabel(n_neighbors) plt.ylabel(CV Accuracy)5.2 从单一算法到集成方法超越考题范围探索更强大的模型from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import learning_curve # 随机森林示例 rf RandomForestClassifier(n_estimators100) train_sizes, train_scores, test_scores learning_curve( rf, X, y, cv5, train_sizesnp.linspace(0.1, 1.0, 5)) # 绘制学习曲线 plt.plot(train_sizes, np.mean(train_scores, axis1), labelTraining score) plt.plot(train_sizes, np.mean(test_scores, axis1), labelCross-validation score) plt.xlabel(Training examples) plt.ylabel(Accuracy) plt.legend()在期末考试中遇到决策树有几种算法这样的问题时不妨想想我们刚刚实现的RandomForest——它正是由多棵决策树组成的集成算法。这种理论与实践的结合不仅能帮你考出好成绩更能培养真正的机器学习工程能力。

OpenClaw多模型路由策略：百川2-13B与CodeLlama任务分配逻辑

OpenClaw多模型路由策略：百川2-13B与CodeLlama任务分配逻辑 1. 为什么需要多模型路由？ 去年我在搭建个人AI助手时遇到一个典型问题：当我把所有任务都交给同一个大模型处理时，发现代码生成任务的质量总是不尽如人意。后来通过日志…...

2026/5/15 6:02:39 阅读更多 →

JAVA继承实战：福彩3D奖金计算系统设计与实现

1. 福彩3D奖金计算系统需求分析福彩3D作为国内流行的数字型彩票游戏，其奖金计算规则复杂多样。不同玩法对应不同的中奖条件和奖金金额，这对程序的设计提出了较高要求。比如单选玩法要求数字和位置完全匹配，奖金高达1040元；而组选…...

2026/5/12 15:51:34 阅读更多 →

本地AI部署完全指南：在普通设备上运行强大AI模型的实用方案

本地AI部署完全指南：在普通设备上运行强大AI模型的实用方案【免费下载链接】LocalAI mudler/LocalAI: LocalAI 是一个开源项目，旨在本地运行机器学习模型，减少对云服务的依赖，提高隐私保护。项目地址: https://gitcode.com/Gi…...

2026/5/12 15:51:37 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/15 4:35:33 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/15 1:45:17 阅读更多 →