15-额外复习知识点_在线真题试卷与模拟练习_15-额外复习知识点_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

KNN的核心是距离计算。SVM（使用线性核时）的优化目标依赖于样本间的点积，但通常不直接称为“距离计算”，而更依赖于几何间隔。

D错误，正则化思想广泛应用于线性模型、逻辑回归、神经网络等多种模型。

E是基础做法，但通常需要结合A-D中的方法构造更有信息量的特征。

D更适合线性模型（如逻辑回归+SGD）或基于树但做了优化的模型（如LightGBM）。E中，线性模型（如线性回归）的预测速度通常比树模型快。

E过于绝对，虽然可解释性差，但仍有部分方法（如注意力机制、特征可视化）可以提供一定程度的解释。

数据预处理与KNN分类题目：使用Scikit-learn库，完成以下任务： 1. 加载鸢尾花数据集（sklearn.datasets.load_iris）。 2. 将数据集划分为训练集（70%）和测试集（30%），并确保分层抽样。 3. 对特征进行标准化处理（使用StandardScaler，注意数据泄漏问题）。 4. 使用K近邻分类器（KNeighborsClassifier）进行训练，并通过网格搜索（GridSearchCV）在训练集上对参数n_neighbors（范围1-10）和weights（['uniform', 'distance']）进行5折交叉验证调优。 5. 输出最佳参数组合，并用最佳模型在测试集上计算准确率。

线性回归与性能评估题目：使用Scikit-learn库，完成以下任务： 1. 使用sklearn.datasets.make_regression生成一个包含100个样本、5个特征、有噪声的线性回归数据集。 2. 将数据集划分为训练集（80%）和测试集（20%）。 3. 训练一个普通线性回归模型（LinearRegression）和一个经过L2正则化的岭回归模型（Ridge，设置alpha=1.0）。 4. 在测试集上，分别计算两个模型的以下指标：均方误差、平均绝对误差和R²分数。 5. 打印两个模型的系数，并简要对比普通线性回归和岭回归系数的差异。

决策树可视化与特征重要性题目：使用Scikit-learn和Matplotlib的plot_tree，完成以下任务： 1. 加载乳腺癌数据集（sklearn.datasets.load_breast_cancer）。 2. 划分训练集（75%）和测试集（25%）。 3. 训练一个决策树分类器（DecisionTreeClassifier），设置max_depth=3以便可视化，并使用训练集训练。 4. 使用sklearn.tree.plot_tree函数可视化训练好的决策树。 5. 输出该决策树模型在测试集上的准确率、精确率、召回率和F1分数。 6. 输出并解释模型的特征重要性（feature_importances_），指出最重要的两个特征。

数据预处理与KNN分类 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split, GridSearchCV from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 1. 加载数据 iris = load_iris() X, y = iris.data, iris.target # 2. 划分数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y) # 3. 标准化处理 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) # 只在训练集上拟合 X_test_scaled = scaler.transform(X_test) # 用训练集的参数转换测试集 # 4. 定义模型和参数网格 knn = KNeighborsClassifier() param_grid = { 'n_neighbors': list(range(1, 11)), 'weights': ['uniform', 'distance'] } # 网格搜索 grid_search = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy') grid_search.fit(X_train_scaled, y_train) # 5. 输出结果 print("最佳参数：", grid_search.best_params_) best_knn = grid_search.best_estimator_ y_pred = best_knn.predict(X_test_scaled) test_accuracy = accuracy_score(y_test, y_pred) print(f"测试集准确率：{test_accuracy:.4f}")【缺少答案，请补充】

线性回归与性能评估 from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression, Ridge from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # 1. 生成数据 X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42) # 2. 划分数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 3. 训练模型 lr = LinearRegression() ridge = Ridge(alpha=1.0) lr.fit(X_train, y_train) ridge.fit(X_train, y_train) # 4. 预测和评估 y_pred_lr = lr.predict(X_test) y_pred_ridge = ridge.predict(X_test) def evaluate_model(name, y_true, y_pred): mse = mean_squared_error(y_true, y_pred) mae = mean_absolute_error(y_true, y_pred) r2 = r2_score(y_true, y_pred) print(f"{name} - MSE: {mse:.4f}, MAE: {mae:.4f}, R²: {r2:.4f}") evaluate_model("线性回归", y_test, y_pred_lr) evaluate_model("岭回归", y_test, y_pred_ridge) # 5. 对比系数 print("\n系数对比：") print("线性回归系数：", lr.coef_) print("岭回归系数：", ridge.coef_) print("岭回归的系数通常更小（被压缩），这有助于防止过拟合。")【缺少答案，请补充】

决策树可视化与特征重要性 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier, plot_tree, export_graphviz from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score import matplotlib.pyplot as plt # 1. 加载数据 data = load_breast_cancer() X, y = data.data, data.target feature_names = data.feature_names # 2. 划分数据集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42) # 3. 训练决策树 dt = DecisionTreeClassifier(max_depth=3, random_state=42) dt.fit(X_train, y_train) # 4. 可视化方法一：使用plot_tree plt.figure(figsize=(15, 10)) plot_tree(dt, feature_names=feature_names, class_names=['恶性', '良性'], filled=True, rounded=True, fontsize=10) plt.title("决策树结构可视化") plt.show() # 5. 评估模型 y_pred = dt.predict(X_test) print(f"准确率：{accuracy_score(y_test, y_pred):.4f}") print(f"精确率：{precision_score(y_test, y_pred):.4f}") print(f"召回率：{recall_score(y_test, y_pred):.4f}") print(f"F1分数：{f1_score(y_test, y_pred):.4f}") # 6. 特征重要性 importances = dt.feature_importances_ feature_importance_dict = dict(zip(feature_names, importances)) sorted_features = sorted(feature_importance_dict.items(), key=lambda x: x[1], reverse=True) print("\n特征重要性排序（前5）：") for feature, importance in sorted_features[:5]: print(f"{feature}：{importance:.4f}") print(f"\n最重要的两个特征是：'{sorted_features[0][0]}' 和 '{sorted_features[1][0]}'")

简述决策树的原理以及决策过程。

简述梯度下降的原理，以及在神经网络算法中的作用。【缺少答案，请补充】

列举至少两种集成学习的算法，并简述其原理。

列举至少两种聚类算法，并简述其原理。

举例说明机器学习在实际生活中的应用，包括用到的算法、算法原理简介、应用场景、作用。（举例：KNN算法可用于电商推荐系统，给用户推荐可能感兴趣的商品（KNN算法原理介绍此处省略）。）

列举你所熟知的国内外大模型，及其常用的功能（如文生图等）。

1