数据挖掘6-7-8-10_在线真题试卷与模拟练习_数据挖掘6-7-8-10

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

数据挖掘的过程包括数据预处理、数据挖掘、模式评估和________。

监督学习的模型评估指标中，________用于衡量模型的泛化能力。

数据清洗中，处理缺失值的填充方法包括均值填充、中位数填充和________。

决策树的纯度度量指标包括熵、基尼指数和________。

关联规则挖掘中，________是指包含两个项目的项集。

简述数据预处理的必要性，并说明数据标准化的两种常用方法。

辨析过拟合和欠拟合的含义，说明如何避免这两种情况。

简述支持向量机的工作原理，并说明核函数的作用

辨析监督学习、无监督学习和半监督学习的区别，并各举一个应用场景

（含图）

已知两个样本点A(2, 3)和B(5, 7)，请计算它们的曼哈顿距离、欧氏距离和切比雪夫距离。

以下代码用于实现DBSCAN算法对合成数据集的聚类，请补全空缺部分。

（含图）

简述K-Means算法的工作原理，并说明其优缺点。

辨析关联规则的支持度、置信度和提升度的含义及作用

（含图）

以下代码用于实现线性回归模型对波士顿房价数据集的预测，请补全空缺部分。

import pandas as pd

import numpy as np

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import mean_squared_error, r2_score

# 1. 导入数据

data = pd.read_csv('boston_housing.csv')

X = data.drop('medv', axis=1) # 特征矩阵（去除房价列）

y = data['medv'] # 目标变量（房价）

# 2. 数据标准化

scaler = StandardScaler()

X_scaled = scaler.______________(X)

# 3. 划分训练集和测试集（测试集占比30%）

X_train, X_test, y_train, y_test = train_test_split(

X_scaled, y, test_size=0.3, random_state=100

)

# 4. 构建线性回归模型

lr = LinearRegression()

lr.fit(______________, y_train)

# 5. 模型预测与评估

y_pred = lr.predict(______________)

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f"均方误差（MSE）：{mse:.2f}")

print(f"决定系数（R²）：{r2:.2f}")

# 6. 输出模型系数

print("模型系数：")

for feature, coef in zip(X.columns, lr.coef_):

print(f"{feature}: {coef:.3f}")

print(f"截距：{lr.intercept_:.3f}")

简述KNN算法的工作原理，并说明K值选择对模型性能的影响

辨析数据清洗和数据集成的含义及主要任务

某超市的交易数据中，共有1000笔交易，其中购买牛奶的有300笔，购买面包的有200笔，同时购买牛奶和面包的有150笔。请计算“牛奶→面包”的支持度、置信度和提升度。

1 3 4 5 6 7 8