第三章聚类分析_在线真题试卷与模拟练习_第三章聚类分析_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

为了研究辽宁、浙江、河南、甘肃、青海5省份2016年城镇居民人均消费支出（包含食品烟酒支出$$ X_1 $$、衣着支出$$ X_2 $$、居住支出$$ X_3 $$、生活用品及服务支出$$ X_4 $$、交通通信支出$$ X_5 $$、教育文化娱乐支出$$ X_6 $$、医疗保健支出$$ X_7 $$、其他用品及服务支出$$ X_8 $$，原始数据见表3.5）的分布规律，采用系统聚类法（最短距离法）作类型划分，步骤如下： 1. **样品与初始类别**：将每个省份视为一个样品，初始类别为\( G_1=\{辽宁\}、G_2=\{浙江\}、G_3=\{河南\}、G_4=\{甘肃\}、G_5=\{青海\} \)。 2. **初始距离矩阵$$ D_0 $$**：计算五省份间的欧氏距离，得到距离矩阵$$ D_0 $$（下三角部分，如截图2所示，其中青海与甘肃的欧氏距离最小，为650.44）。 3. **第一次聚类（合并$$ G_4 $$与$$ G_5 $$）**：选择$$ D_0 $$中最小元素\( D(甘肃,青海)=650.44 \)，将$$ G_4 $$（甘肃）和$$ G_5 $$（青海）合并为新类\( G_6=\{甘肃,青海\} \)，利用最短距离法公式$$ D(6,i)=\min\{D(4,i),D(5,i)\} $$（$$ i=1,2,3 $$，对应$$ G_1、G_2、G_3 $$）计算$$ G_6 $$与各类的距离：$$ d_{61}=\min\{2091.25,1631.27\}=1631.27 $$、$$ d_{62}=\min\{5333.50,4936.59\}=4936.59 $$、$$ d_{63}=\min\{923.14,1474.24\}=923.14 $$，更新距离矩阵为$$ D_1 $$（如截图5所示，包含$$ G_1、G_2、G_3、G_6 $$的距离）。 4. **第二次聚类（合并$$ G_6 $$与$$ G_3 $$）**：在$$ D_1 $$中，最小距离为$$ d_{63}=923.14 $$（$$ G_6 $$与$$ G_3 $$的距离），将$$ G_6 $$与$$ G_3 $$（河南）合并为新类\( G_7=\{G_6,河南\} \)，后续按公式$$ D(7,i)=\min\{D(3,i),D(6,i)\} $$计算$$ G_7 $$与其他类的距离，依此继续聚类。【缺少答案，请补充】

结合最短距离法的聚类示例，说明类间最小距离的判断、新类距离的更新规则及完整聚类过程。

写出最长距离法的距离递推公式，并说明其聚类步骤。

分析最短距离法链接聚合现象的原因，及最长距离法的改进机制。

简述最短距离法的主要缺点及最长距离法如何克服该缺点。

根据图3-7（最长距离法的谱系聚类图），分析聚类过程及结果。 (缺图)

简述重心法的类间距离计算方法（含公式推导）。

简述类平均法的定义及与重心法的区别。

根据图3-8（重心法的谱系聚类图），分析聚类过程及结果。 (缺图)

四个单指标样品，取值：1、2、5、9，使用最短距离法作聚类分析，画出谱系图。【缺少答案，请补充】

四个单指标样品，取值：1、2、6、9，使用最长距离法作聚类分析，画出谱系图。【缺少答案，请补充】

四个单指标样品，取值：1、2、5、9，使用类平均值法作聚类分析，画出谱系图。【缺少答案，请补充】

四个单指标样品，取值：1、2、5、9，使用类平均值法作聚类分析，画出谱系图。【缺少答案，请补充】（含图）

对于有序样品的分类，假设用 $$ x_1, x_2, \cdots, x_n $$ 表示 $$ n $$ 个有顺序的样品，分类结果要求每一类必须呈 $$ \{x_i, x_{i+1}, \cdots, x_{i+j}\}, i \geq 1, j \geq 0 $$，由于增加了有序这个约束条件，对分类带来哪些影响？【缺少答案，请补充】

n个样品分成k类，若样品彼此平等，可能的分法数是什么？若为有序样品，可能的分法数又是什么？请分别写出其表达式。

最优分割法的依据是什么？它与系统聚类法中的离差平方和法有何不同？

简述最优分割法中类的直径的定义及常用的直径计算方式。

请根据上述数据，使用SPSS软件的系统聚类法对这些国家和地区进行聚类分析，写出具体的操作步骤。

在SPSS中对某15个国家和地区（含阿富汗、中国、中国香港、中国澳门、印度、印度尼西亚、马来西亚、以色列、日本、老挝、菲律宾、沙特阿拉伯、新加坡、韩国、泰国）的6个指标变量进行系统聚类分析（Q型聚类），操作步骤如下： 1. 数据录入与菜单选择：在SPSS数据窗口录入数据后，选择“Analyze→Classify→Hierarchical Cluster”命令，将6个指标变量选入“Variable(s)”框，代表国家和地区的变量选入“Label Cases by”框；在“Cluster”选项中选择“Cases”（即对样品聚类，Q型聚类），“Display”部分选择“Statistics”（统计量）和“Plots”（图）。 2. 对话框参数设置： - “Statistics”按钮：勾选“Agglomeration schedule”（每一阶段聚类的结果）和“Proximity matrix”（样品间相似性矩阵，此处为非相似性矩阵，Squared Euclidean Distance），“Cluster Membership”选择“None”（不指定聚类个数），点击“Continue”。 - “Plots”按钮：勾选“Dendrogram”（谱系聚类图或树状聚类图），点击“Continue”。 - “Method”按钮：“Cluster Method”选择“Within - groups linkage（组内联结法）”，“Measure”选择“平方欧氏距离”，“Transform Values”选择“Z scores”（对数据进行标准化处理），点击“Continue”。 - “Save”按钮：选择保存样本被聚为3类的结果，在弹出对话框中点选“Single solution”，并在“Number of clusters”右侧框中填入3，点击“Continue”后点击“OK”运行。 3. 运行结果：数据窗口新增变量“CLU3_1”（聚为3类的分类结果），同时得到表3 - 8（接近度矩阵，Squared Euclidean Distance，非相似性矩阵，行、列均为15个国家和地区，数值为平方欧氏距离，如阿富汗与中国的平方欧氏距离为14.746，阿富汗与印度的为4.824等）和表3 - 9（Agglomeration Schedule，凝聚性表，包含“Stage”“Cluster Combined（Cluster 1、Cluster 2）”“Coefficients”“Stage Cluster First Appears（Cluster 1、Cluster 2）”“Next Stage”等列，如Stage 1中Cluster 10与Cluster 11合并，Coefficients为0.288等）等输出。【缺少答案，请补充】

输出结果表3-8为接近度矩阵（样品间距离矩阵），反映样品相似性/相异性（平方欧氏距离下，距离越大差异越大；Pearson相关系数下为相似性矩阵），老挝与菲律宾距离最小，最先聚为一类。表3-9（Agglomeration Schedule）展示各阶段聚类结果：“Coefficients”为聚合系数，第2、3列是聚合的类（如Stage=1时，第10、11个样品聚为一类，此时有14类）；某阶段分类数=总样品数-阶段序号。图3-12为聚合系数-分类数曲线，图3-13为冰柱图，图3-14为树状聚类图。请结合材料回答： (1) 解释“Coefficients”（聚合系数）的含义，推导某阶段分类数的计算公式。 (2) 根据图3-12，说明合适分类数的确定依据及结果。 (3) 结合树状聚类图（图3-14），描述样品的聚类过程。【缺少答案，请补充】

根据图3-14的树状聚类图（或结合冰柱图的分析），当类数为3时，分析15个国家和地区的分类结果，并结合经济水平和人口状况说明分类依据。（含图）（含图）

简述使用SPSS快速聚类法（K-Means Cluster）对15个国家和地区按经济水平和人口状况（6个指标变量）进行聚类（分为3类）的操作步骤。