系统聚类的合并算法通过计算两类数据点间的距离,对最为接近的两类数据点进行组合,并反复迭代这一过程,直到将所有数据点合成一类,并生成聚类谱系图。
类与类之间的常用距离
1.由一个样品组成的类是最基本的类;如果每一类都由一个样品组成,那么样品间的距离就是类间距离。
2.如果某一类包含不止一个样品,那么就要确定类间距离,类间距离是基于样品间距离定义的,大致有如下几种定义方式:
记号:
和是两个类,是这两个类的距离。是这两个样品的距离
最短距离法(Nearest Neighbor):
最长距离法(Furthest Neighbor):
组间平均连接法(Between-group Linkage):
组内平均连接法(Within-group Linkage):
重心法(Centroid clustering):
流程
系统(层次)聚类的算法流程:
一、将每个对象看作一类,计算两两之间的最小距离;
二、将距离最小的两个类合并成一个新类;
三、重新计算新类与所有类之间的距离;
四、重复二三两步,直到所有类最后合并成一类;
五、结束。
根据计算新类与其余各类间的距离的方法不同,又可分为
最短距离系统聚类法
最长距离系统聚类法
组间平均连接系统聚类法
组内平均连接系统聚类法
重心系统聚类法
等方法,如需学习详细内容,可参考多元统计分析相关书籍。
参考教材:《多元统计分析》,何晓群,中国人民大学出版社,2008.《多元统计分析》,于秀林,中国统计出版社,2006.
注意事项
1.对于一个实际问题要根据分类的目的来选取指标,指标选取的不同分类结果一般也不同。
2.样品间距离定义方式的不同,聚类结果一般也不同。
3.聚类方法的不同,聚类结果一般也不同(尤其是样品特别多的时候)。最好能通过各种方法找出其中的共性。
4.要注意指标的量纲,量纲差别太大会导致聚类结果不合理。
5.聚类分析的结果可能不令人满意,因为我们所做的是一个数学的处理,对于结果我们要找到一个合理的解释。
使用SPSS实现系统(层次)聚类
第十讲第二部分
可视化
聚类谱系图(树状图)
使用spss绘制,第十讲第二部分
示意图
最好是不用默认的(太丑了,特别是那个背景颜色)双击图中的任意元素,可对其进行调整。
注意:只要当指标个数为2或者3的时候才能画图,上面两个图纯粹是为了演示作图过程,实际上本例中指标个数有8个,是不可能做出这样的图的
用图形估计聚类的数量
肘部法则(Elbow Method):通过图形大致的估计出最优的聚类数量。
聚合系数折线图的画法
把数据粘贴到Excel表格中,并按照降序排好。
(1)根据聚合系数折线图可知,当类别数为5时,折线的下降趋势趋缓,故可将类别数设定为5.
(2)从图中可以看出, K值从1到5时,畸变程度变化最大。超过5以后,畸变程度变化显著降低。因此肘部就是 K=5,故可将类别数设定为5.(当然,K=3也可以解释)