# 生成测试数据
# 产生0-1之间均匀分布Uniform Distribution的数值
x = runif(10)
y = runif(10)
# 得到2维的数组:按列合并
S = cbind(x,y)
# 赋予名称,便于识别分类:生成Name1-Name10的系列名赋予数组行名
rownames(S) = paste("Name",1:10,"")
# 数值计算距离
out.dist=dist(S,method="euclidean")
# 注释:在聚类中求两点的距离有:
# 1,绝对距离:manhattan
# 2,欧氏距离:euclidean 默认
# 3,闵科夫斯基距离:minkowski
# 4,切比雪夫距离:chebyshev
# 5,马氏距离:mahalanobis
# 6,蓝氏距离:canberra
# 根据距离聚类
out.hclust=hclust(out.dist,method="complete")
# 注释:聚类中集合之间的距离:
# 1,类平均法:average
# 2,重心法:centroid
# 3,中间距离法:median
# 4,最长距离法:complete 默认
# 5,最短距离法:single
# 6,离差平方和法:ward
# 7,密度估计法:density
# 聚类结果绘图
plclust(out.hclust)
plclust有的版本不认别,可用plot代替
# 添加聚类分类矩形,如分为3类
rect.hclust(out.hclust, k=3)
# 得到分为3类的数值
out.id = cutree(out.hclust, k=3)
out.id
# 以矩阵的方式分辨名称对应的类
table(out.id,paste("Name",1:10,""))
直接返回的样本对应分组列表,可用table转换为矩阵格式