Kohonen聚类python python k-means聚类算法

转载

技术博客达人 2023-11-27 13:09:22

文章标签 Kohonen聚类python python k-means 聚类数据 文章分类 Python 后端开发

我对聚类算法的理解：将一堆，无划分的数据，通过它们之间的相似度进行划分。（简单粗暴^。^）

根据上面的理解，K-means算法就能知名晓意了：就是将一堆无划分的样本数据，定义需要划分为K堆，然后通过每个样本数据点与中心点间的距离进行归簇。（在k-means中需要在划分前需指定中心点，这是它的缺点）

下面是官方一点的说法：

Ｋ-Means算法是最为经典的基于划分的聚簇方法，是十大经典数据挖掘算法之一。简单的说Ｋ-Means就是在没有任何监督信号的情况下将数据分为K份的一种方法。聚类算法就是无监督学习中最常见的一种，给定一组数据，需要聚类算法去挖掘数据中的隐含信息。聚类算法的应用很广：顾客行为聚类，google新闻聚类等。K值是聚类结果中类别的数量。

其实k-means算法真的简单，先不说代码，就说原理，你只要仔细理解一遍，用自己的语言总结一下，慢慢就能摸索出代码。我刚学时参考了一篇博客，找不到连接了，很感谢他写的很简单，理解的很快，过了一段时间用自己的思路将代码摸索了出来。直接看完整代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

global K
global N
global spot
global unite
global mean
global count

def cluster():  #划分每个点一个到簇
    global unite
    unite = []      #这里千万注意，需要每次都定义，否则会重复添加长度。当下一次运行cluster函数时才会重置unite列表
    for i in range(K):
        unite.append([])
    for i in range(len(spot)):
        max_max = np.iinfo(np.int32).max  #预定义一个极大值,用于比较
        flag = -1
        for j in range(K):
            n = (spot[i][0]-mean[j][0])**2+(spot[i][1]-mean[j][1])**2
            if(n<max_max):
                max_max = n
                flag = j
        unite[flag].append(spot[i])
    for i in range(K):
        print("第{}簇：{}".format(i,unite[i]))

def square_d():
    global count
    sum_E = 0
    for i in range(len(unite)):
        for j in range(len(unite[i])):
            sum_E += ((unite[i][j][0]-mean[i][0])**2 + (unite[i][j][1]-mean[i][1])**2)
    count +=1
    return sum_E

def remean():
    for i in range(len(unite)):
        sum_x = 0
        sum_y = 0
        for j in range(len(unite[i])):
            sum_x += unite[i][j][0]
            sum_y += unite[i][j][1]
        # if(len(unite[i]) == 0):     #分母不为0，如果前面判断了中心值不一样可以省略
        #     mean[i] = (0,0)
        # else:
        #     mean[i] = (sum_x/len(unite[i]),sum_y/len(unite[i]))
        mean[i] = (sum_x/len(unite[i]),sum_y/len(unite[i]))    #根据均值，重新定义的中心值

def show():
     #样本数据横坐标列表
    xx = []
    for i in range(K):
        xx.append([])
    #样本数据纵坐标列表
    yy = []
    for i in range(K):
        yy.append([])
    #使用样本坐标，绘制散点图
    for i in range(K):
        for j in range(len(unite[i])):
            xx[i].append(unite[i][j][0])
        for j in range(len(unite[i])):
            yy[i].append(unite[i][j][1])
        plt.scatter(xx[i],yy[i],label=i)
        plt.scatter(mean[i][0],mean[i][1],label=i)
        plt.legend()
    #显示散点图
    plt.show()

if __name__=="__main__":
    K = 4   #聚类数    手动设置
    N = 30  #样本数    手动设置
    spot = []   #样本列表
    for i in range(N):
        spot.append((np.random.randint(50),np.random.randint(50)))  #50是我给它定义的范围

    unite = []  #每个点归属簇
    mean = []   #每个簇的中心值

    set_t = set()
    while(1):           #虽然两行代码就可以搞定这个选值，但是我建议使用集合，防止重复值
        d = np.random.randint(N)    #当然如果你有更简单的方法除外，就我觉得使用集合比较简单
        set_t.add(d)
        if(len(set_t)==K):
            for i in set_t:
                mean.append(spot[i])
            break

    count = 0
    m = []
    for i in range(2):      #首先两次循环，得出两个比较的平方误差
        cluster()       #聚类
        temp = square_d()   #计算平方误差
        m.append(temp)
        print("第{}次聚类平方的差值为：{}".format(count,temp))
        remean()    #重定义中心值

    while(m[0] != m[1]):    #就两次循环后，重复选中心值，直至相等
        m[0] = m[1]
        cluster()
        m[1] = square_d()
        print("第{}次聚类平方的差值为：{}".format(count,m[1]))
        remean()

    show()  #构散点图    构图与k-means无关，但是利用图表将数据展示出来更直观、更有说服力

Kohonen聚类python python k-means聚类算法_Kohonen聚类python