聚类算法的输入是矩阵_ganmaola的技术博客_51CTO博客

聚类算法的输入是矩阵

关注 ganmaobuhaowan

聚类算法的输入是矩阵

转载

ganmaobuhaowan 2024-12-22 21:43:00

文章标签 聚类算法的输入是矩阵算法 python 机器学习聚类 文章分类 机器学习人工智能

K-MEANS算法
聚类概念：

无监督问题：我们手里没有标签了
聚类：相似的东西分到一组
难点：如何评估，如何调参

kmeans基本概念：

要得到簇的个数，需要指定K值
质心：均值，即向量各维取平均即可
距离的度量：常用欧几里得距离和余弦相似度（先标准化）
优化目标:

聚类算法的输入是矩阵_python

优势：
简单，快速，适合常规数据集
劣势：

K值难确定
复杂度与样本呈线性关系
很难发现任意形状的簇

DBSCAN算法

基本概念：（Density-Based Spatial Clustering of Applications with Noise）

核心对象：若某个点的密度达到算法设定的阈值则其为核心点。
（即 r 邻域内点的数量不小于 minPts） ϵ-邻域的距离阈值：设定的半径r
直接密度可达：若某点p在点q的 r 邻域内，且q是核心点则p-q直接密度可达。
密度可达：若有一个点的序列q0、q1、…qk，对任意qi-qi-1是直接密度可达的，则称从q0到qk密度可达，这实际上是直接密度可达的“传播”。
密度相连：若从某核心点p出发，点q和点k都是密度可达的 ,则称点q和点k是密度相连的。
边界点:属于某一个类的非核心点,不能发展下线了
直接密度可达：若某点p在点q的 r 邻域内，且q是核心点则p-q直接密度可达。
噪声点：不属于任何一个类簇的点，从任何一个核心点出发都是密度不可达的

聚类算法的输入是矩阵_算法_02

A：核心对象
B,C：边界点
N：离群点

工作流程：

参数D：输入数据集
参数ϵ：指定半径
MinPts：密度阈值

聚类算法的输入是矩阵_机器学习_03

参数选择：

半径ϵ，可以根据K距离来设定：找突变点
K距离：给定数据集P={p(i); i=0,1,…n}，计算点P(i)到集合D的子集S中所有点之间的距离，距离按照从小到大的顺序排序，d(k)就被称为k-距离。
MinPts： k-距离中k的值，一般取的小一些，多次尝试

优势：

不需要指定簇个数
擅长找到离群点（检测任务）
可以发现任意形状的簇
两个参数就够了

劣势：https://www.naftaliharris.com/blog/visualizing-dbscanclustering/

高维数据有些困难（可以做降维）
Sklearn中效率很慢（数据削减策略）
参数难以选择（参数对结果的影响非常大）

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：git grep命令搜索不全

下一篇：android java 设置代码禁止调用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册