import tensorflow.compat.v1 as tf# import tensorflow as tftf.compat.v1.disable_eager_execution()import numpy as npimport matplotlib.pyplot as plt # 生成-0.5到0.5间均匀发布的200个点
SVM,中文名叫支持向量机。在深度学习出现以前,它是数据挖掘的宠儿,SVM被认为机器学习近十几年最成功,表现最好的算法;
import numpy as npimport matplotlib.pyplot as plt#读取数据dataSet = np.genfromtxt('ex2data2.txt',delimiter=',')# print(dataSet)# x1 = dataSet[:,2]x_data = dataS
利用 PCA 对半导体制造数据降维数据集secom.data是半导体数据集,该数据集总共590个特征,要求利用pca算法对数据(1)对数据清洗,清洗的方法就是将每个特征里取值为null值的用该特征的平均值代替。
案例:第一步:使用sklearn的make_moons生成如下数据,要求使用合适的聚类算法DBSCAN算法进行聚类分类,选择合适的参数eps,min_samples
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import DBSCANdataS = np.genfromtxt('testSet.txt')plt.scatter(dataS[:,0],dataS[:,1])plt.show()#建立模型
1.DBSCAN1.基于密度的聚类算法-DBSCAN如下的样本点,由样本点的分布可知,理想状态下,是把这些样本点分成四个聚类(四簇),即下图所示:但是例子中的样本点,如果采用K-means算法进行聚类分析,得到的聚类结果如左图所示(右图是使用DBSACAN算法得到的结果):K-means算法:例子中的问题,我们发现使用K-Means算法已经不再适用
文章目录1. PCA降维原理协方差协方差矩阵数据预处理降维PCA处理步骤2.降维数据恢复3.案例Sklearn中PCA的使用方法在数据分析研究中,人们为了尽可能完整地搜集信息,对于每个样本往往要观测它的很多项指标,少者四、五项,多则几十项,这些指标之间通常不是相互独立而是相关的。因此,从统计分析或推断的角度来说
1、岭回归(Ridge Regression)标准线性回归(简单线性回归)中:如果想用这个式子得到回归系数,就要保证(X^TX)是一个可逆矩阵。下面的情景:如果特征的数据比样本点还要多,数据特征n,样本个数m,如果n>m,则计算(XTX)−1会出错。因为(X^TX)不是满秩矩阵(行数小于列数),所有不可逆。为了解决这个问题,统计学家引入了岭回归的概
欠拟合、过拟合1.欠拟合、过拟合下面通过图示,来形象的解释欠拟合、过拟合的概念:(1)第一种模型过于简单,没有很好的扑捉到数据的特征。(2)第二种模型就比较好,能够扑捉到数据的特征(3)第三种模型过于复杂,降低泛化能力形象的解释一下:你想讨好某个人,太不用心(很多事都没有关心到)
01.根据数据集testSet2.txt,利用sklearn里的Kmeans算法完成聚类分类,并画出图形。import numpy as npfrom sklearn.cluster import KMeansimport matplotlib.pyplot as plt#载入数据
无监督学习(也有人叫非监督学习,反正都差不多)则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本(训练集),而需要直接对数据进行建模。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展,我们完全对艺术一无所知
数据集abalone.txt,记录了鲍鱼(一种介壳类水生动物)的年龄,鲍鱼年龄可以从鲍鱼壳的层数推算得到。前几列是样本点的特征数据,最后一列是鲍鱼的年龄。请分别使用标准线性回归
1、feature.txt是关于性别预测的数据,第一列为身高,第二列为体重,第三列为鞋码(鞋子尺码),第四列为性别(标签列).请根据feature.txt的数据预测[155,48,36](即身高为155,体重为48,鞋码为36)
ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益。(条件熵越小,信息增益越大)C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature。
KNN算法介绍(1)为了判断未知实例的类别,以所有已知类别的实例作为参照。(2)选择合适的K(参数)值(3)计算未知类别到已知类别点的距离,选择最近K个已知实例(4)根据少数服从多数的投票法则(majority-voting),让未知类别归类为K个最近邻样本中最多数的类别。1、(1)回顾Python当中获取字典中的值的三种方法,并比较三种方法的异同
利用贝叶斯分类器对模型进行垃圾邮件分类(email文件)以及利用简单交叉法计算模型的错误率(划分数据集时20%作为测试集)import numpy as
import matplotlib.pyplot as pltimport numpy as npx1=[3,2,1]y1=[104,100,81]x2=[101,99,98]y2=
1、函数介绍sorted(iterable, cmp=None, key=None, reverse=False)sorted(iterable, key=None, reverse=False)iterable:适合迭代的对象
1.将distance.txt里面的数据进行归一化处理,转化为[-1,1]之间import numpy as npa=np.genfromtxt("distance.txt",delimiter=",")np.set_printoptions(suppress=True)#print(array(a))def autoNorm(dataSet):
手写识别系统,KNN算法实现手写识别系统的准确率(准确率=测试分对的样本数/总的样本数)import numpy as npfrom itertools import chainfrom os import listdir
1、什么时候用?决策树:有分类决策树和回归决策树决策树:适合处理离散型数据离散型数据(特征、属性):取值可以具有有限个或无限可数个值,这个值可以用来定性描述属性的汉字、单词;当然也可以是整数,注意是整数,而不是浮点数。例如:长相:好、一般、不好看;是否有脚蹼(pu):是、否连续性数据:不是离散型数据的就是连续性数据;例如
读取play.csv文件中的内容,并计算数据集play.csv(未考虑任何特征前)的熵值。注:1、即使用熵值的公式2、在play.csv文件中outlook(天气),TEMPERATURE(温度)
构造决策树及决策树的可视化使用ID3算法画出的决策树ID3算法在进行特征划分时会优先选择信息增益最大的特征进行划分。一旦按某特征切分后,该特征在之后的算法执行中,将不再起作用(即不再考虑这个特征)。在这个特征划分后的样本中选择信息增益最大的其他特征,这样一步步划分下去。决策树算法的核心是要解决两个问题:
读取文件swimming.csv中的数据,作为训练集,使用sklearn中的决策树模型(参数选为criterion=‘entropy’),训练模型并画出决策时from sklearn import tree#调用sklearn决策
1、使用决策树预测隐形眼镜类型,隐形眼镜数据集(lenses.csv)是非常著名的数据集,它包含很多患者眼部状况的观察条件以及医生推荐的隐形眼镜类型e
若结果有误,请指出噢#1找到所有特征import numpy as np#from numpy import *def loadDataSet():
机器学习最常见的模型评估指标,其中包括:Precision(精确度)Recall(召回率)F1-score(F1值)PRC曲线ROC和AUCAccuracy(精度、准确率)和Error Rate
01.由数据集testSet.txt,求出回归方程????=????^????????,画出决策边界。02.由上述训练集确定回归方程参数,预测新的样本点;现在给定一个新的样本点
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号