名词解释: (1) SVM(Support Vector Machine)是从瓦普尼克(Vapnik)的统计学习理论发展而来的,主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,能解决神 经网络不能解决的过学习问题。作者以为,类似的根据样本进行学习的方法还有基于案例的推理(Case-Based Reasoning),决策树归纳算法C4.5等,以后将详细阐述这两种方法。 (2)过学习问题:训练误差过小导致推广能力下降,即真实风险的增加。 (3)推广能力:generalization ability,也可以说是泛化能力,就是对未知样本进行预测时的精确度。
libsvm中的样本预处理的原则有2个: 1 非数值属性(Categorical Feature) 由于SVM要求被处理的数据都是实数,因此对于属性值为类别的属性要进行转换。例如{red, green, blue},可以转换成3个属性 red (1, 0, 0) green (0, 1, 0) blue (0, 0, 1) 来表示。经验表明当这样的非数值属性的取值不是太多(这个具体数字不明确)的时候,这种编码比用一个数字来表示属性的类别要稳定的多,比如用1, 2, 3来分别表示red, green, blue就不太合适了。目前,这个过程没有实现自动处理,需要使用者根据属性取值的多少自己动手去修改。 2 缩放(scaling) 进行缩放的原因和使用神经网络时的考虑是一样的,由于RBF网络中采用样本数据的欧式距离来计算。主要优点就是避免数值范围较大的属性控制数值范围较小的 属性。另一个优点就是避免计算时的numerical difficulties. 因为核值通常依赖特征向量的内积(inner product),而较大的属性值可能导致numerical问题。因此推荐把每个属性缩放到[-1, 1]或者[0, 1]之间,而且前一个范围要比后一个好,即对列向量进行规范化,其详细解释和计算公式见http://www.faqs.org/faqs/ai-faq/neural-nets/part2/中的“Should I standardize the input variables (column vectors)?”。libsvm中没有考虑属性的类型(效益、成本、固定、偏离、区间、偏离区间 6 种不同的属性类型的规范化计算公式是不一样的,详见:徐泽水,《不确定多属性决策方法及应用》,清华大学出版社,2004。)而采用了统一的线性缩放,作者以为此处可以改进一下。 需要注意的是,在进行测试之前,要对测试数据进行同样的缩放操作。其实在libsvm中有程序(svmscale.exe)来进行缩放操作,也可以不用手工缩放,只要用easy.py来对(经过非数值的归一化处理之后的)原始数据直接操作即可。
上面这两种方法基本上可以完成所有的样本的预处理了。其实只有原则 1 是需要自己手工改动的,其他工作在libsvm中的tool文件夹下都由现成的python程序处理。 |
支持向量机中使用概率预测与不是用概率预测
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
上一篇:Hikaric 可视化监控
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
支持向量机能输出预测概率吗 支持向量机如何预测
一,SVM背景介绍:SVM(support vector machines) 支持向量机, 简单来讲是一种二分类的算法,使得分类的间隔最大化,可形式化为一个求解凸二次规划的问题。下面是其数学定义:假设给定的一个特征训练集 , 为第i个实例, 为 的类标签,当 为1 时为正例,为-1时为负例。学习的目标就是在特征空
支持向量机能输出预测概率吗 svm 支持向量机 回归 预测 svm支持向量机 支持向量机 约束条件 -
支持向量机模型 预测结果的概率 支持向量机的回归预测
概述SVM通过对二分类有监督样本集的学习,力图找到一个划分超平面,使两个异类支持向量到超平面的距离之和(ie间隔)最大超平面在分类任务中将两类训练样本分开,可通过线性方程 描述。若其能将样本正确分类,则对 有 ,对 有 支持向量指距离超平面最近的几个样
支持向量机模型 预测结果的概率 svm 支持向量机 回归 预测 svm多分类 svm支持向量机 svm核函数