#1.目的

#2.困难

找到一个边界面包裹目标数据,使得边界内属于目标数据,边界外不属于目标数据,达到对目标数据的识别,本质上它是一种一分类分类器,能够对我和非我进行识别。
#3.解决方案
#4.效果

**

支持向量数据描述

**

摘要

数据描述是对训练目标数据进行描述,然后通过得到的数据描述判别新数据是否与训练数据相似。
我们的目的就是要找出这么一个函数描述目标数据。本文中这个函数是通过QP得到的一个球型边界面,球内的样本是目标数据,球外的样本是非目标数据。

1.引言
数据描述通过对目标训练样本进行训练,然后判断新样本是否与目标训练样本相似。
(1)用分类器的方法
如果新样本与训练样本相似,分类器才会得到可信的结果,未知区域样本的分类结果不可信。
要求提供与正常样本接近的非目标样本。
(2)用分布的方法
只注重于高密度区域,正常区域的分布很难描述
以上方法的困难在于当非目标样本难以获得时,以上方法很难实施。
(3)用边界面的方法描述
本文就是这个思路

2.理论
2.1正常的数据描述

SVDD与估计分类器的VC维比较类似,支持向量越多,VC维越复杂。

原始的优化问题为:

支持向量机用于文本分类的数据集_数据


支持向量机用于文本分类的数据集_数据_02


通过朗格朗日乘子法转变为对偶问题

支持向量机用于文本分类的数据集_数据分布_03


支持向量机用于文本分类的数据集_支持向量机用于文本分类的数据集_04


C大于等于1,上式恒成立。最终超球体的球心为样本的线性组合

支持向量机用于文本分类的数据集_解决方案_05

支持向量机用于文本分类的数据集_解决方案_06


支持向量机用于文本分类的数据集_支持向量机用于文本分类的数据集_07

这个结果与SVC是类似的。

2.2加入负类样本
损失函数变为

支持向量机用于文本分类的数据集_支持向量机用于文本分类的数据集_08


支持向量机用于文本分类的数据集_数据分布_09

通过朗格朗日乘子转变为对偶

支持向量机用于文本分类的数据集_数据_10

支持向量机用于文本分类的数据集_支持向量机用于文本分类的数据集_11


加入负类样本后,部分负类样本可能变为支持向量。这个数据描述无法紧密的包裹目标数据2.3灵活的描述

核函数的参数对SVDD的影响

线性核

支持向量机用于文本分类的数据集_数据_12


远离原点的数据被认为是支持向量。

可以看到很多没有数据分布的区域被接受为目标区域。

高斯核

支持向量机用于文本分类的数据集_支持向量机用于文本分类的数据集_13


s越大,越接近于原始解。s越大,支持向量个数越少。

C越小,支持向量的个数越多。C越小,说明错了惩罚也很小导致更多的错误。C越小,超球体的体积越小。