机器学习:最小二乘支持向量机(Least Squares Support Vector Machine)
参考文献
《A Novel Method for Energy Consumption Prediction of Underwater Gliders Using Optimal LSSVM with PSO Algorithm》
一、最小二乘支持向量机(LSSVM)
LSSVM是Suykens等人提出的一种机器学习算法。LSSVM作为一种基于统计理论的改进型支持向量机,具有先进的完备理论体系,能够将二次优化问题的解转化为线性方程组的求解,从而简化了问题的求解。因此,它已成功地应用于多个领域,包括数据回归、模式识别、时间序列预测等。
对于给定的训练数据(xi,yi),其中xi=(xi1,xi2,…,xid)T是d维的输入向量,yi是相应的输出数据,N是训练数据的总数。为了将输入空间映射到特征空间,采用非线性函数φ(xi),非线性函数估计建模的形式如下:
其中w是权重向量,b是偏置项和符号<·>指内积操作。
基于结构化风险最小化原则,评估问题被描述为优化问题:
γ是用于确定模型复杂度和精度之间权衡的正则化参数,ei表示输出的实际值和预测值之间的回归误差。
为了解决上述优化问题,构造了相应的拉格朗日函数:
αi是拉格朗日乘数。
通过将w、b、ei、αi导数设为零,可以得到问题最优解的条件。
通过消除w和ei,四个线性问题可以简化为:
其中y=[y1,…,yN]T,α=[α1,…,αN]T,E=[1,…,1]T,和Ω是一个N×N核函数的对称矩阵:
其中K(xi,xj)是核函数,满足Meser的条件。核函数具有降低高维空间计算复杂度的能力,在构造高性能最小二乘支持向量机中起着重要作用。
那么,LSSVM模型可以表示为:
径向基函数(RBF)核是一种被广泛采用的核函数,如下:
σ是核函数的带宽。
其中,两个超参数γ以及σ,是对LSSVM模型的性能有很大影响的参数,需要仔细确定。
二、文献提出的LSSVM-PSO模型框架
本文建立适应度函数以评估模型的性能,其形式为:
采用粒子群优化算法对这些超参数进行优化,使适应度函数最大化。LSSVM–PSO模型的结构如图1所示。基于该模型的预测模型实现如下。
- 数据划分为训练集、验证集和测试集,其功能描述如下:
训练集:训练LSSVM模型。
验证集:为PSO算法的适应度计算提供数据。
测试集:替换新的输入数据,以评价本文提出的LSSVM-PSO模型的性能。
- 建立LSSVM-PSO模型的初始参数
- 基于粒子群优化算法,通过最大化适应度函数优化LSSVM超参数组合
- 建立具有最优超参数的LSSVM模型
- 利用测试集对最优LSSVM-PSO模型的性能进行评估
拓展
模型评价指标:平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和均方根误差(RMSE)