机器学习的三要素:模型、学习准则、优化算法。
优化算法:参数与超参数,在机器学习中,优化又可以分为参数优化和超参数优化。模型 f(x; θ)中的θ 称为模型的参数,可以通过优化算法进行学习。除了可学习的参数 θ 之外,还有一类参数是用来定义模型结构或优化策略的,这类参数叫做超参数。
常见的超参数包括:聚类算法中的类别个数、梯度下降法的步长、正则项的 系数、神经网络的层数、支持向量机中的核函数等。超参数的选取一般都是组合 优化问题,很难通过优化算法来自动学习。因此,超参数优化是机器学习的一个 经验性很强的技术,通常是按照人的经验设定,或者通过搜索的方法对一组超参 数组合进行不断试错调整。
偏差和方差:
其中第一项为偏差(Bias),是指一个模型的在不同训练集上的平均性能和最优模型的差异。偏差可以用来衡量一个模型的拟合能力;第二项是方差(Variance),是指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。
特征选择:特征选择(Feature Selection)是选取原始特征集合的一个有效子集,使得基 于这个特征子集训练出来的模型准确率最高。简单地说,特征选择就是保留有用 特征,移除冗余或无关的特征。 子集搜索 一种直接的特征选择方法为子集搜索(Subset Search)。假设原始特征 数为d,则共有2 d 个候选子集。特征选择的目标是选择一个最优的候选子集。最 暴力的做法是测试每个特征子集,看机器学习模型哪个子集上的准确率最高。但 是这种方式效率太低。常用的方法是采用贪心的策略:由空集合开始,每一轮添 加该轮最优的特征,称为前向搜索(Forward Search);或者从原始特征集合开始, 每次删除最无用的特征,称为反向搜索(Backward Search)。 子集搜索方法又可以分为过滤式和包裹式的方法。 过滤式(Filter)方法不依赖具体的机器学习模型。每次增加最有信息量 的特征,或删除最没有信息量的特征 [Hall, 1999]。信息量可以通过信息增益 (Information Gain)来衡量。
包裹式(Wrapper)方法是用后续机器学习模型的准确率来评价一个特征子 集。每次增加对后续机器学习模型最有用的特征,或删除对后续机器学习任务最 无用的特征。这种方法是将机器学习模型包裹到特征选择过程的内部。 ℓ1 正则化 此外,我们还可以通过ℓ1 正则化来实现特征选择。由于ℓ1 正则化会导 致稀疏特征,间接实现了特征选择。