- 最优化 Optimization
- 策略#1:一个差劲的初始方案:随机搜索(可直接跳到第三个方法哦)
- 策略#2:随机本地搜索(可直接跳到第三个方法)
- 策略#3:跟随梯度(great !)
- 1 利用有限差值计算梯度/数值梯度法
- 2 微分分析计算梯度
- 图像的特征表示
对于图像数据 xi,如果基于参数集 W 做出的分类预测与真实情况比较一致,那么计算出来的损失值 L就很低。现在介绍第三个,也是最后一个关键部分:最优化Optimization。最优化是寻找能使得损失函数值最小化的参数 W 的过程。
铺垫:一旦理解了这三个部分是如何相互运作的,我们将会回到第一个部分(基于参数的函数映射),然后将其拓展为一个远比线性函数复杂的函数:首先是神经网络,然后是卷积神经网络。而损失函数和最优化过程这两个部分将会保持相对稳定。
损失函数可视化
本课中讨论的损失函数一般都是定义在高维度的空间中,这样要将其可视化就很困难。然而可以在1个维度或者2个维度的方向上对高维空间进行切片,就能得到一些直观感受。例如,随机生成一个权重矩阵 W ,该矩阵就与高维空间中的一个点对应。然后沿着某个维度方向前进的同时记录损失函数值的变化。换句话说,就是生成一个随机的方向 W1并且沿着此方向计算损失值,计算方法是根据不同的 a值来计算 L(W+aW1)。这个过程将生成一个图表,其x轴是 a 值, y轴是损失函数值(左一图)。同样的方法还可以用在两个维度上,通过改变 a,b 来计算损失值 L(W+aW1+bW2),从而给出二维的图像。在图像中, a,b 可以分别用 x 和 y 轴表示,而损失函数的值可以用颜色变化表示:
两个维度方向上的损失值切片图,蓝色部分是低损失值区域,红色部分是高损失值区域
最优化 Optimization
重申一下:损失函数可以量化某个具体权重集 W 的质量。而最优化的目标就是找到能够最小化损失函数值的 W 。我们现在就朝着这个目标前进,实现一个能够最优化损失函数的方法。对于有一些经验的同学,这节课看起来有点奇怪,因为使用的例子(SVM 损失函数)是一个凸函数问题。但是要记得,最终的目标是不仅仅对凸函数做最优化,而是能够最优化一个神经网络,而对于神经网络是不能简单的使用凸函数的最优化技巧的。
策略#1:一个差劲的初始方案:随机搜索(可直接跳到第三个方法哦)
既然确认参数集W的好坏蛮简单的,那第一个想到的(差劲)方法,就是可以随机尝试很多不同的权重,然后看其中哪个最好。过程如下:
# 假设X_train的每一列都是一个数据样本(比如3073 x 50000)
# 假设Y_train是数据样本的类别标签(比如一个长50000的一维数组)
# 假设函数L对损失函数进行评价
bestloss = float("inf") # Python assigns the highest possible float value
for num in xrange(1000):
W = np.random.randn(10, 3073) * 0.0001
# np.random.randn从标准正态分布中返回一个或多个样本值,即取值主要在-1.96~+1.96之间
#(10, 3073)表示维度
loss = L(X_train, Y_train, W) # get the loss over the entire training set
if loss < bestloss: # keep track of the best solution
bestloss = loss
bestW = W
print 'in attempt %d the loss was %f, best %f' % (num, loss, bestloss)
在上面的代码中,我们尝试了若干随机生成的权重矩阵 W ,其中某些的损失值较小,而另一些的损失值大些。我们可以把这次随机搜索中找到的最好的权重 W取出,然后去跑测试集
# 假设X_test尺寸是[3073 x 10000], Y_test尺寸是[10000 x 1]
scores = Wbest.dot(Xte_cols) # 10 x 10000, the class scores for all test examples
# 找到在每列中评分值最大的索引(即预测的分类)
Yte_predict = np.argmax(scores, axis = 0)
# 以及计算准确率
np.mean(Yte_predict == Yte)
# 返回 0.1555
验证集上表现最好的权重 W 跑测试集的准确率是15.5%,而完全随机猜的准确率是10%,如此看来,这个准确率对于这样一个不经过大脑的策略来说,还算不错嘛!
核心思路:迭代优化。当然,我们肯定能做得更好些。核心思路是:虽然找到最优的权重 W 非常困难,甚至是不可能的(尤其当 W 中存的是整个神经网络的权重的时候),但如果问题转化为:对一个权重矩阵集 W 取优,使其损失值稍微减少。那么问题的难度就大大降低了。换句话说,我们的方法从一个随机的 W 开始,然后对其迭代取优,每次都让它的损失值变得更小一点。
蒙眼徒步者的比喻:一个助于理解的比喻是把你自己想象成一个蒙着眼睛的徒步者,正走在山地地形上,目标是要慢慢走到山底。在CIFAR−10的例子中,这山是30730维的(因为 W 是3073x10)。我们在山上踩的每一点都对应一个的损失值,该损失值可以看做该点的海拔高度。
策略#2:随机本地搜索(可直接跳到第三个方法)
第一个策略可以看做是每走一步都尝试几个随机方向,如果某个方向是向山下的,就向该方向走一步。这次我们从一个随机 W 开始,然后生成一个随机的扰动 δW ,只有当 W+δW 的损失值变低,我们才会更新。这个过程的具体代码如下:
W = np.random.randn(10, 3073) * 0.001 # 生成随机初始W
bestloss = float("inf")
for i in xrange(1000):
step_size = 0.0001
Wtry = W + np.random.randn(10, 3073) * step_size
loss = L(Xtr_cols, Ytr, Wtry)
if loss < bestloss:
W = Wtry
bestloss = loss
print 'iter %d loss is %f' % (i, bestloss)
策略#3:跟随梯度(great !)
前两个策略中,我们是尝试在权重空间中找到一个方向,沿着该方向能降低损失函数的损失值。其实不需要随机寻找方向,因为可以直接计算出最好的方向,这就是从数学上计算出最陡峭的方向。这个方向就是损失函数的梯度(gradient)。在蒙眼徒步者的比喻中,这个方法就好比是感受我们脚下山体的倾斜程度,然后向着最陡峭的下降方向下山。
在一维函数中,斜率是函数在某一点的瞬时变化率。梯度是函数的斜率的一般化表达,它不是一个值,而是一个向量。在输入空间中,梯度是各个维度的斜率组成的向量(或者称为导数derivatives)。对一维函数的求导公式如下:
当函数有多个参数的时候,我们称导数为偏导数。而梯度就是在每个维度上偏导数所形成的向量。
计算梯度有两种方法:一个是缓慢的近似方法(数值梯度法),但实现相对简单。另一个方法(分析梯度法)计算迅速,结果精确,但是实现时容易出错,且需要使用微分。现在对两种方法进行介绍:
1 利用有限差值计算梯度/数值梯度法
def eval_numerical_gradient(f, x):
"""
一个f在x处的数值梯度法的简单实现
- f是只有一个参数的函数
- x是计算梯度的点
"""
fx = f(x) # 在原点计算函数值
grad = np.zeros(x.shape)
h = 0.00001
# 对x中所有的索引进行迭代
it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
#nditer提供了一种灵活访问一个或者多个数组的方式,multi_index多维迭代
#readwrite表示将读取和写入操作数
while not it.finished:
# 计算x+h处的函数值
ix = it.multi_index
old_value = x[ix]
x[ix] = old_value + h # 增加h
fxh = f(x) # 计算f(x + h)
x[ix] = old_value # 存到前一个值中 (非常重要)
# 计算偏导数
grad[ix] = (fxh - fx) / h # 坡度
it.iternext() # 到下个维度
return grad
根据上面的梯度公式,代码对所有维度进行迭代,在每个维度上产生一个很小的变化 hh ,通过观察函数值变化,计算函数在该维度上的偏导数。最后,所有的梯度存储在变量 grad 中。
实践考量:注意在数学公式中, h 的取值是趋近于0的,然而在实际中,用一个很小的数值(比如例子中的1e−5)就足够了。在不产生数值计算出错的理想前提下,你会使用尽可能小的 h。还有,实际中用中心差值公式(centered difference formula) [f(x+h)−f(x−h)]/2h 效果较好。
可以使用上面这个公式来计算任意函数在任意点上的梯度。下面计算权重空间中的某些随机点上,CIFAR−10损失函数的梯度:
# 要使用上面的代码我们需要一个只有一个参数的函数
# (在这里参数就是权重)所以也包含了X_train和Y_train
def CIFAR10_loss_fun(W):
return L(X_train, Y_train, W)
W = np.random.rand(10, 3073) * 0.001 # 随机权重向量
df = eval_numerical_gradient(CIFAR10_loss_fun, W) # 得到梯度
#梯度告诉我们损失函数在每个维度上的斜率,以此来进行更新:
loss_original = CIFAR10_loss_fun(W) # 初始损失值
print 'original loss: %f' % (loss_original, )
# 查看不同步长的效果
for step_size_log in [-10, -9, -8, -7, -6, -5, -4, -3, -2, -1]:
step_size = 10 ** step_size_log
W_new = W - step_size * df # 权重空间中的新位置
loss_new = CIFAR10_loss_fun(W_new)
print 'for step size %f new loss: %f' % (step_size, loss_new)
# 输出:
# original loss: 2.200718
# for step size 1.000000e-10 new loss: 2.200652
# for step size 1.000000e-09 new loss: 2.200057
# for step size 1.000000e-08 new loss: 2.194116
# for step size 1.000000e-07 new loss: 2.135493
# for step size 1.000000e-06 new loss: 1.647802
# for step size 1.000000e-05 new loss: 2.844355
# for step size 1.000000e-04 new loss: 25.558142
# for step size 1.000000e-03 new loss: 254.086573
# for step size 1.000000e-02 new loss: 2539.370888
# for step size 1.000000e-01 new loss: 25392.214036
在梯度负方向上更新:在上面的代码中,为了计算 Wnew ,要注意我们是向着梯度 df的负方向去更新,这是因为我们希望损失函数值是降低而不是升高。
步长的影响: 梯度指明了函数在哪个方向是变化率最大的,但是没有指明在这个方向上应该走多远。在后续的课程中可以看到,选择 步长(也叫作学习率) 将会是神经网络训练中最重要(也是最头痛)的超参数设定之一。
从某个具体的点W开始计算梯度,梯度告诉了我们损失函数下降最陡峭的方向。小步长下降稳定但进度慢,大步长进展快但是风险更大。采取大步长可能导致错过最优点,让损失值上升。
效率问题:你可能已经注意到,计算数值梯度的复杂性和参数的量线性相关。在本例中有30730个参数,所以损失函数每走一步就需要计算30731次损失函数的梯度。现代神经网络很容易就有上千万的参数,因此这个问题只会越发严峻。显然这个策略不适合大规模数据,我们需要更好的策略。
2 微分分析计算梯度
使用有限差值近似计算梯度比较简单,但缺点在于终究只是近似(因为我们对于 h值是选取了一个很小的数值,但真正的梯度定义中 h趋向0的极限),且耗费计算资源太多。第二个梯度计算方法是利用微分来分析,能得到计算梯度的公式(不是近似),用公式计算梯度速度很快,唯一不好的就是实现的时候容易出错。为了解决这个问题,在实际操作时常常将分析梯度法的结果和数值梯度法的结果作比较,以此来检查其实现的正确性,这个步骤叫做梯度检查。
梯度下降
现在可以计算损失函数的梯度了,程序重复地计算梯度,然后对参数进行更新,这一过程称为梯度下降,他的普通版本是这样的:
普通的梯度下降
while True:
weights_grad = evaluate_gradient(loss_fun, data, weights)
weights += - step_size * weights_grad # 进行梯度更新
小批量数据梯度下降(Mini-batch gradient descent):在大规模的应用中(比如ILSVRC挑战赛),训练数据可以达到百万级量级。如果像这样计算整个训练集,来获得仅仅一个参数的更新就太浪费了。一个常用的方法是计算训练集中的小批量(batches) 数据。例如,在目前最高水平的卷积神经网络中,一个典型的小批量包含256个例子,而整个训练集是多少呢?一百二十万个。这个小批量数据就用来实现一个参数更新:
# 普通的小批量数据梯度下降
while True:
data_batch = sample_training_data(data, 256) # 256个数据
weights_grad = evaluate_gradient(loss_fun, data_batch, weights)
weights += - step_size * weights_grad # 参数更新
小批量数据策略有个极端情况,那就是每个批量中只有1个数据样本,这种策略被称为 随机梯度下降(Stochastic Gradient Descent 简称SGD) ,有时候也被称为在线梯度下降。这种策略在实际情况中相对少见,因为向量化操作的代码一次计算100个数据比100次计算1个数据要高效很多。即使SGD在技术上是指每次使用1个数据来计算梯度,你还是会听到人们使用SGD来指代小批量数据梯度下降(或者用 小批量梯度下降(Mini-batch Gradient Descent) 来指代小批量数据梯度下降,而 批量梯度下降法(Batch Gradient Descent) 来指代则相对少见)。小批量数据的大小是一个超参数,但是一般并不需要通过交叉验证来调参。它一般由存储器的限制来决定的,或者干脆设置为同样大小,比如32,64,128等。之所以使用2的指数,是因为在实际中许多向量化操作实现的时候,如果输入数据量是2的倍数,那么运算更快。
图像的特征表示
因为多模态等原因,如果直接输入原始像素值给线性分类器,表现并不好。所以在深度神经网络大规模应用前,分两步,首先计算图片的各种代表特征,如计算与图片形象有关的数值,然后将不同的特征向量合到一起,得到图像的特征描述,它将作为输入源传入线性分类器。
动机:如下训练数据集,不能用一个线性的决策边界分开,但如果用灵活的特征转换,如将其极坐标转换就可以线性分开了。在图像中用图像特征表示可能效果更好。
1.颜色直方图
特征表示的简单例子就是颜色直方图,按照每个像素值对应的光谱,将每个像素都映射到下面柱状里,然后计算出柱状里像素点出现的频次。如下特征向量表示有很多的绿色向量。
2.方向梯度直方图
在神经网络兴起前就是一个常用的特征向量就是方向梯度直方图。步骤如先获取小图像,将图像按8个像素区分为8份,然后在8个像素区的每个部分计算像素值主要的边缘方向,把这些边缘方向量化到几个组,然后每个区域内得到一个直方图。现在全特征向量就是这些不同组的边缘方向直方图,这个直方图是从图像的8个区域得来的。
如下图将图像划分为每个区域内有8x8像素,将边缘方向量化为9个像素,320x240图像被划分为40x30个bins,在每个bins中有9个数字,因此特征向量有30409=10800个数字。图中的边缘就是获取的方向梯度特征表示的直方图。
3.词袋
另一个特征表示的例子就是词袋(Bag of Words),这是从自然语言处理中来的灵感,用一个特征向量表示这段话的方法是计算不同词在这段话中出现的次数。它有两步,
第一步获得一堆图像,从这些图像中进行小的随机块的采样,然后用K均值将它们聚合成簇,从而得到不同的簇中心,这些簇中心可能代表了图像中视觉单词的不同类型。如下图聚类后视觉单词获取了不同颜色,就像不同方向有向边缘的不同类型,数据驱动方式下,从数据中获得这些有向边缘。
第二步一旦获得一系列视觉单词成为码本,就可以利用这些视觉单词来给图像编码,这个视觉单词会在图像中出现多少次呢。这种特征表示给了我们关于图像视觉外观的信息。
4.图像特征比较神经网络
计算图像不同特征表示的差异,如词袋、方向梯度直方图将整个特征连接在一起,来喂养这些线性分类器的特征提取器,这种更复杂一点但更常见。在提取这些特征之后,固定特征提取器使它在训练中不会被更新,而在训练中如果它用于更重要的特征的话仅仅更新线性分类器。
卷积神经网络和这些深度神经网络和上面的没什么区别,唯一的差别就是并非提前记录特征,而是直接从数据中学习特征,所以将像素值输入卷积神经网络,经过多层计算,最终得到一些数据驱动的特征表示的类型,然后在整个网络中训练所有的权重,而不是最上层的线性分类器的权重。接下来引入神经网络和反向传播。