跟着TensorFlow的入门级教程实现MNIST库的训练
本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:
- 实验环境
- 实验Case介绍
- 代码及实现结果
- 两个小问题
- 优质资源分享
实验环境
一直对MachineLearning感兴趣,也从网上找了一些资料,学了一些基本理论,不过对于ML的把握还是比较抽象,最近特别想找点儿case来实践一发。 最先找到的是wphh大神写的人脸识别的case,里面用的Python+numpy+theano+PIL开发环境,做了计算机视觉方面的事儿,赞啊喜欢!不过Theano这个东西安装起来问题多多,在windows上有挺多依赖库没安好。在虚拟机CentOS上基本安完了(自带的testCase大约有80%以上的通过率)。不过wphh的代码里面bug比较多,对于我这种初学者调起来比较费劲于是就不了了之了。 又找到了基于TensorFlow的一系列相关实践教程,TensorFlow是google去年11月发布并且开源的一套酷,google在机器学习方面还是领军的感觉,就它了(主要是这个环境配好了能跑得动我才来写的博客)。
关于环境: 硬件方面:单核CPU,1G内存,40G硬盘,没错就是阿里云。 软件:CentOS7.0,python2.7.5,TensorFlow0.5。 直接照着教程里面的下载安装步骤进行的,可能由于之前Theano把一些基本库都安好了,所以安的很顺利,否则可能需要根据提示下载依赖库:pil,numpy,scipy,cython,blas之类的。哦对了TensorFlow好像是基于python2.x的,python3的兼容性如何还不太了解。
实验Case介绍
用的是MNIST这个库,里面有6W张手写数字,要做的是一个识别手写数字的事儿,听起来比较low,不过真正能理解其中的算法应该充满挑战,我目前是抱着实践一下做个HelloWorld的心态来膜拜的。具体的case介绍还是看教程吧。
代码实现及结果
关于代码,由于教程是翻译的google原版,所以可以从google那边的英文教程获得,以及对应的代码服务器。一开始蠢了,把每个.py文件下载下来上传到我的git再由阿里云那边clone到本地。后来发现google不是开源了吗,可以直接在google的git仓库找到你要的所有。
按照教程介绍的,原封不动的把代码敲到一个新的py文件中运行,就可以得到预期的一个小数的输出,就是用你构造的模型获得的预测结果。具体的代码解释及softmax算法分析教程里说的比较详细,我就不赘述啦。
结果虽然虽然出来了,不过对我来说是黑盒子,因为没有看过tensorflow的内部源代码(虽然已经开源)。针对softmax算法的话,做了一下实验。主要是统计迭代次数与判决准确率之间的关系,如下图所示。
问题
问题①
在统计结果的时候发现对于相同的迭代次数,输出的结果有时候会出现差异。why?这个算法不稳定?之前做消息传递MPA译码的时候,对于特定的输入输出结果都是不变的,是稳定的算法。这个问题是为啥?
首先模型先验信息或者说初始化是一样的,一个全0的模型w和b。那么问题应该出在训练数据的顺序或者softmax算法或者梯度下降算法的稳定性上。
我就去看了下数据选择input_data.py文件,其中的next_batch方法里面发现了问题:
也就是说每次迭代训练的过程中,输入数据的顺序是打乱了的,所以这可能会对模型有一定影响。这个操作非常像Turbo编码里面的交织,每当循环训练过一次全部数据时就会shuffle一次。使得下一次循环输入的序列变得不一样。这属于认为增大输入训练集的方法吗?关于softmax和梯度下降的算法。自己理解不深,留作问题以后解决吧还是。
问题② 关于模型训练中的cost选择的问题,教程里面说到用的是交叉熵cross_entropy, cross_entropy=−∑iy~ilog(yi) 这个公式不太理解,确实能解出结果。但是我们通信里面最常用的MMSE也是用来描述两个量之间的差异,同样是要最小化差异,我觉得MMSE也应该不错呀。 MMSE=min∥y~i−yi∥2 于是我就在教程的基础上加了一个MMSE的准则,然后用重新训练了一下模型并且对比二者的结果。 MMSE的代码就是对照交叉熵写的,不难。
MMSE = tf.pow(tf.sub(y,y_),2)
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(MMSE)
- 1
- 2
然后,同样的,对比了一下模型训练次数与最后的准确率的关系:
可以发现,MMSE的话,在迭代次数不足(10)的时候,性能不太理想,不过50次以上的话训练的结果都略微比交叉熵的好一些。哈哈。不错,也算优化了一下模型呢。
问题③ 模型训练时间的问题: TensorFlow和Theano都支持GPU运算,毕竟GPU相对CPU对浮点数的运算处理有一定优化。而。。对,我的环境跟没没得GPU。 我本来觉得单核1G内存的话,基本做机器学习白瞎,没想到TensorFlow的话还是比较快,比如我训练迭代10000次的模型建立也花不到30s的实际,当然啦有可能是TensorFlow优化的好,有可能是这个模型太弱鸡,达不到DeepLearning的水平,也有可能是阿里云的弹性服务器运算能力的体现。不过我用的ts0.5版本的,按理说0.8版本才支持分布式计算处理。不懂,反正目前的结论是能跑得动,可能后面的话就会崩盘。比如接下来如果做CIFAR10这个库的时候就会慢很多?