Paper Reading Note
URL: http://mmlab.ie.cuhk.edu.hk/pdf/YiSun_CVPR14.pdf
TL;DR
这篇文章介绍了一种预测多类别人脸类别来提取高层人脸特征表达(DeepID)的方法,这些特征是在人脸的不同区域(patch)中同时提取得到,同时使用了联合贝叶斯和神经网络在DeepID的基础上实现了人脸验证。
Dataset/Algorithm/Model/Experiment Detail
数据集
该文章使用的主要验证集是LFW,一个非常著名的人脸识别数据集,其中包含5749个人,其中只有85个人的图片量大于15,同时4096个人仅有一张图片。所以作者使用了CelebFaces来进行模型训练,CelebFaces数据集包含5436个名人的87628张图片。作者还使用了数据量更大的CelebFaces+数据集来进行训练,其包含10177个名人的202599张图片。
实现方式
- DeepID特征提取的示意图如下所示,人脸经过处理后的各个patch分别通过一个网络来提取得到160维的特征,这个特征维度可能会根据需要分类的人个数来确定,所有的convnet对对应的patch提取的高层特征集合就是DeepID
- 特征提取网络就是一个简单的卷积网络,其中比较创新的是使用了跨层级的连接,也即将conv3和conv4的特征都连接到全连接层,这样可以获取多尺度的特征。这和resnet的思路其实有相似的地方。
- 人脸多个patch的生成方法,输入的图片将根据人脸关键点处理到60个patch,包含以下步骤:
- 使用关键点模型跑出人脸中的五个关键点,两个眼睛的中心,鼻尖,两个嘴角
- 通过关键点信息对人脸进行对齐
- 对齐后的人脸即可以每个关键点为中点提取出5个patch,同时在全脸上也可以提取出5个patch,然后通过加上三个尺度的变换和灰度变换即可得到60个人脸patch
- 在提取得到DeepID的人脸特征后,人脸验证作者使用了联合贝叶斯和神经网络两种方法,联合贝叶斯的方法如下所示,使用EM算法进行训练优化
- 使用神经网络的方式是先通过局部连接的隐层网络分别将DeepID特征进行降维后再使用全连接层输出是否匹配的概率。
实验结果
- 使用多层特征连接到全连接层的贡献,可有效减低测试误差
- 联合贝叶斯和神经网络分类器的性能比对,联合贝叶斯的精度优于神经网络。同时可以看到随着训练的样本增加,性能不断提升
- 使用不同人脸区域来提取特征对于测试精度的影响,可以看到随着使用的人脸区域的增加,测试进度不断提升
- 提取的人脸特征在比对过程的可视化效果,160维度的特征被处理成5x32的格式方便可视化,可以看出同一个人的特征的匹配度较高,而不同人脸的匹配度较低
- 方法精度对比,作者所提出的方法取得了SOTA的效果
Thoughts
这篇文章是人脸特征提取的经典作品,使用softmax进行人脸分类的方式来进行特征提取模型训练,这种方式提取出的特征(DeepID)在人脸验证中有更好的泛化能力,这种思路我觉得是值得借鉴的。也即直接训练一个简单的任务时可能比较容易让模型参数优化到一个狭小的空间内,模型泛化能力低,而采用训练一个难度更大的任务时模型提取出的特征在提高泛化能力的同时还能够解决之前的简单问题。