Paper Reading Note
URL: https://www.vision.ee.ethz.ch/publications/papers/proceedings/eth_biwi_00532.pdf
TL;DR
采用了一种类脑处理的人体动作识别方法,同时通过实验给出了在视频中进行人体动作识别所需要的合适帧数。
Dataset/Algorithm/Model/Experiment Detail
数据集
包含两个数据集,WEIZMANN包含九个动作,KTH包含六个动作。如下图所示,其中很多动作其实根据单帧图片信息就可识别出来。
实现方式
分两个分支提取特征,如下图所示,上面的分支提取图片中的纹理特征(Form feature),提取方式基于log-Gabor滤波器,提取到特征后训练得到的模板进行匹配,模板是通过对于输入的序列人体动作图片进行向量化及PCA操作而得到,然后通过对比输入图片提取的feature与模板得到相似度向量;下面的分支是在光流图片上提取到的特征(motion feature),同样与训练得到的模板匹配得到相似度向量。上下两个分支得到的相似度向量concatenate之后送入分类器(SVM)中得到分类结果。
实验结果
- form与motion两个feature对于识别精度的影响,左图显示两个feature比例均衡时的精度较高;中间的图同样表示两个feature比例均衡时精度较好;右图展示form与motion两个feature能取到比较合适结果时的比例,即flow:form=7:3时有最佳结果。
- 随着使用序列图片的帧数提高,模型得分结果基本处于不断提升状态,随着数量增大到一定程度,提升速度变缓;室外场景比室内场景更难;
- 使用7帧序列用于动作识别已经能够取得非常好的结果,与使用全部序列能够进行比较
- 在两个数据集上取得SOTA结果
Thoughts
这篇文章是人体动作识别的经典老作品,其中采用form feature与motion feature结合的方式据说是借鉴类脑方面的研究,但是现在这些方法毕竟已经比较落后了,但是该方法对于动作识别所需要的合适序列数量方面的实验也一直给后续研究提供参考。