一、计算机视觉和图像处理概述



二、计算机视觉基本处理流程


1、数据采集;(输入)

2、预处理;

3、特征提取;

4、检测/跟踪/分割;

5、高级操作(分类、识别等)(输出)




        目标检测:首先我们已经知道目标是什么,然后去图像中定位它的位置。(人脸检测、行人检测、车辆检测等)


        图像识别:简单的说,是图像再认,从成千上万张图像中找到'认识'的那一张,犹如我们在大街上遇到一个一个人,然后就会去搜索我们见过的所有人,‘哦!我见过他’,如果再加上‘哦!我见他趟在天安门的水晶棺里!’,那么就等于识别系统识别到了一个图像的id和路径,这就是图像识别的过程,(对于一个从来没有出现过的目标,计算机是无法进行再认的,人也不行)。其处理过程主要包括:图像输入、预处理、特征提取、特征分类、匹配。


        计算机视觉中的识别:是计算机视觉系统处理的高级过程,从‘再认’的角度上讲,它们是一样的,然而出发点和‘识别’过程是不同的两个方面,计算机视觉中的识别重点在某一个领域内,比如行人行为识别(拥抱、指路、打架、偷车等),那么这个系统我们研究的就是人,车辆行为识别(是否酒驾、是否超速等),那就是一个交通监控系统,我们需要定义一个‘行为’:什么是拥抱(偷车)或者什么是酒驾;而图像识别旨在从某一个库中去‘匹配’一个相同或者相似的图像(当然匹配的是特征)。


三、基本图像处理与分析





        图像采集:(摄像机标定和矫正)预处理:(去噪、增强、金字塔等)

        特征提取:(BRIEF、颜色和直方图特征、FAST特征、Harris特征、HOG、SIFT、SURF等)

        检测:(背景建模、特征+分类器(SVM、Adaboost、Random forest)、显著性监测等)

        跟踪:(Mean-shift、TLD、粒子滤波、卡尔曼)

        高级操作:(BOW)




四、以我为主、为我所用



机器学习:用摄像机模拟人眼,cpu模拟人脑,对于‘白痴’cpu,告诉它学习的方法也就显得自然了。


模式识别:理论极强的一门学科,和ML、CV相辅相成,基于神经网络的DL大红大紫


Boosting、clustering、CS(Compressive Sensing)、DT(Decision Trees)、DP(Dynamical Programimg)、EM、GM(Graphical Model)、HMM、ICA、PCA、RF(random forest)、RANSAC、SVD(Singular Value Decomposition)、稀疏表示、SVM、小波、NN

英语:


数学:一切美好的基石,数学分析、概率、统计、矩阵、最优化等


计算机基础理论和方法:可能像组成原理、体系结构、操作系统、编译原理对算法研究帮助不大,不过数据结构和基本算法的作用却是相当大的,如果是做工程,前面的基础知识就显得很重要了。


产品:为什么提到产品,因为工业不等于研究,要想自己喜欢的学科真正能够服务于大众,理论和实际必须要结合起来。