第一节课: 计算机视觉整体概述
这学期正在上一节计算机视觉课程,有些不懂的知识上百度搜索发现关于计算机视觉的文章寥寥无几。 这节课主要讲解的是计算机视觉里面的图片识别,不会讲到识别一些正在运动的物体。
希望可以把自己学到的东西分享给大家。因为版权等问题,我无法将lecture notes放在这里,但是我会把自己所理解的东西写下来。
1. 什么是计算机视觉(Computer Vision)?
老师给出的定义: Enable machines to “see” the visual world as we do. (可以让机器像我们一样看见并且识别东西). 个人理解计算机视觉也就是我们平常说的人脸识别,车牌号识别,自动驾驶里面的树,人各种交通符号的识别,以及各种人们想要识别的东西都可以通过算法来识别出来。另外计算机视觉是人工智能(AI)的一个分支。
计算机视觉包含三点:
1. Measurement(测量): 通过visual data计算这个3D世界的不同属性。
2. Perception&interception(认知和翻译): 通过使用一些算法和representation(讲解)可以使机器认知一些物体,人,景色以及运动的东西。
3. Search&organization(搜索和整理): 通过一些算法来和visual data 挖掘,搜索和交互。
下图就是典型的计算机视觉技术分析出来一个公园里面的各种信息:
下图为计算机视觉以及其相关的科目:
下图为图片和模型之间的关系,应该很清楚的表示了从图片到模型属于视觉,反之则为图像:
2. 为什么计算机视觉很难实现?
提到几点:
1. 真是的世界比我们看到的图片中的要复杂得多(从3D世界到2D图片)。
2. 从图片还原出来当时的过程(process)是不可能的.
3. 物体的运动(比如奔跑中的人照片可能是模糊的).
4. 物体多元化,比如椅子可以有很多种很多不同颜色不同品牌等等...
5. 光源,物体的动作,背景杂乱的影响等等都会影响。见下图
3. 现在的科学技术已经做到了哪些?
1. 图片分类(Image classification),下图
2. 人脸识别(Face detection), 这个很好理解就不放图了
3. 物体识别(Object classification),下图
4. 脸部匿名化(face anonymization),其实就是变脸...
5. 交互式系统(比如xbox的kinect)
6. 自动驾驶中的人,树,和其他一些交通指示牌。
7. 动作的捕捉(motion capture),见下图
8. 还有很多不一一列举了...
4. 计算机视觉的运用(Applications)
机器人学,自动驾驶,图片搜索,医学领域图片等等,平时用的美图秀秀和那个什么把人脸变成狗脸的faceu都是计算机视觉领域。
5. 总结
总之计算机视觉是一个新兴的领域,非常有用,有趣但是很难。。。 这堂课我们会讲解图片构成,原理,如何变化以及如何识别。 运用的语言是Matlab(上这节课之前我是一点都不会matlab[哭~])。