什么是计算机视觉?
计算机视觉的边界
CV与其他方面知识的联系。
计算机视觉的特点
输入是图像或视频,输出不仅限于图像或视频,还可以是语义标签、三维场景的结构信息等,更强调的是图像或者视频内容的输出。
计算机视觉的目标
跨越“语义鸿沟”建立 像素 到 语义 的映射。
因为机器识别的图像信息全是像素点,而人所看到的图像信息则是几个短句可以描述的,图像中的信息又包括结构信息和语义信息,让计算机具有跨越“语义鸿沟”的表达能力,是计算机视觉领域致力完成的工作。
两大顶级会议(行业方向)
CVPR(IEEE Conference on Computer Vision and Pattern Recognition)
ICCV(International conference on computer vision)
视觉识别的任务
图像分类、目标检测、图像分割、图像描述、图像生成
有效的工具
对于视觉识别任务而言,目前最有效的工具就是卷积神经网络。
ImageNet
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。该数据集是斯坦福大学李飞飞教授等人开发建立的。
神经网络从2012年开展之今,早在2015年在该数据集上的识别效果达到甚至超过人类水平。
卷积神经网络的发展
神经网络最早于1998年提出,但是由于当时的数据少、图像小、硬件水平不高,未能引起轰动。
随着信息时代的发展,芯片集成度高,又有了GPU的运算,同时图像的像素点大幅增多,于2012年神经网络得到业界的关注并迅速发展。
深度学习三要素
算法、数据、算力
计算机视觉的应用
1.三维建模
2.摄影技术
3.生物识别
4.机器人
5.视觉搜索
6.穿戴设备/人机交互
7.自动驾驶/无人驾驶
8.AR
9.气象
10.太空探索
技能树