前言和基础知识准备
- 1、前言
- 1、1从人工智能到计算机视觉和模式识别
- 1、2计算机视觉可以做什么
- 2、基础知识准备
- 2、1传感器及其搭载平台
- 2、2多视几何基础知识
- 2、3常用优化方法和粗差处理方法
1、前言
1、1从人工智能到计算机视觉和模式识别
- 让机器人像人一样看:计算机视觉
- 让机器人像人一样听:自然语言理解和交流
- 让机器人像人一样学习:机器学习
- 让机器人像人一样思考:认知与推理、博弈与伦理
- 让机器人一样运动:机器人
计算机视觉: 执行类似人类的视觉系统的任务,研究基于传感器感知数据如何分析和理解世界。
模式识别: 可以模拟人类的视觉和听觉系统,研究如何从传感器数据中自动识别出模式和规律
1、2计算机视觉可以做什么
- 定位&重建
- 分割&跟踪
- 识别
2、基础知识准备
2、1传感器及其搭载平台
- 感知二维信息的传感器:面阵相机(手机、平板、相机),线阵相机(用于工业),鱼眼相机,全景相机。
- 感知三维信息的传感器:光学相机
计算机视觉领域搭载平台:手持、机器人、车载移动平台以及一些新兴平台。
2、2多视几何基础知识
①齐次坐标
所谓齐次坐标就是将一个原本是n维的向量用一个n+1维向量来表示。
优点:
a:许多图形应用涉及到几何变换,主要包括平移、旋转、缩放。以矩阵表达式来计算这些变换时,平移是矩阵相加,旋转和缩放则是矩阵相乘,综合起来可以表示为p’= m1p+ m2(注:因为习惯的原因,实际使用时一般使用变化矩阵左乘向量)(m1旋转缩放矩阵, m2为平移矩阵, p为原向量 ,p’为变换后的向量)。引入齐次坐标的目的主要是合并矩阵运算中的乘法和加法,表示为p’ = pM的形式。即它提供了用矩阵运算把二维、三维甚至高维空间中的一个点集从一个坐标系变换到另一个坐标系的有效方法。
b: 它可以表示无穷远的点。如果点(1,2)移动到无限远处,在笛卡尔坐标下它变为(∞,∞),然后它的齐次坐标表示为(1,2,0),因为(1/0, 2/0) = (∞,∞),我们可以不用”∞"来表示一个无穷远处的点了。
②点线面的表示
点: 笛卡尔坐标(x,y); 齐次坐标(sx,sy,s)
线: ax+by+c=0 或者齐次坐标下
面:ax+by+cz+d=0 或者齐次坐标下
③角度表示a: 二维空间角的表示:
在二维空间中,旋转可以用一个单一的角定义(正角表示逆时针)
b:三维空间角的表示:
- 欧拉角和旋转矩阵
欧拉角描述刚体在三维欧几里得空间的取向,表示坐标系相对参考坐标系𝑥𝑦𝑧的旋转角。
刚体旋转的旋转矩阵可由三个欧拉角对应的三个基本旋转矩阵复合而成,以绕𝑦, 𝑥和𝑧轴依次旋转角度φ,ω和κ为例: - 缺點:欧拉角表达方式不唯一;不平滑插值,参数空间不连续;产生万向节死锁现象。
- 旋转轴和旋转角
单位向量e表示的旋转轴和绕旋转轴的旋转角,如下: - 四元数
有三个虚部的复数:𝒒=𝑞_𝑤+𝒊𝑞_𝑥+𝒋𝑞_𝑦+𝒌𝑞_𝑧
=(𝑞_𝑤,𝑞_𝑥,𝑞_𝑦,𝑞_𝑧)
其中:
𝒊𝟐=𝒋𝟐=𝒌^𝟐=𝒊𝒌𝒋=−1
𝒊∙𝒋=𝒌
𝒋∙𝒊=−𝒌
优点:可减少减少计算量和存储空间;可避免万向节死锁;参数空间连续。
2、3常用优化方法和粗差处理方法
- 最小二乘(LS)
a、线性最小二乘法
b、非线性最小二乘法 - 最大似然( MLE )
- 最大后验( MAP )
- 粗差处理:最小中值法( LMedS )、RANSAC及其改进版本