基于统计分类的方法:
(1)基于KNN方法(最近邻法):利用相似度,找出k个训练样本,然后打分,按得分值排序。
(2)基于Naive Bayes算法:计算概率,构建分类模型。
- 引导:
医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状和各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。
- 一、KNN分类器
1.1.1最近邻算法
定义:计算未知样本与所有训练样本的距离,并以最近邻者的类别作为决策未知样本类别的唯一依据。
缺陷:对噪声数据过于敏感。
措施:将被决策样本周边的多个最近样本计算在内,扩大参与决策的样本量,以避免个别数据直接决定决策结果。
1.1.2K-最近邻算法(KNN)
基本思路:选择未知样本一定范围内的K个样本,该K个样本中某一类型出现的次数最大,则未知样本判定为该类型。
举例说明:
如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。
算法执行步骤:
(1)输入测试集。
(2)设定参数k。
(3)遍历测试集,对于测试集中每个样本,计算该样本(测试集中)到训练集中每个样本的距离;取出训练集中到该样本(测试集中)的距离最小的k个样本的类别标签;对类别标签进行计数,类别标签次数最多的就是该样本(测试集中)的类别标签。
(4)遍历完毕,输出测试集的类别。
1.1.3 知识补充
距离度量表示的是两样本之间的相似程度。
常用距离度量方式:
二、朴素贝叶斯分类器
2.1贝叶斯公式
贝叶斯公式理解
https://www.zhihu.com/question/19725590/answer/241988854 (怎样用非数学语言讲解贝叶斯定理(Bayes’s theorem)?)
2.2朴素贝叶斯分类器
2.2.1基本思想
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
2.2.2朴素贝叶斯“公式”
2.2.3朴素贝叶斯分类器
三、瑕疵缺陷检测
检测方法:
(1)瑕疵缺陷图像特征的选择与提取。
(2)计算缺陷图像与标准图像关于灰度的差值。
(3)通过差值与设定阈值比较判断是否存在缺陷。
3.1缺陷图像差分法
3.1.1基本原理
3.1.2基本流程
(1)有效检测区域的设定
(2)图像配准与剪裁
(3)设定差分阈值
(4)缺陷位置的判别
3.2缺陷图像特征的选择与提取
详见:https://zhuanlan.zhihu.com/p/43488853 3.2.1特征提取方法
(1)灰度值特征
(2)灰度差特征
(3)直方图特征
(4)变换系数特征
(5)线条和角点的特征
(5)灰度边缘特征
(6)纹理特征
3.2.2特征选择(数据降维)
降维的原因:在机器学习中,如果特征值即维度过多,会引发维度灾难。维度灾难最直接的后果就是过拟合现象,进而导致分类识别的错误,因此我们需要对所提的特征进行降维处理。
基本原理:特征选择是将原始空间进行变换,重新生成一个维数更小各维之间更独立的特征空间。
降维面临的问题:
(1)降维后数据应该包含更多的信息?
(2)降维后会损失多少信息?
(3)降维后对分类识别效果有多大影响?
数据降维后的好处:
(1)进行数据压缩,减少数据存储所需空间以及计算所需时间。
(2)消除数据间的冗余,以简化数据,提高计算效率。
(3)去除噪声,提高模型性能。
(4)改善数据的可理解性,提高学习算法的精度。
(5)将数据维度减少到2维或者3维,进行可视化。
常用方法:主成分分析,随机映射,非负矩阵分解。
3.2.3主成分分析(PCA)
方法概述:此方法目标是找到数据中最主要的元素和结构,去除噪音冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说,对高维变量空间进行降维处理,很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这个维度就是主元。
3.3灰度形态学的缺陷检测
3.3.1概述
灰度数学形态学的基本运算有膨胀、腐独、开启和关闭,其中利用膨胀和腐蚀的组合可构成开启和关闭,而利用开启和关闭又可构成形态滤波器。
在灰度图像的形态分析中,结构元素可以是何的三维结构,常用的有圆锥、圆柱、半球或抛物线。模板尺寸总是奇数,这样檬板中心正好对应一个像素。
3.3.2 形态操作对图像影响
(1)膨胀灰度图像的结果是,比背景亮的部分得到扩张,而比背景暗的部分受到收缩。
(2)腐蚀灰度图像的结果是,比背景暗的部分得到扩张,而比背景亮的部分受到收缩。
(3)开启一幅图像可消除图中的孤岛或尖峰等过亮的点。
(4)关闭一幅图可将比背景暗且尺寸比结构元素小的结构除掉。
(5)形态滤波器是非线性信号滤波器,它通过变换来局部地修改信号的几何特征。将开运算和闭运算结合起来可消除噪声。
(6)如果用一个小的结构元素先开启再闭合一幅图像,就有可能将图像中小于结构元素的类似噪声结构除去。
3.3.3实例说明
电路板布线的缺陷检测:对于一幅大小为1100×870、灰度级为256的电路板灰度图像,其布线缺陷分为断线和毛刺,利用灰度形态学检测这些缺陷。取结构元素为5×5的半球模板,首先对原图灰度开启,消除比邻域亮且尺寸比结构元素小的区域;然后对原图灰度闭合,消除比邻域暗且尺寸比结构元素小的区域,两次结果差异即为缺陷。
四、划痕检查
概述:划痕检测的基本分析过程分为两步首张,确定检测产品表面是否有划痕,其次,在确定被分析图像上存在划痕之后,对划痕进行提取。由于在工业检测中图像的多样性,对于每一种圈像,都要经过分析综合考虑各种手段来进行处理达到效果。一般来说,划痕部分的灰度值和周围正常部分相比要暗,也就是划痕部分灰度值偏小,而且大多都是在光滑表面,所以整幅图的灰度变化总体来说非常均匀,缺乏纹理特征。
基本方法:基于统计的灰度特征或者阈值分割的方法将划痕部分标出。