1 模式与模式识别
模式可以看作是对象的组成成分或影响因素间存在的规律性关系,或者是因素间存在确定性或随机性规律的对象、过程或事件的集合。
模式识别就是对模式的区分和认识,把对象根据其特征归到若干类别中适当的一类。
模式识别是通过一系列数学方法让机器(计算机)来实现类似人的模式识别能力。
样本:所研究对象的一个个体。
样本集:若干样本的集合。
类或类别:在所有样本上定义的一个子集,处于同一类的样本在我们所关心的某种性质上是不可区分的,即具有相同的模式。
特征:指用于表征样本的观测,通常是数值表示的某些量化特征,有时也被称为属性。如果存在多个特征,则它们就组成了特征向量。样本的特征构成了样本的特征空间,空间的维数就是特征的个数,而每一个样本就是特征空间的一个点。某些情况下,对样本的原始描述可能是非数值形式的,此时通常需要采用一定的方法把这些特征转换成数值特征。
已知样本:指事先知道的类别标号的样本。
未知样本:指类别标号未知但特征已知的样本。
所谓模式识别的问题就是用计算机的方法根据样本的特征将样本划分到一定的类别中去。
2 模式识别的主要方法
解决模式识别问题的方法可以归纳为基于基础知识的方法和基于数据的方法两大类。
3 监督模式识别与非监督模式的识别
监督模式识别:在要解决的模式是别的问题中,我们已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建立分类器的问题属于监督学习的问题。
无监督模式识别:根据样本特征将样本聚成几个类,使属于同一个类的样本在一定意义上是相似的,而不同类之间的样本则由较大差异,这种学习过程称为非监督模式学习。
4 模式识别系统举例
语音识别
说话人识别
字符与文字识别
复杂图像中特定目标的识别
5 模式识别的系统的典型构成
一个模式识别系统通常包括原始数据的获取和预处理、特征提取与选择,分类或聚类、后处理四个主要部分。
处理监督模式识别问题的一般步骤:
分析问题:深入研究应用领域的问题,分析是否属于模式识别问题,把所研究的目标表示为一定的类别,分析给定数据或者可以观测的数据中哪些因素可能与分类有关。
原始特征获取:设计实验,得到已知样本,对样本实施观测和预处理,获取可能与样本分类有关的观测向量(原始特征)
特征提取与选择:为了更好地进行分类,可能需要采用一定的算法对特征进行再次提取和选择。
分类器设计:选择一定的分类器方法,用已知样本进行分类器训练
分类决策:利用一定的算法对分类器性能进行分类,必要时根据领域知识进行进一步处理。
处理非监督模式识别问题的一般步骤:
分析问题:深入研究应用领域的问题,分析研究目标能否通过寻找适当的聚类来达到;如果可能,猜测可能的或希望的类别数目;分析给定数据或者可以观测的数据中哪些因素可能与聚类有关。
原始特征的获取:设计实验,得到待分析的样本,对样本实施观测和预处理,获取可能与样本聚类有关的观测向量(原始特征)
特征提取与选择:为了更好地进行聚类,可能需要采用一定的算法对特征进行再次提取和选择。
聚类分析:选择一定的非监督模式识别方法,用样本进行聚类分析。
结果解释:考察聚类结果的性能,分析所得聚类与研究目标之间的关系,根据领域知识分析结果的合理性,对聚类的含义给出解释;如果有新样本,把聚类结果用于新样本分类。