模式识别(Pattern Recognition)这个词对许多人来说很陌生,然而实际上
人类却在日常生活的每个环节,从事着模式识别的活动。可以说每个有正常
思维的人,在他没有入睡时都在进行模式识别的活动。坐公共汽车找汽车站,骑车判别可行进道路,对观察到的现象作出判断,对听到的声音作出反应,判断东西的好与坏以及水果的成熟与否等等都是人们判断是非,判别事物的过程。但是对
模式识别这个词就显得陌生而难以理解了。确切地说,模式识别在这里是针对让计算机来判断事物而提出的,如检测病理切片中是否有癌细胞,文字识别,话语识别,图像中物体识别等等。该学科研究的内容是使机器能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。
模式识别这个词大概很少听说,主要是由于这个词是Pattern Recognition翻译来的,通俗一点讲究就是机器识别,计算机识别,或机器自动识别。
Pattern这个词翻译成模式,就是要让机器自动识别的事物,如一个具体数字,是印刷体还是手写体。识别的结果就是给他分类,分到具体的数字类中。对数字来说,其结果可表示成它的相应代码,如ASCII码。对于一个
智能交通系统来说,是要识别是否有汽车闯红灯,闯红灯的汽车车牌号码等。要让机器能识别、分类,需要研究识别的方法,这就是这门学科的任务。 人类在观察事物与作出判断时,常常把所见到的具体事物与脑子里对某个事物的“概念”联系起来,从而按这些概念对它们实行分类。人们能将所见到的具体的、外表各异、各具特色的汽车与脑子中已形成的“抽象”的汽车概念联系起来,并能明确地分辨汽车与拖拉机、坦克车等之间的不同之处,实现正确的分类。拿模式识别的术语来说,所见的具体事物是样本,而它们所属的事物类别,代表这些事物的“概念”是模式。也有另一种说法把所见到的事物称为模式,而将它们的归属类别称为模式类。因此模式这个词,有时则代表类别事物的称呼,而有时则强调具体事物,其具体含义依上下文关系而定,一般不会产生混淆。
与人辨别事物相比,机器识别事物的方法是很不同的,也是很简单与低级的,因此机器识别事物的能力还很差。这主要的原因是人们在学习与认识事物中会总结出规律,并把这些
规律性的东西
抽象成“概念”。人之所以能“抽象出概念”,关键能分析事物中哪些是
本质,哪些是表面现象,或由偶然因素引起的。但机器的抽象能力是很差的。要让机器准确地把握事物的本质,弄清分辨事物的关键,从而正确辨别事物,实质上是要使人能够研究出好的方法,提出好的算法,从而构造出好的系统,使机器辨别事物的本领更强。
模式类与模式,或者模式与样本在集合论中是子集与元素之间的关系。当用一定的度量来衡量两个样本,而找不出它们之间的差别时,它们在这种度量条件下属于同一个等价类。这就是说它们属于同一子集,是一个模式,或一个模式类。而不同的模式类之间应该是可以区分的,它们之间应有明确的界线。但是对实际样本来说,有时又往往不能对它们进行确切的划分,即在所使用的度量关系中,分属不同的类别的样本却表现出相同的属性,因而无法确凿无误地对它们进行区分。例如在癌症初期,癌细胞与正常细胞的界线是含糊的,除非医术有了进一步发展,能找到更准确有效的分类方法。
让机器辨别事物的最基本方法是计算,原则上讲是对计算机要分析的事物与作为标准的称之为“模板”的相似程度进行计算。譬如说脑子里有没有瘤,就要与标准的脑图像以及有瘤图像做比较,看跟哪个更相似。要识别一个具体数字,就要将它与从0到9的样板做比较,看跟哪个模板最相似,或最接近。因此首先要能从度量中看出不同事物之间的差异,才能分辨当前要识别的事物(称为测试样本)跟哪类事物更接近。因此找到有效地度量不同类事物的差异的方法是最关键的。