索引(index)是数据库系统中用于提高检索查询速度的数据组织,一般情况下可以显著提升数据库系统检索查询的性能,也可以快速检索特定数据和范围数据以及提升数据值唯一性等。索引内容是指索引数据中哪些属性或特征、属性或特征的组合。索引内容不仅是指
索引数据库有关属性,也是指索引图像中的内容。
索引内容介绍
索引内容是指索引数据中哪些属性或特征、属性或特征的组合。在人工智能中,索引内容是指通过有关算法自动地索引文本数据或图像数据内容,因此
文本检索、
图像检索、图像检测都属于索引内容技术范畴。索引内容本质目的就是索引到感兴趣或有用的内容。
图像检索
随着计算机网络的高速发展,以及电脑、手机、数码相机等数字化设备的普及,出现了大量图像信息。如果想在这些海量的图像信息中,寻找自己需要的图像信息,采用传统的基于文本关键词检索方式就无法满足用户的需求,因此基于内容的
图像检索技术,即 CBIR (Content-Based Image Retrieval)应运而生。CBIR 的核心是使用图像的底层视觉特征(颜色、纹理、形状), 以及图像高层语义对图像进行检索的技术。其基本原理是对表征图像的底层视觉特征, 建立图像特征数据库,对这些特征建立索引,检索时根据多维特征向量对图像进行相似性匹配。
基于颜色特征的检索
颜色是图像最底层、最直观的物理特征,一般采用颜色直方图、颜色相关图、颜色矩、颜色一致性矢量等方法来描述。目前基于颜色特征的检索是应用最为广泛的检索方法,主要分为两类:全局颜色特征检索和局部颜色特征检索。全局颜色特征检索方法目前主要使用色彩直方图的方法,它是由 Swain 和 Ballad 提出的, 这种方法是根据色彩直方图统计每种色彩在图像中出现的概率,然后采用色彩直方图的交来度量两幅图像色彩的相似性,其缺点是不能反应图像颜色的空间分布。基于这个缺点, 很多人提出了改进的方法:Pass 和 Zabih 等人提出以图像的色彩聚合矢量作为图像的索引,是图像直方图的一种演变,聚合矢量中的聚合信息在某种程度上保留了图像色彩的空间信息。Stricker 和Orengo 等提出累加直方图法, 将图像分成若干区域,分别对每个区域计算其颜色直方图,图像检索就变成区域颜色直方图距离的计算,极大地提高检索的准确性; 同时他们又提出了色彩矩的方法,认为色彩信息主要集中在图像色彩的低阶矩中。这种方法主要对图像的每种色彩分量的一阶、 二阶和三阶矩进行统计。Hafner 等提出了分级检索策略,并获得较好的效果。全局直方图因其不包含颜色的空间分布关系,往往造成误检。局部直方图方法可以弥补这个缺点,其基本思想是将图像进行分块,计算每一个子块的颜色直方图,然后比较两幅图像相应子块间的相似距离并进行求和作为整幅图像的相似距离值。但子块间的空间约束关系太强,丢失了全局颜色直方图所具有的旋转、平移不变性的优点。基于此,Stricker 等提出将图像划分成 5 块互相交叠的区域 (考虑图像中象素间的相关性),通过对区域中间的象素和靠近边界的象素设置不同的权重,只能做到有限的旋转不变性。
基于纹理特征的检索
纹理是图像的某种局部性质,或是对局部区域中像素之间关系的一种度量,其本质是刻画像素的邻域灰度空间分布规律。纹理特征主要包括粗糙度、方向性、对比度以及规则性。纹理特征描述方法大致可以分为四类:统计法、结构法、模型法、频谱法。统计方法在频率域上, 主要采用
傅立叶变换和小波分析。傅立叶变换在能量谱上反映图像粗糙度和方向性;小波分析中采用 Gabor 滤波能够表现出最好的特征。在空间域上主要采用由 HaraLick 和 Shanmugam 提出的共生矩阵法。Tamura 法从粗纹度、对比度、方向性、 线性度、 规则度和粗糙度 6 种视觉特征分析纹理,该法效率比较高。基于纹理的检索适用于检索诸如河流、草坪、沙地、布料、建筑材料等类型的图像。
基于形状特征的检索
形状是刻画物体最本质的特征。形状特征有面积、主轴方向、环形性、 连通性、偏心率等。对形状特征的提取主要是寻找一些几何不变量。目前用于图像检索的形状描述方法主要有两类:基于边缘和基于区域的形状方法。前者利用图像的边缘信息,而后者则利用区域内的灰度分布信息。在基于形状的图像检索中,要解决三个间题。首先,形状通常与图像中的特定目标对象有关,因此形状比颜色和纹理的语义性更强,要获得目标的形状参数, 先要进行图像分割,所以形状特性会受到图像分割效果的影响。其次, 目标形状的描述是一个非常复杂的问题。人对形状的感觉是视网膜感受和现实世界的知识相结合的结果。事实上, 目前还没有找到与人的主观感觉相一致的形状模型。最后,视角不同所获得的形状可能会有很大区别,为能准确匹配形状,就要解决平移、缩放、旋转中的不变性等问题。
基于语义特征的检索
在实际的查询中,人们更习惯于依据图像所描述的对象或事件的语义信息进行图像相似性判别的,而非是图像低层视觉特征的相似。这就造成了人所理解的 “语义相似” 与
计算机理解的“视觉相似” 之间的 “语义鸿沟” 的产生。基于语义特征的检索方法的目标是最大限度地减小这种语义鸿沟。目前主要采用半自动或手动的方法提取语义特征。
文本检索
文本检索,亦称为自然语言检索,指不对文献进行任何标引,直接通过计算机以自然语言中的语词匹配查找的系统。文本检索进行匹配的对象,可以是整个出版的文本,包括文章、报告甚整本图书,也可以是它的部分,如文摘、摘录或只是文献的题名。以整个文献正文为对象进行的匹配查找,称为全文检索。
图像检测
图像检测是利用
图像处理与模式识别等领域的理论和方法,从图像中定位感兴趣的目标,需要准确地判断每个目标的具体类别,并给出每个目标的边界框。图像对象检测在人脸识别、医学影像、
智能视频监控、机器人导航、基于内容的图像检索、基于图像的绘制技术、图像编辑和增强现实等领域都有广泛的应用。图像目标类别检测是目标分类的一个子问题。目标分类可以分为3个层级:
(1) 图像级,即确定图像中是否有相关的目标对象,如图像分类[、图像注释技术。
(2)区域级,即确定图像中某个区域含有某类目标,即本文所述的图像目标类别检测。
(3)像素级,即确定图像中各像素归属于哪类目标对象。像素级分割也分为类别级目标分割和语义分割两类。类别级目标分割与语义分割的主要区别是,语义分割要求将图像中的所有目标包括背景都分割出来并确定其类别,而目标分割仅需要分割感兴趣的目标并分类。