河南理工大学毕业设计(论文)说明书
基于文本的图像检索技术(Text-Based Image Retrieval,TBIR)属于传统的图像检索技术,它的历史可以追溯到20世纪70年代末。它主要是对图像进行人工分析,对图像的物理特征、内容特征进行文本注录或标引,建立类似于文本文献注录的索引数据库,并通过检索这些数据库获得图像编号,继而利用这些编号索引实际图像。TBIR的技术广泛应用,如google、baidu、sohu、yahoo等搜索引擎目前均采用这种方式来检索图像。
但是,这种采用对图像建立关键词等文本描述信息的方式已经越来越不适应图像信息检索的要求,究其原因主要是存在以下几个局限性:
(1)对图像加注文本信息是由手工完成,费时费力。
(2)文本描述信息是非常主观的,不同的人对同一幅图像可能有不同的理解,这样就使得文本描述信息存在二义甚至是多义性,因此当用户在查询时输入的关键词和数据库中的关键词不一致就会导致查询失败。
(3)一幅图像所表达的意思是不可能用几个关键词表达清楚的。
(4)不同国家不同民族很难用同一种语言对图像加注标志,而且对图像语义理解的差异很大。
为了突破基于文本的图像检索技术的诸多弊端,人们转向研究将图像中所包含的内容信息来作为图像的索引。
1.2.2 基于内容的图像检索系统
基于内容的图像检索技术的主要思想是根据图像的一些低级视觉特征,如颜色、纹理、图像对象的形状以及它们之间的空间关系等内容特征作为图像的索引,计算基准查询图像和图像数据库中图像的相似距离,按照相似度匹配进行检索。
基于内容的图像检索技术的研究涉及到人工智能、计算机视觉、信号处理、模式识别、认知心理学、数据库、人机交互等诸多学科领域,具有重要的理论意义。同时,它也是理论和实践紧密结合的一项研究,其最终目的就是帮助人们更方便、更快捷和更准确地去找到锁需要的多媒体资源,因此该技术具有巨大的应用前景。
基于内容的图像检索系统的主要目的还是要克服基于文本图像检索技术的局限性。基于内容的图像检索技术具有如下的特点:
(1)直接从图像的内容中提取线索。正是由于这一特点,使得基于内容的图像检索技术突破了传统的基于关键词检索的局限,直接对图像本身进行分析并提取特征,使得检索能够更加接近目标。
(2)提取特征的方法多种多样。从图像中可以提取的特征包括颜色、纹理、
2
河南理工大学毕业设计(论文)说明书
形状、目标轮廓等。
(3)检索是人机交互的。一般来讲,人对于目标的特征比较敏感,能够迅速分辩出目标的颜色、形状等信息,但是对于大量的对象,一方面难以记住这些特征,另一方面人工从大量数据中查找目标效率非常低,而这正是计算机的长处。因此,在基于内容的图像检索中,人和计算机相互分工配合进行检索。
(4)基于内容的图像检索是一种近似匹配。在检索中,可以采取逐步求精的算法,每一层中间结果都是一个集合,不断减小集合的范围,直到定位到近似目标。这一点和传统数据库的精确匹配算法有明显的不同。
CBIR的一般框架如图1-1所示。
相似图像 图1-1 CBIR一般框架
匹配机制 用 户 查询接口 图像特征库 特征提取(颜色、纹理等) 数据库建立 数据库查询 索引机制 图像 1.3 CBIR技术应用
CBIR技术将对大规模图像信息的管理和访问提供有力的支持。它可以应用于信息检索服务、犯罪预防、医疗诊断、新闻和广告、商标和知识产权、地理信息和远程遥感、教育培训和军事等领域,目前比较成熟的应用有指纹识别、人脸识别和图像搜索引擎等。CBIR应用非常广泛,如:
(1)知识产权保护
科技的飞速发展使得人们越来越关注知识产权的保护问题。许多知识产权的载体都是图像,最明显的是商标和艺术作品。商标知识产权体现在专用的文字描述
3
河南理工大学毕业设计(论文)说明书
和专用的图形标记两个方面。为了防止侵权,需要通过严格的商标审查程序来确认新申请的候选商标是否与己注册商标过分相似。毫无疑问,利用基于内容的图像检索技术实现商标的专用图形标记的自动审查具有非常现实的意义。
(2)新一代网上搜索
网络正逐渐渗透到人们的日常生活中,除了文本资源外,网上还存在非常丰富的图像资源。新一代网上搜索引擎应该具有协助用户从海量而且无序的网上图像资源中寻找符合要求的图像的能力。
(3)医学和遥感图像的分析和处理
尽管传统的图像处理领域早就开始涉足医学和遥感图像的分析和处理的研究,但它们仍然是一个开放的研究课题,无论是民用还是军事,医学和遥感图像的分析和处理都具有非常重大的现实意义。特别当图像规模增加时,准确有效的图像分析手段以及快速的图像识别和检索技术将凸现其重要性。
(4)犯罪与安全预防
当将图像的内容限制在特定领域时,基于内容的图像检索技术将找到更为具体的应用。例如,安全部门可以将人的主要特征(如指纹和脸部)的图像存储在数据库中,通过指纹识别和人脸识别就有可能从大量的指纹库或者人脸库中自动识别出特定的目标。毫无疑问,这具有重大的社会价值。
除此以外,基于内容的图像检索技术还可以应用到设计(时装、装演和结构)、远程教育以及个人相册管理等方面。综上所述,基于内容的图像检索技术涉及多个研究领域,有着广泛的应用前景。
1.4 经典CBIR系统介绍
迄今为止,已经有许多比较成功的基于内容的图像检索系统问世。这些系统在一定范围内都得到比较理想的效果,下面对图像检索系统方面的研究成果进行介绍。
(1)QBIC:国际商用机器公司IBM公司的QBIC(Query by Image Content)系统是第一个商用的基于内容的图像检索系统。QBIC的系统结构由图像入库、特征计算和查询阶段三部分构成。QBIC支持在大型图像数据库中基于视觉特征的检索,这些特征包括颜色百分比、颜色分布、纹理特征等。在检索时,用户可以使用例子图像、用户草图、所选颜色、纹理模式等方式进行查询。QBIC使用的颜色特征有平均(R,G,B)、(Y,I,Q)、(L,A,B)和MTM(Mathematical Transform to Mussel)坐标,及k元颜色直方图,对于黑白商标还提供了分形检索方法。纹理特征用的是
4
河南理工大学毕业设计(论文)说明书
Tamura纹理描述的改进版本,也就是粗糙度,对比度和方向性的结合。形状特征则采用形状的面积、圆形度、离心率、主轴方向以及一组变换无关矩等描述方法。QBIC的索引子系统中,对于维数比较高的特征,如形状特征,采用KLT(Karhunen Loeve transform)变换或将主分量变换降维至2到3维,然后用R*树组织多维索引结构。在检索时,为了提高匹配效率,在执行真正的匹配算法前将先通过快速滤波器(fast filter)来产生最优的一些分量来参与后续比较慢的匹配算法。在它的新系统中,结合了基于文本的关键词检索和基于内容的相似性检索。QBIC结合了多种查询方式,如标准的系统查询方式、选择特征查询和草图查询等,界面比较友好,其系统构架对后来的图像检索系统有深远影响。
(2)Virage系统是由Virage公司开发的一个基于内容的图像检索引擎。系统分层表示:图像表达层、图像对象层、领域对象层和领域事件层,支持基于颜色、颜色布局、纹理和结构(对象边界信息)的可视化查询。Virage在QBIC的基础上所作的改进在于它还支持上面提到的4种基本检索的任意组合的检索方式,用户可以根据自己的需要,调节各项特征的权重。在Virage系统中图像索引的提取需要经过图像的预处理,然后提取图像的特征索引,它将这些特征称为原语,并进一步把原语分为通用型原语和特定领域原语。Virage技术的核心是Virage Engine以及在图像对象层上的操作。Virage Engine主要有三个方面的功能:图像分析、图像比较和图像管理,它将搜索引擎作为一个插件,既可以应用到通用的图像查询,也可对其进行扩展并应用到特定领域。
(3)Photobook是麻省理工学院(MIT,Massachusetts Institute of Technology)多媒体实验室开发的交互式图像浏览和检索工具,它包含4种应用领域的示范:纹理识别、形状识别、人脸识别和大脑形状识别。纹理识别主要针对以纹理为主体内容的图像;形状识别给出了一些具有简单形状物体的检索示例;人脸识别是MIT基于其研究技术基础上开发的新的应用领域;大脑形状识别则是Photobook的一个新的应用领域,它在检索过程中处理图像的3D数据。Photobook系统的主要思想是保留语义的图像压缩,将图像信息压缩到对感知重要的一组系数。它的最新版本为FourEyes,在图像注解和检索过程中加入了人的因素。它突出了交互式语义查询及系统学习能力,并且还应用了相关反馈的技术。系统可以保留用户的记录,使用一个代理设施来进行学习,通过分析选择出较好的匹配模式,以改进识别功能。
(4)VisualSEEK/WebSEEK:VisualSEEK为视觉特征检索引擎,WebSEEK是面向网络的文本和图像检索引擎,二者均由哥伦比亚大学(Columbia University)开
5
河南理工大学毕业设计(论文)说明书
发。VisualSEEK系统由4个部分构成:图形用户界面、服务器应用、图像检索服务器和图像归档。系统采用的图像特征是全局颜色直方图、区域的二进制颜色集和基于小波变换的纹理特征,其主要特点是图像区域的空间关系检索和视觉特征从压缩域提取。WebSEEK是面向Web的检索工具,主要包括三个主要模块:图像、视频收集模块,对象分类索引模块,检索浏览和查找模块。它支持基于关键词和视觉内容的检索。系统采用了先进的特征提取技术,用户界面方便友好,查询途径丰富,结果输出画面生动,支持用户直接下载信息。
(5)Netra系统是由加利福尼亚大学(University of California)的亚历山大数字图书馆(ADL,Alexandria Digital Library)开发的一个基于内容的图像检索原型系统。Netra使用颜色、纹理、形状和分割图像区域中的空间关系信息来检索。它着重从已分割的图像中查找相似区域进行匹配,使用基于纹理分析的Gabor滤波器,基于神经网络的图像库构造以及图像边缘基于流的区域分割。此外,NETRA还使用了一些特殊的特征表述,便于快速完成用户的一些特殊的查询,如检索包含A的颜色、B的形状和C的纹理的图像,并将它们分类列出。NetraII是Netra的新版本,是一个基于区域和颜色特征的图像检索系统,主要采用了一些在彩色图像分割算法和局部颜色特征描述方面所做出的成果,如色彩量化、特征的距离化度量等,使得图像分割更加快速。
(6)MARS(Multimedia Analysis and Retrieval System)是由伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign)开发的多媒体分析和检索系统。它是一个多学科共同研究的成果,内容涉及计算机视觉、数据库管理系统和信息检索。MARS的主要特点是数据库管理系统(DBMS,Database Management System)和信息检索技术(IR,Information Retrieval)的结合,包括如何进行分级的精确匹配:索引和检索技术的结合,包括检索算法如何发挥底层索引结构的优点;以及计算机和人的结合,包括相关反馈技术。MARS系统并不集中于要找到单一最优的图像描述特征,而在于根据应用的实际环境和用户的需要在检索框架中动态的组合调整各种不同的图像特征。MARS在图像检索领域正式提出了相关反馈的体系结构,相关反馈的各种技术被用在各个层次的检索过程中,包括查询向量的优化,相似度算法的自动选择,以及图像特征权重的自动调整。
1.5 论文结构
本文的内容构架介绍如下:
第1章 作为本文的绪论,首先概括论述了本系统设计的背景,简述了图像检索
6
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库基于内容的图像检索系统(2)在线全文阅读。
相关推荐: