检索文档
筛选出符合用户需要的信息。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔逻辑模型、模糊逻辑模型、矢量空间模型以及概率模型等。
布尔逻辑模型布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。标准布尔逻辑模型为二元逻辑,即一系列对应于文件特征的二元变量。这些变量包括从文件中提取的文本检索词,有时也包括一些更为复杂的特征,如数据、短语、私人签名和手工加入的描述子。在布尔模型中有确切的文件特征表达集合。用户可以根据检索项在文档中的布尔逻辑关系递交查询。匹配函数由布尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。查询结果一般不进行相关性排序。
模糊逻辑模型为了处理精度和复杂性之间的矛盾,引入了模糊逻辑模型,它以逻辑真值为[0,1]的模糊逻辑为基础的,以隶属函数概念来描述现象差异的中间过渡。在查询结果处理过程中引入模糊逻辑运算,将所检索的文件信息和用户的查询要求进行模糊逻辑比较,按照相关性的优先次序排出查询结果,在布尔检索中借助模糊逻辑模型能够克服布尔逻辑查询结果的无序性。
矢量空间模型和布尔检索模型不同,矢量空间模型中查询和文件都映射为同一n维空间矢量。利用奇异值分解(SVD)、查询词和文件的内部结构联系,通过欧几里德距离和余弦法则作相似性比较,根据矢量空间的相似性,排列查询结果。矢量空间模型不仅可以方便地产生有效的查询结果,而且能够提供查询结果分类,为用户提供准确定位所需的信息。
概率模型在信息检索中存在不确定性问题,对查询本身来说,它不能唯一地表示信息需求,对于结果来说,定查询结果的正确与否。对于布尔检索也是如此,因为查询的提交本身就是一种不确切方式。为了解决在布尔检索模型中的不确定性问题,引入了概率检索模型。该模型基于概率排队理论:当文件按相关概率递减原则排列时可以获得最大的检索性能。
五、全文信息检索技术的发展
目前的全文检索技术还存在着一些未尽人意的结果,主要是通常的信息检索系统性能较低,原因是将孤立词和词汇术语作为查询描述子,因而文件内容的相似性较差。智能化信息检索是人工智能和信息检索的相结合的产物。它能使信息检索系统“理解”用户的信息需要和文件包含的信息内容。它在对内容的分析理解、内容表达、知识学习、推理机制,决策等基础上实现检索的智能化。
目前人工智能和信息检索的结合主要包括三方面:(1)信息检索和专家系统:主要研究方向是开发一个专家中介系统来协助查询形成、搜索策略选择以及预测检索文件;(2)信息检索和自然语言处理:它实际上是以字或词为符号的一种符号系统。目前自然语言处理对信息检索的应用仍停留在简单语言处理上,例如确认词根和词组等。(3)信息检索和知识表达:此领域的研究主要是通过应用领域知识来理解文件和查询的信息内容。
目前,虽然某些在WWW上的信息检索服务系统采取了智能用户代理的等方式,可以根据用户事先定义的信息检索要求,在网络上实时监视信息源,如指定Web页面的更新、网络新闻、电子邮件等,并将用户所需的信息通过电子邮件等方式,主动提供给用户,减少用户检索信息的时间。但是商用信息检索系统仍主要以布尔模糊逻辑为主,辅以部分自然语言的处理。智能化信息检索技术的发展,特别是知识学习和知识库以及人机交互方式的应用,将大大提高信息检索服务系统的精度和相关性。随着智能化技术的发展,全文信息检索技术必将更广泛地应用于网上信息检索领域。
参考文献
1) WWW上的全文信息检索技术,金燕等,计算机应用研究,1999年第一期,P40-43
2) 全文数据库建库原理与应用技术,王兰成等,情报学报,1999年第4期
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库WEB全文信息检索技术(3)在线全文阅读。
相关推荐: