检索文档
检索入口的关键性信息,用该组信息对文文件进行标引,使用户可以通过输入关键信息检索到该文文件的简要信息,如标题、摘要、时间、作者和URL等,进一步点击可查询到该文档.
(6)自动分类:建立并维护一套完整的分类目录体系,根据文文件的信息特征,计算出与其相关程度最大的一个或多个分类,将文档划归到这些分类中去,使用户可以通过浏览分类体系直接查询到该文档. .
四、检索
检索包括文件信息表达和查询信息表达以及相关信息预测过程。
(1)信息表达:信息的表达有多种方式,如布尔表达、矢量空间表达、自然语言表达等,每种表达方式由应用系统服务者提出并由整个应用系统的目的和需求所决定,并对应于相应的存储模式和检索算法,信息查询和组织的效率,也就是速度和存储的空间在很大程度上决定了检索服务系统的性能。
(2)查询分析:用户端的查询信息首先要进行分析处理,提取出查询项索引、逻辑表达式或其它查询特征描述。和文件信息索引不同的是:查询索引处理是及时地提交处理形成索引,而文件信息索引是由搜索引擎按某种策略进行远程数据的搜索和获取预先生成的本地索引。查询索引和文件索引采取同样的表达方式,因此能够采取相似性估计算法检索出相关文件。
(3)查询扩展:近年来,为了提高信息检索的性能,将应用领域知识和索引、相关性、估计、查询表达相结合实现查询扩展,即查询索引还包括不在用户查询中出现的查询词部分。典型的知识库查询扩展应用如图1所示,知识库中存储的知识为原始查询增添了相关词,从而扩展了原始查询。
(4)查询词的选择策略:
·非独立词:非独立词指的是和查询词具有较大相关性的词。但是预先必须计算文件集合中的所有词之间的相关性。
·反馈词:根据用户反馈的文件信息,按照在相关文件和非相关文件中词的出现频率和分布决定出重要的词,将这些词增加到用户查询中。
·交互式选择:用户从通过上述策略得出的待选词中决定最后的查询词。
反馈网络属于人机交互范畴,目的在于提高查询性能和针对性。不同的用户根据实际情况提供不同的反馈信息,不同的信息检索服务系统按照其功能与检索方法也有不同的反馈结构和交互方式,因此查询结果也不尽相同。
(5) 信息检索模型:信息检索系统的核心是搜索引擎,它需要从大量复杂信息中,
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库WEB全文信息检索技术(2)在线全文阅读。
相关推荐: