自动分类
支持两种自动分类:基于规则的和基于样本实例的。基于规则的分类,管理员创建一个分类树 ,并指定每一分类节点背后的规则。在文档处理过程中,这些规则将被用来标记文件的类别,这些类别将对应分类树种的某个节点。例如,一个很简单的分类规则可能是: category 专业用钢 = ―桥梁用钢 船舶用钢 锅炉用钢 压力容器用钢 农机用钢‖
左边对应的是最终的分类名称,右边对应的是文档在数据源中的URL属性,可能是原来的文件系统的某个子目录,又或者是原来的网页中的URI。
由于手工制作分类规则需要花费非常大的人力,并且对某些应用难于做到非常精确,因此FAST搜索还提供了一个基于样本的能够自学习的分类模式,系统管理员提供了一套文档,被认为是可以代表一个分类,然后运行一个训练工具,就能在文档处理的过程中自动生成基于样本的分类。
分类信息将和文档一起被索引,在搜索结果中,它们可以为用户提供导航和浏览的功能。
FAST为自动分类的规则的管理和样本训练提供一个可视化的工具,Taxonomy Workbench.
自动聚类
自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类。所谓的特征向量,是由文档中出现的概念/关键字以及它出现的频率构成。
先进的语言学处理功能
内置的多语言支持,包括中文。具有先进的语言学处理能力,包括分词断句,对用户的搜索条件进行同义扩展和关联扩展,对用户的搜索条件进行检查并提出修改建议以引导用户获得最佳的搜索体验,和自然语言处理。并且很多地方可客户化,比如说分词的字典,同义词字典,拼写检查/搜索建议字典和自然语言字典等。 自定义分词字典包含企业的产品线,产品名称,品牌名称,注册商标等,使分词过程能自动识别这些和企业相关的专有名词,从而准确地分词;
同义词字典是将用户所输入的搜索条件按照同义和近义进行扩展,即可以是单向的也可以是双向的; 拼写检查字典是为了防止用户输入错误,比如说用户输入“刚才”,通过拼写检查,询问用户是否是希望搜索”钢材”;
自然语言搜索能力是指一个搜索引擎能在用户按日常说话方式进行检索时,也能返回相关的结果。这意味
着,用户输入检索的形式是一个问题或陈述,而不是关键字。处理过程通过分解检索语句,过滤那些和相关度无关的词语,解释问题或修饰符的含义,被称为自然语言处理。自然语言处理的最终目标是是把'坏'检索变成成一个'好'的检索,以返回相关的结果集。如当用户输入“谁是美国总统?”时,提示“你是否要查‘美国总统’” ?”,或自动剔除“谁是”,只查询”美国总统“。
高亮度显示和直达功能
在搜索结果动态生成和搜索条件相关度最高的文档摘要,并且以高亮度的方式显示关键字词,用户通过点击关键字词,直接到达包含和被搜索关键字的最相关的文档中的段落或句子,在被命中的文档较大时,作用特别明显,比如说大于3页。
关键字
在搜索结果中显示出现频率最高的前100个关键字词。关键字词提示对用户具有知识引导的作用,比如说,用户在搜索时,对某项技术和产品只具有最普通的概念,因此他输入的搜索条件就是一个非常普通的概念,但在关键字词中确能显示更多的核心概念,更能深入的反映用户想要了解的技术或产品,用户就可以根据所提示的关键字词进一步搜索,循序渐进地了解和学习该项技术和产品。
比如说用户希望搜索到关于钢铁冶炼的知识,但他对此了解得非常少,因此只输入”钢铁”的查询条件,在关键字的提示里,他发现了”钢铁制造”的概念,他点击它进一步缩小查找范围,在关键字提示里,他又发现了”钢铁制造工艺”,如此使能他一步一步的获得他想要的知识。
在文档关键字统计过程中使用客户化字典,过滤出现频率很高但对用户的搜索提示意义不大的字词。
动态导航和动态钻取
当用户搜索某个他不是特别清楚的概念时,他输入的条件往往是非常普遍的,导致搜索引擎返回太多的结果,如果仅仅靠相关性排序,是不足以帮助用户快速找到想要的信息的。
有赖于在文档处理过程中的灵活的实体提炼能力,为用户的搜索结果提供导航器以帮助用户快速定位到和缩小搜索范围。
除了能帮助用户缩小查找范围,导航器还起到意想不到的效果,它们能从多方位多角度回答用户的问题,使用户对他的问题获得全面的了解,甚至发现他不知道的信息。
导航器的内容是动态的和上下文感知的,和用户的搜索条件密切相关。 导航器具有动态钻取和挖掘的功能。
导航器有内置的几十个,也可以根据客户的需求定制。
搜索管理
搜索商务中心
搜索商务中心,是中央枢纽,完成各校正,监测,管理及监控你的搜索环境。你可以通过高级管理设置相关性,同义词,聚类导航等。通过搜索商务中心可以在发布生产环境前配置搜索功能;
搜索商务中心配合组织对象与搜索结果,让商务和信息管理者获得最有利的信息。搜索商务中心有一个开放的格式,方便系统集成,并同时发布版本作为FAST ESP的标准产品。在核心的搜索业务中心的概念是,整合和搜索配置。
数据群是数据和编入索引内容的排列。只有把搜集到的内容进行排列后,才可以知道如何把具有不同数据源的数据进行编入索引。
比如:我们可以给新闻,股票交易动态,公司黄页,产品价格信息等生成不同的数据群。
搜索引擎是指将定义搜索内容,如何运行检索及显示结果的整合设置。
比如:我们可以设置一个能够允许访问者检索到新闻资讯的搜索引擎。同时,我们可以设置另外一个能够搜索新闻资讯,股票交易行情和公司黄页的搜索引擎。
对于每一个搜索引擎来说,使用者都能去区别其独特的模糊检索自字典。模糊地检索能够帮助使用者拓宽所检索的内容。因此说,当使用者进入银行的检索机时,检索机的搜索功能可以扩展到找到自动柜员机,自动对话机等。下面举一个单板机同义界面的例子。不同的检索处理数据库,语言,编码和搜索筛选都被定义了。将不
同的检索进行巧妙处理能力为系统使用提供了强有力的工具,从而为终端使用者们呈现了迫切想得到的结果。反过来,搜索引擎也提过了收益和增进了站点忠诚度。
检索跟进和区段进一步整合了使用者的检索。以下是一个平板机内检索跟进和区段的例子。
为每一个搜索轮廓FAST ESP提供了一个综合录井框架杠杆的w3c标准测井格式记录信息,警示和误差级别活动,从所有的服务弥补了部署产品。此外,FAST ESP提供了一个质疑伐木和举报中心的一部分,在行政架构。报告设施,让观众可以检索数量和速度信息,具体的时间间隔。屏幕开枪所示的一个例子,该用户质 疑统计表内FAST ESP SBC.
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库FAST企业智能化海量信息搜索方案 - 图文(4)在线全文阅读。
相关推荐: