是否支持搜索检索的拼写检查? 是否支持 stemming 或 lemmatization?
Y
FAST支持lemmatization,一种比stemming更强大的处理方式。Stemming能关联具有相同词根的字词,如load,loads,loading和loaded;lemmatization和它相似,但还能关联和识别异型和不规则的字词,如am,be和was。
产品是否支持多种类型的通配符搜索?
Y
FAST支持单字匹配(“?”)和多字匹配(“*”),支持前缀,后缀和嵌入式通配。
产品能否自动识别检索中的专有名字和词组,以提高检索结果的相关度,并且能在特定情况下限制拼写纠正功能?
Y
FAST搜索能自动识别用户检索中的专有名词和词组。具体的名称或词组识别被配置在一本基础字典中。自定义的名称或短语词典可以增加或合并到现有的字典中。
产品是否支持检索中的字/词组的过滤?
Y
FAST的搜索支持字/词组过滤,并且是可客户化,通过定义字典。
搜索结果处理
产品是否提供相关度排名模型?如果提供,请说明相关度是如何计算的?
Y
相关度是指搜索结果和检索条件的匹配程度,FAST的搜索引擎具有完整和灵活的相关度计算机制,以适应不同行业的不同应用,确保用户获得相关性最高的结果。
完整性:十几个可以调整的参数,包括proximity, field, keyword, freshness,
business rules, authority,quality, link cardinality, distance, context weights, statistics (tf-idf), degree of linguistics normalization 灵活性: 开放的和可供调整的组合,适合你的相关度排名需要.
相关度排名模型是否可以调整,以适应不同部门的需求?比如说研发部门,市场营销部门,客户服务部门和行政管理部门各提供什么样的排名算法?
FAST的相关度计算,使用以下因素加权平均,通过调整各个因素的权重形成不同的相关度计算方法,适应企业不同部门的需求
? 新鲜度:文档的时间? 例子: 最新的新闻排在最前面.
? 上下文:匹配发生在文档的不同部位其相关度是不同的?例子: 匹配发生在文档的标
题比在正文具有更高的相关度 ? 权威性:所命中的文档是否具有权威性?例子: 判断文档的权威性可以根据它是否被
其他网页参照和联接 ? 统计:所搜索的词语和文档之间的匹配度有多高?例子: 邻近度 (所搜索的词语之间
在文档中的距离); 所搜索词语在文档中出现的频率 ? 质量:所命中的文档的质量。例子: 首选目标网页;业务规则(例如,收入的潜力)
,编辑评级;新闻稿 ? 距离:所命中的文档和我的距离?
对于研发部门,相关度计算以权威性为主,其次是统计特性;对于市场营销部门,相关度计算以新鲜度为主,其次是上下文对于客户服务部,相关度计算以统计特性为主,其次是权威性对于行政管理部门,相关度以质量特性为主,其次是上下文。
产品是否提供自动分类功能,如果是,如何实现?
Y
支持两种自动分类:基于规则的和基于样本实例的。基于规则的分类,管理员创建一个分类树 ,并指定每一分类节点背后的规则。在文档处理过程中,这些规则将被用来标记文件的类别,这些类别将对应分类树种的某个节点。例如,一个很简单的分类规则可能是: category 体育 = ―足球 篮球 排球 网球 台球‖
左边对应的是最终的分类名称,右边对应的是文档在数据源中的URL属性,可能是原来的文件系统的某个子目录,又或者是原来的网页中的URI。
由于手工制作分类规则需要花费非常大的人力,并且对某些应用难于做到非常精确,因此FAST搜索还提供了一个基于样本的能够自学习的分类模式,系统管理员提供了一套文档,被认为是可以代表一个分类,然后运行一个训练工具,就能在文档处理的过程中自动生成基于样本的分类。
分类信息将和文档一起被索引,在搜索结果中,它们可以为用户提供导航和浏览的功能。
FAST为自动分类的规则的管理和样本训练提供一个可视化的工具,Taxonomy Workbench.
产品是否支持自动聚类,如何实现?
Y
FAST搜索平台支持自动聚类,这个功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类。所谓的特征向量,是由文档中出现的概念/关键字以及它出现的频率构成。
产品是否能识别名词短语并提供其它的特别的跟语言相关的特性,使用户体验更好?
Y
Yes. In addition to noun phrase recognition (see description of clustering above), FAST can provide (as a supplement to the core product) named entity extractors that can
recognize and extract from full text typed entities such as Person Names, Place Names, Company Names, Product Names, etc… Once extracted, these features can be used to provide search refinement and analytic features that greatly improve search accuracy and the user’s search experience.
产品在搜索结果中是否提供文档的摘要?
Y
FAST搜索平台动态产生上下文感知的文档摘要,在搜索结果中显示和用户的搜索概念最相关的那部分文档,并以高亮度的方式显示关键字词。
产品在搜索结果中是否支持高亮度显示关键字,并有直达功能?
Y
FAST搜索平台在搜索结果中以高亮度的方式显示关键字词,并且用户通过点击关键字词直接到达包含和被搜索关键字的最相关的文档中的段落或句子。
用户或应用设计者能否限制搜索结果的数量?
Y
Yes. The FAST search interface includes a ―hits‖ parameter that indicates the number of documents to return in one page and an ―offset‖ parameter that indicates where in the results set the page should start
th
(e.g. the 11 document). This can be controlled by the application designer or be exposed to the user.
索引
产品的索引机制?
下图描述了FAST搜索平台的内容索引过程数据流。
Web Content Files, Document
s Database
s Email, Groupwar
e
Custom ContenApplicationt
s Push
WEB CRAWLER FILE TRAVERSER DATABASE CONNECTOR LOTUS NOTES CONNECTOR CUSTOM CONNECTOR DOCUMENT PROCESSOR Pipeline SEARCH SERVER CONTENT DISTRIBUTOR CONTENT API Index DB ALERT SERVER
应用程序通过调用FAST搜索平台提供的内容编程接口(如果使用连接器,连接器也需要通过内容编程接口),使用XML-远程调用的协议向内容分派器请求,内容分派器将内容交给一个或者多个文档处理器。文档处理器负责转换,规范化,分类,标签等工作,最终,经文档处理器处理过的对象被分别交给实时搜索和预警引擎。
产品是否支持增量式的索引更新?如果是,如何实现?
智能的增量式索引能及时反映源数据中的增删改,对于不同的数据源,连接器在技术实现上稍微有所不同。简单来说,当前时刻数据源中所有文档的状态被维护在连接器中,包括文档的唯一标志和最后一次被发现的时刻。在连接器对数据源进行增量更新期间,它会比对数据源中文档的状态和保存在连接器中的最后一次更新时文档的状态,因此,连接器就可以判断:
1) 哪些文档是新增加的还是被更新过的 2) 哪些文件被删除了
如果数据源的更新非常频繁,也可以利用内容编程接口直接对FAST搜索平台进行数据的增加,修改和删除。
产品支持哪些类型的文档?
产品内置支持225种文档类型,包括XML,HTML,PDF,ASCII Text和MS Office格式(Word,PowerPoint,Excel…)。
另外,各个文档集合可以配置独立的文档处理方式和流程。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库FAST企业智能化海量信息搜索方案 - 图文(7)在线全文阅读。
相关推荐: