77范文网 - 专业文章范例文档资料分享平台

中文异构百科知识库实体对齐 - 图文

来源:网络收集 时间:2019-06-17 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

龙源期刊网 http://www.qikan.com.cn

中文异构百科知识库实体对齐

作者:黄峻福 李天瑞 贾真 景运革 张涛 来源:《计算机应用》2016年第07期

摘要:针对传统实体对齐方法在中文异构网络百科实体对齐任务中效果不够显著的问题,提出一种基于实体属性与上下文主题特征相结合的实体对齐方法。首先,基于百度百科及互动百科数据构造中文异构百科知识库,通过统计方法构造资源描述框架模式(RDFS)词表,对实体属性进行规范化;其次,抽取实体上下文信息,对其进行中文分词后,利用主题模型对上下文建模并通过吉布斯采样法求解模型参数,计算出主题单词概率矩阵,提取特征词集合及对应特征矩阵;然后,利用最长公共子序列(LCS)算法判定实体属性相似度,当相似度位于下界与上界之间时,进一步结合百科类实体上下文主题特征进行判定;最后,依据标准方法构造了一个异构中文百科实体对齐数据集进行仿真实验。实验结果表明,与经典的属性相似度算法、属性加权算法、上下文词频特征模型及主题模型算法进行比较,所提出的实体对齐算法在人物领域和影视领域的准确率、召回率与综合指标F值分别达到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有较大的提高。实验结果验证了在构建中文异构百科知识库场景中,所提算法可以有效提升中文百科实体对齐效果,可应用到具有上下文信息的实体对齐任务中。 关键词:

知识库;实体对齐;主题模型;资源描述框架模式;最长公共子序列算法 中图分类号: TP391.1 文献标志码:A 0引言

语义网[1]提供一种在不同应用和个体间共享和重用数据的整体框架,是Web 3.0的重要特征。目前万维网主要面向文档,供人直接阅读和理解;语义网则主要面向文档所表示数据,使计算机能够理解并通过推理引擎进行逻辑演算,是人工智能的重要目标。语义网的建立需要高质量的知识库作为数据支撑。目前,国外具有代表性的知识库有FreeBase[2]、DBpedia[3]、维基百科本体知识库(Yet Another Great Ontology,YAGO[4])及Omega[5]等;国内的知识库有百度知心、搜狗知立方及清华大学双语知识库XLore[6]。知识库在知识图谱、智能语义问答及信息融合等自然语言处理领域均有重要意义[7]。国外的知识库如FreeBase等提供了公开的资源描述框架(Resource Description Framework, RDF)数据源,但所含中文数据量较少,如何构建高质量的中文RDF知识库是目前的研究热点。

实体(Entity)是指客观存在并可相互区别的事物,包括具体的人、事、物、抽象的概念或联系,知识库中包含多种类别的实体。实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库中文异构百科知识库实体对齐 - 图文在线全文阅读。

中文异构百科知识库实体对齐 - 图文.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/663146.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: