陈 瑞
(湖北省科技信息研究院 湖北 武汉 430071)
摘 要:大数据背景下信息服务工作发生较大变化。湖北省科技信息共享服务平台顺应大数据挑战,利用云平台和元数据仓储技术,从硬件、软件层次上解决了大数据条件下的数据存储与检索问题。以湖北省科技信息共享服务平台的功能特色为角度,研究了以信息平台为基础进行的信息服务内容与模式创新,最后对信息平台今后的服务方向进行了探讨。
教育期刊网 http://www.jyqkw.com
关键词 :大数据;信息服务;信息共享平台;元数据仓储;云平台
中图分类号:G203 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.01.008
在大数据时代,信息服务工作的信息获取、存储、组织、分析等技术,用户获取和利用信息的方式方法都发生了较大变化,如何进行大数据处理,为用户提供更加专业的信息服务将成为挑战。
湖北省科技信息共享服务平台(以下简称信息平台)是支撑湖北省内科研机构和科技型中小企业创新创业的综合信息服务平台,是全省科技进步和科技创新必不可少的支撑条件。信息共享服务平台顺应大数据时代的挑战,利用元数据仓储技术,真正实现统一跨库检索,集产业追踪、区域聚焦、个性定制、代查代借、特色服务等多功能为一体,能够实现多层次、全方位地为用户提供信息服务。对促进全省科技创新体系建设,推动科技创新驱动战略实施具有十分重要的意义。
1 大数据环境下信息服务面临的问题
1.1 大数据存储管理问题
首先,随着网络环境下数据爆增,巨大存储空间需求给硬件存储带来压力。大数据时代信息资源的建设已经不止是简单的网页文本、照片或音频、视频文件。这就需要购置大量的存储设备去满足不断增长的需求,而传统模式的数据存储方式不仅扩展能力有限,而且扩展方法很麻烦。
其次,对非结构化数据存储管理效率低。例如各种类型的数据如办公文档、图像、音频、视频、电子邮件、超媒体等,数据处理操作不仅需要使用不同的文件处理软件,而且要在人工参与下才能完成。过多的人工操作会大大增加数据处理的时间,致使信息管理中心无法快速获得重要的信息,工作效率降低。
1.2 技术问题
面对指数级增长的数据目前PB级的存储系统中,检索数据无异于大海捞针。传统的数据检索是靠数据库文件系统命名的。这种检索方式在检索和查询影像文件时可能会遇到障碍,当影像文件超过了文件系统的厚度时就会出现问题。此外,各种非结构化的数据又增加了大数据的复杂性,即关于数据库表结构定义的不一致性和标准缺失也是数据库检索的另一大问题。
1.3 传统服务模式出现的问题
传统信息服务方式在大数据时代已经不能满足信息化发展的要求,信息管理中心不仅需要收集、存储大量的数据信息,还要在这些原始数据的基础上通过专业技术手段分析、挖掘数据,得到更为有效的信息资源,为信息资源用户的决策管理提供数据参考。而传统的数据管理方式适用于存量不大并且实时性要求不高的结构化数据,面对大容量的非结构化数据显得力不从心。
2 信息平台的功能特色
2.1 云平台布署解决大数据存储问题
信息平台为解决大数据带来的检索和存储问题,引入了云平台技术。从硬件方面来说,云平台采用了6台高性能服务器作为6个底层节点,一台普通服务器作为管理机,节点与节点之间部署了心中检测线,而节点与管理机之前则用千兆交换机连接。从软件方面来说,信息平台部署了一个云平台操作系统,包括管理系统、门户网站、运营系统各一套,3套存储管理平台。信息平台从硬件和软件功能上进行升级,保证了平台虚拟机的稳定运行,为信息平台元数据仓储提供了强有力的支持,促进信息平台检索、下载功能高效率进行。
2.2 实现统一跨库检索
信息平台集成当前国内最大的几家数据库厂商资源,包括万方数据、维普资讯、中国知网、国研网、NSTL、国家知识产权局等,同时还集成了湖北省科技信息研究院自建的特色数据库,文献类型包括科技期刊、学位论文、会议论文、专利、标准、国研报告、研究报告、法律法规、科技成果、年鉴、报纸、图书等,用户只需一次检索便可得到所有数据库的不同类型资源,而且具有去重功能,改变以往多个库检索、重复浏览的模式,节省大量宝贵时间与精力。
2.3 元数据仓储技术保证查全率
元数据在众多领域都有其具体的定义和应用,其中得到最广泛认可的概述是:关于数据的数据,即描述任意资源结构化的数据。信息平台利用元数据仓储技术,采用数据收割、数据整理、数据更新这一流程,利用先进的资源调度规则和资源调度配置,将最底层的元数据预先建立索引,进而将不同的异构数据库导入一个全新的数据库,实现各类资源的快速检索,大大提高检索速度与检索效率。信息平台利用元数据仓储技术,整合4.7亿条不重复的元数据,并且每年保持大规模增长,数据量超过任何一个单一的数据库厂商,大大保证了查全率,方便用户快速找到文献资源线索。
2.4 多渠道保证原文无障碍获取
信息平台获取原文的方法多样,包括直接下载、共建单位原文传递、云传递及代查代借。信息平台整合了国内几大主流数据库厂商的各类资源,基本保证了各类中文数据的原文下载,本着资源共建共享的原则,信息平台联合全省各大高校及科研单位参与共建共享,目前已有武汉大学图书馆、华中科技大学图书馆、中科院国家科学图书馆武汉分馆等19家单位参与,开通共建单位原文传递窗口,方便用户获取本馆没有的文献。同时,信息平台还有云传递功能,此为全国范围内的参与单位实现,从而更大幅度地保证原文获取效率。
在以上三种方式都无法获取原文时,系统也会引导用户采用代查代借功能获取,代查代借是信息平台的辅助功能,主要解决以下两类问题:一是在信息平台检索到文献题录,但是无法获取全文,二是知道文献相关信息,在信息平台中未检索到。用户只需在代查代借页面提交文献题名、作者、来源等信息即可,所提交的信息越详细,获取原文的机率就越大。提交请求后信息平台共建单位服务人员会在五个工作日以内将查询结果反馈到用户邮箱。
2.5 特色功能满足用户个性化需求
2.5.1 检索功能操作方便快捷
信息平台实现文献类型和检索字段同时可选的功能,而且文献类型可多选。其实这一功能在单一的数据库中实现并不难,然而在统一资源检索平台要实现此功能需要解决一些技术难题。笔者也比较其他省级科技信息平台,如广东、广西、四川、上海等省的科技文献共享服务平台均只实现文献类型单选。湖北省信息平台可以在多选文献类型的情况下选择所需字段,这样处理方便用户进行简单的计量分析,例如可以通过一键式检索分析某一机构或作者的文献产出情况,通过教育期刊网 http://www.jyqkw.com
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说英语论文大数据时代基于共享平台的信息服务工作研究在线全文阅读。
相关推荐: