数据源。决定在哪里进行数据清洗和转换。
2) 抽取和分析数据源-从数据源中提取数据样本,分析这些数据是否符合定义,发现数据非正常的结构和格式,定义业务规则。
3) 标准化数据-转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。
4) 正确和完整的数据-基于正确的规则纠正非正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。
5) 匹配和合并数据-确定对于同一个实体的多个数据并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。
6) 分析数据错误类型-发现数据错误的种类来提高流程和降低重大问题出现的可能性。
7) 转换和增强数据-转换数据来把它加载到主题数据库中,这包含转换、格式化清洗数据和外部数据合并等。
3. 数据转换
数据转换是指对从业务应用系统中抽取的源数据,根据主题数据库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据的一致性和完整性,并按要求装入主题数据库。ETL转换过程的集中体现为:
1) 空值处理,可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。
2) 规范化数据格式,可实现字段格式约束定义,对于数据源中,时间、数值、字符等数据,可自定义加载格式。
3) 拆分数据,依据业务需求对字段可进行分解。
4) 验证数据正确性,可利用查询表及拆分功能进行数据验证。 5) 数据替换,对于因业务因素,可实现无效数据、缺失数据的替换。 6) 从查询表获取丢失数据,查询表实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性。
7) 建立ETL过程的主外键约束,对无依赖性的非法数据,可替换或导出到
错误数据文件中,保证了主键唯一记录的加载。
8) 可实现数据规则过滤。 4. 数据加载
数据加载就是将从源应用系统中抽取、转换后的数据加载到主题数据库系统中。要求数据加载工具必须具有高效的加载性能。数据加载策略要考虑加载周期及数据追加策略两方面的内容,主要加载技术:
1) 使用主题数据库引擎厂商提供的数据加载工具进行数据加载; 2) 通过主题数据库引擎厂商提供的API编程进行数据加载; 5. 数据审计
每个数据加载周期中,如何保证数据仓库系统中数据同业务系统中数据业务意义上的一致性及数据的准确性极其重要。必须引进数据审计功能。
数据正确性的保证在数据的ETL过程中实现,但数据正确性的审计工作则是在数据加载工作完成以后。一方面要从设计到实施的整个过程中确保算法的正确性,另一方面要通过事后的检验来检查ETL的正确性。
理想的情况是,审计工作必须在数据抽取、转换、加载等所有的阶段都要进行,比如,如果采用异步数据抽取和加载,则在数据抽取传输完毕后,要从记录数、文件大小等角度检验抽取和传输的正确性。
数据加载完毕后,一方面通过加载日志检验加载过程的正确性,另一方面要通过业务规则来校验数据的正确性。
6. 统一调度
统一调度是ETL中较为重要的功能。它不但可以将源数据加载到主题数据库中,而且还可以更新数据仓库,并且还可以更新OLAP Server和挖掘模型数据。它在整个商务智能方案中扮演着总指挥、总调度的角色。
ETL的调度控制方式有两种: 1) 自动方式
由每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。 2) 手动方式
用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。 7. 监控
主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,则认为该模块运行可能出现问题,应当报警通知系统管理员等。
1.1.1.3 数据展示及服务流程分析
下面着重描述数据展示及服务的过程: 1、数据分析
分析所要清理的数据源,定义数据清理的规则,并选择合适的清理算法,使其能更好地适应所要清理的数据源。
2、数据清理
把数据源中需要清理的数据通过数据库连接接口调入软件平台,调用算法库中的相应算法对数据源进行预处理标准化数据记录格式,并根据预定义的规则,把数据记录中的相应字段转化成同一格式。然后,按照对数据源的分析,分步执行数据清理。清理过程一般为首先清理错误数据,然后清理相似重复记录,最后清理不完整数据。
3、数据展示
根据不同的查询条件展示数据结果 4、统计分析
根据规则展示所需统计报表 5、数据共享服务
根据各级食药监用户根据不用系统的业务需求,导出或实现数据交换 清理重复数据记录
对于完全重复记录,采用“排序→比较”的检测方法,先将数据库中的记录排序,然后通过比较邻近记录是否相同来检测完全重复记录;对于相似重复记录,清理方法是记录排序→记录相似性检测→合并相似重复记录。
清理错误数据
通过在规则库中预定义规则来检测数据是否满足属性域、业务规则等,从而检测出错误数据,清理效果取决于对业务的分析以及定义规则的数目。
清理不完整数据
不完整数据的清理可以总结为首先采用记录可用性检测算法检测记录的可用性,其次删除不可用的记录,然后对可用记录采用回归、判定树归纳等算法预测可能值来填充,也可人工处理。
针对数据库系统中数据状态、来源、作用的不同,采取的清理方法有: (1)基础数据顺查。以数据清理工作启动月的数据信息为时点,顺时逐月的往前清理,先清理本月、本年数据,再清理往年、往月的数据。
(2)结果数据倒查。当系统数据维护基本成功,能从机内生成出会统报表后,根据各种报表数据出现的错误,反过来到系统中追根求源,进一步发现问题,理顺逻辑关系,再度修改维护。数据清理必须首先保证本年数据质量,对以前年度数据是否清理,由各单位视具体情况而定。
(3)难点数据专查。针对由于政策法规调整、监管方式的改变等因素导致系统升级滞后出现的问题数据,进行专项的攻关解剖。在进行数据清理时,要实事求是,因地制宜。要分析本单位数据现状,找出适应本地实际的数据清理方法。
3、清理结果检验
数据清理运行结束后,在系统窗口中显示出数据清理结果,根据清理结果和警告信息,手工清理不符合系统预定义规则的数据,处理未清理的数据,从而完成系统的数据清理。另外,通过查看数据清理日志,检验数据清理的正确性,对清理错误进行修正。
规则库与算法库是可扩展数据清理软件平台的核心。规则库用来存放关于数据清理的如下规则:
(1) 业务规则
业务规则是指符合业务的某一数值范围或某一有效值的集合,或者是指某种模式,如地址或日期。业务规则能帮助检测数据中的例外情况,比如违反属性依赖的值、超出范围的值等。
(2) 重复识别规则
指定两条记录为相似记录的条件,比如距离的阈值δ。 (3) 合并/清除规则
指定对两条重复记录如何进行处理。对于一组所检测出的相似重复记录有两种处理方法:一种是把一条记录看成是正确的,其他记录则看成是含有错误信息
的重复记录;另一种是把每一条重复记录看成是数据源的一部分,目的是合并重复记录,产生一条具有更完整信息的新记录。相似重复记录的处理由用户根据具体的业务分析在规则库中预定义合并/清除规则来完成。
(4) 警告规则
指定对特殊事件的处理规则及相应提示信息。
可根据具体的业务,在规则库中定义相应的规则,或者修改已有的规则,从而使可扩展数据清理软件平台适用于不同的数据源,具有较强的通用性和适应性。
算法库用来存放数据清理所需要的算法。多种数据清理算法通过Java程序实现后,以类的形式存放在算法库中,供数据清理时根据不同的情况来调用相应的合适算法。通过选择相应的清理算法多次对数据源进行清理,可提高数据清理的综合效果。另外,在算法库中可不断扩充新的数据清理算法,供数据清理时选用。
算法库就是存放数据清理算法的类库,算法采用Java编程实现,供数据清理时调用,所需的新算法可通过Java编程实现后扩充到算法库中。规则库的实现可分成以下两种方式:
(1) 通过规则语言实现,规则语言一般采用IF-THEN规则,这种方式主要用手业务规则、警告规则等清理规则。
(2) 通过在数据库中创建一个数据表实现,这种方式主要用于重复识别规则、不完整识别规则、错误识别规则等清理规则。
软件平台提供数据清理规则定义界面,供数据清理时根据具体的业务分析,定义或修改规则库中的数据清理规则。
1.2 项目优化建议
1.2.1 业务流程优化
本期系统建设相关的业务流程是审评认证应用系统取得成功的重要保证。传统状况下的政府业务流程根据政府社会管理的职能需要设置,以政府业务的稳定实现为前提,较少顾及公共服务的效率和公共的需求。只有在理顺和优化相关的业务流程下,才能清晰地界定系统范围;反过来,通过IT系统的建设,可以大
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库数据迁移(2)在线全文阅读。
相关推荐: