77范文网 - 专业文章范例文档资料分享平台

大数据技术及其应用(2)

来源:网络收集 时间:2020-06-05 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

1.5 数据价值

众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区分看起来可能是一个棘手的问题。

显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式分析解剖,就能让您的行事方式发生天翻地覆的转变。

但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这样看起来甚至有点晦涩的数据时会发生什么:这些数据来源为一些私营公司提供了巨大的价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。

但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。请不要错过。

有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数据科学家和高级开发员的天下。

数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助他们找出竞争优势。

1.6 大数据主要分析和处理工具

如此大量的数据,靠人工分析显然是不可能的,统计学家和计算高手也无法完成如此巨大的任务,“工欲善其事,必先利其器”,因此对于大数据的分析和处理,必须有非常好的工具才行,而且不能指望一种工具可以解决所有问题,当前用于分析大数据的工具主要有开源与商用两个生态圈。

开源大数据生态圈:

1、Hadoop HDFS、HadoopMapReduce、HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成。

2、Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。 3、NoSQL,membase、MongoDb 商用大数据生态圈:

1、一体机数据库/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。 2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica等等。 3、数据集市:QlikView、Tableau、以及国内的Yonghong Data Mart。[ 主要的大数据分析工具有:

在大数据处理领域,最耀眼的明星是hadoop,Hadoop已被公认为是新一代的大数据处理平台,EMC、IBM、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。下面,我们就来看以下八大关于大数据分析的利器。

EMC—Greenplum

2010年EMC收购了Greenplum推出EMC Greenplum统一分析平台(UAP),数据团队和分析团队可以在该平台上无缝地共享信息、协作分析。正因为如此,UAP包括ECM Greenplum关系数据库、EMC Greenplum HD Hadoop发行版和EMC Greenplum Chorus。EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行

并扩展Greenplum关系数据库和Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配臵Greenplum数据库和Hadoop系统性能及容量。随着Hadoop平台日趋成熟,预计分析功能会急剧增加。

IBM —InfoSphere BigInsights

几年前,IBM开始在其实验室尝试使用Hadoop,在2012年5月推出了InfoSphere BigInsights云版本的 InfoSphere BigInsights使组织内的任何用户都可以做大数据分析。云上的BigInsights软件可以分析数据库里的结构化数据和非结构化数据,使决策者能够迅速将洞察转化为行动。IBM随后又在10月通过其智慧云企业(SmartCloud Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。据IBM声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处理费用是每个集群每小时60美分起价

Informatica 9.1

Informatica公司在2012年10月推出了HParser,这是一种针对Hadoop而优化的数据转换环境。据Informatica声称,软件支持灵活高效地处理Hadoop里面的任何文件格式,为Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NACHA、支付业的SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析方法,Informatica同样将解析代码添加到Hadoop里面,以便充分利用所有这些处理功能,不久会添加其他的数据处理代码。InformaticaHParser是Informatica B2B Data Exchange家族产品及Informatica平台的最新补充,旨在满足从海量无结构数据中提取商业价值的日益增长的需求。去年, Informatica成功地推出了创新的Informatica 9.1 for Big Data,是全球第一个专门为大数据而构建的统一数据集成平台。

惠普——Vertica数据分析平台

惠普Vertica 5.0 在大数据分析领域站稳脚跟,能提供高效数据存储和快速查询的列存储数据库实时分析平台。该数据库还支持大规模并行处理(MPP)。通过MPP的扩展性可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、 Groupon)分析处理的数据达到PB级。惠普展示了一款Vertica设备——Vertica Analytics Appliance,和小冰箱差不多大小。它是惠普融合基础架构中的一款全集成技术栈。通过这款新设备“惠普可以真正打开这个市场,尤其是将分析作为一项服务的市场”。

甲骨文—Oracle Big Data Appliance

甲骨文的Big Data Appliance集成系统包括Cloudera的Hadoop系统管理软件和支持服务Apache Hadoop 和Cloudera Manager。甲骨文视Big Data Appliance为包括Exadata、 Exalogic和 Exalytics In-Memory Machine的“建造系统”。Oracle大数据机(Oracle Big Data Appliance),是一个软、硬件集成系统,在系统中融入了Cloudera的Distribution Including Apache Hadoop、Cloudera Manager和一个开源R。该大数据机采用Oracle Linux操作系统,并配备Oracle NoSQL

数据库社区版本和Oracle HotSpot Java虚拟机。Big Data Appliance为全架构产品,每个架构864GB存储,216个CPU内核,648TBRAW存储,每秒40GB的InifiniBand连接。Big Data Appliance售价45万美元,每年硬软件支持费用为12%。

微软SQL Server

2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。微软在2012年推出了基于Azure云平台的测试版Hadoop服务,2013年它推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution)。

亚马逊—MapReduce

亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。实现面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配臵到多大容量。

Teradata

Teradata是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新,该公司购Aster Data—高级分析和管理各种非结构化数据领域的市场领导者和开拓者。Teradata日前宣布了一项Aster Data MapReduce产品的计划,它建立在以往产品同样的硬件平台之上,而且在Teradata和Aster Data之间新增了两种集成方法。 1.6.1 大数据处理流程

1、采集

定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作

特点和挑战:并发系数高

使用的产品:MySQL,Oracle,HBase,Redis和MongoDB等,并且这些产品的特点各不相同 2、统计分析

定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求

特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多

使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable,SAP Hana和Oracle Exadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析 3、挖掘

定义:基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求 特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大 使用的产品:R,Hadoop Mahout

1.7大数据的发展前景

2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”

大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正在改变着我们习以为常的商业模式,一场关系到企业生死存亡的技术革命已经到来。

借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。

随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机或智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到2013两年间翻了一番,达到惊人的2.8ZB。IDC预计,到2020年,数字宇宙规模将超出预期,达到40ZB。

40ZB究竟是个什么样的概念呢?地球上所有海滩上的沙粒加在一起估计有七万零五亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的处女地。

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库大数据技术及其应用(2)在线全文阅读。

大数据技术及其应用(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/1091126.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: