1大数据综述.docx

上传人:lao****ou 文档编号:396940 上传时间:2023-10-22 格式:DOCX 页数:3 大小:18.69KB
下载 相关 举报
1大数据综述.docx_第1页
第1页 / 共3页
1大数据综述.docx_第2页
第2页 / 共3页
1大数据综述.docx_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《1大数据综述.docx》由会员分享,可在线阅读,更多相关《1大数据综述.docx(3页珍藏版)》请在第一文库网上搜索。

1、大数据综述作者:叶磊来源:商情2014年第46期【摘要1:大数据的出现和发展只有短短十几年的时间,可是却从社会生活、商业、科技等各个方面给人们的生活带来了巨大的影响,大数据的特征是数据量、时效性、多样性和数据准确性或数据的价值密度低。大数据主要的大数据处理模式有流处理和批处理两种。关键词:大数据特征处理模式流处理批处理大数据(Bigdata或Megada1a),或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(dataset)相比,将各个小型数据集合并后

2、进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。1大数据的概念现代社会是一个信息化、数字化的社会,互联网、物联网和云计算技术的飞速发展,使得数据充斥着整个世界,从而让数据成为一种新的资源,亟待人们对其加以合理、高效、充分的利用。数据的数量以指数形式递增,数据的结构也越来越复杂,使得“大数据”具有和普通“数据”的不同的深层内涵。在天文学、高能物理、生物学、计算机仿真、互联网应用、电子商务等领域,数据量呈现快速增长的趋势。美国互联网数据中心(IDC)指出,互联网上的数据每年增长50%以上,每

3、两年翻一番,世界上90%以上的数据是最近几年才产生的。数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气质量变化等信息,也产生了海量的数据C著名数据库专家、事务处理的作者、图灵奖获得者JimGray博士总结出,在人类的科学研究史上,先后经历了实验(EmPiriCa1)、理论(TheoretiCa1)和计算(ComPUtationa1)三种范式,而在数据量不断增加和数据结构越来越复杂的今天,这三种范式已经无法满足新领域的科学研究需要,所以JimGray博士提出了科学的“第四种范式(TheFOUthPara

4、digm)这一新型的数据研究方式,即“数据探索”(DataExporation),用以指导和更新不同领域的科学研究。数据量的大小不是判断大数据的唯一指标。大数据的特征可以用4V概括:分别是数据量(Vo1ume)x时效性(Ve1ocity)x多样性(Variety)和数据准确性(Veracity),也有人把第四个V定义为数据的价值(Va1ue)密度低。和传统意义上的数据相比,大数据的数据类型复杂,其中包括了大量的非结构化或半结构化数据,如网络日志、图片、音频、视频、地理位置信息等。大数据的价值密度低。例如:在大量的视频监控数据中,真正有价值的信息可能只有几帧,大量的视频数据是无价值数据。大数据的

5、增长速度极快,尤其是电子商务实时交互数据、传感器实时采集数据等会时刻不停的产生。大数据要求处理速度快,大量的实时数据需要快速处理。大数据的获取渠道多样,物联网、互联网、无线移动网、手机等移动终端以及各种传感器(如RF1D)是大数据的重要来源。2大数据的处理模式主要的大数据处理模式有流处理(StreamProCeSSing)和批处理(batchprocessing)两种。流处理是直接处理,而批处理则是先存储后处理。2.1 流处理流处理的基本思想是数据的价值会随着时间的流逝而不断减少,因此所有流数据处理模式的共同目标就是尽可能快地对最新的数据作出分析并给出结果。在大数据应用场景中,采用流数据处理的

6、主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。流处理的处理模式是将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。数据的实时处理非常具有挑战性,数据流本身具有持续到达、快速、大规模等特点,因而一般不会永久化存储数据,另外,数据环境不断的变化,系统很难准确掌握数据全貌。由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式较多的依赖在内存中设计的概要数据结构(synopsisdatastructure),内存容量的限制是流处理模型的主要瓶颈之一。以相变存储器(PCM)为代表的储存级内存(storagec1assmemory,SCM)设备的出

7、现或许可以使内存不再制约流处理模型。数据流的理论及其技术的研究已经有十几年的历史,现在还是研究热点。期间人们开发了很多实际的系统,得到了广泛的应用。在这些系统中,比较代表性的开源系统有TWiUer的StormxYahoo的S4和1inkedin的Kafka等。2.2 批处理最典型的批处理模型是Goog1e公司在2004年提出的M叩RedUCe。完整的M叩RedUCe工作流程如图1所示:MaPRedUCC模型工作流程如下:将用户的原始数据源分块之后分别交给不同的MaP任务区处理。MaP任务从输入中解析出键/值(KeyZVa1ue)对集合,然后对这些集合执行用户自行定义的MaP函数获得中间结果并将

8、结果写入本地磁盘。RedUCe任务从磁盘上读取数据之后,根据key值进行排序,将具有相同Key值的组织在一起。用户自定义的Reduce函数会对这些排好序的结果进行处理并输出最终结果大数据的出现和发展只有短短十几年的时间,可是却从社会生活、商业、科技等各个方面给人们的生活带来了巨大的影响,本文概括性的介绍了大数据的主要特征和处理模型。参考文献:1White,Tom.ORei11yMedia.2012-05-10:3.2Vance1Ash1ey.NewYorkTimesB1og.2010-04-22.3于艳华,宋美娜.大数据J中兴通讯技术,2013(J):57-60.4吴吉义,傅建庆,张明西,等.云数据管理研究综述J电信科学,2010(5):34-41.5张意轩,于洋.大数据时代的大媒体EBO1.人民日报,2013-01-17.6tonyH,StewardtiKR1STINT著.潘教峰译.第四范式:数据密集型科学发现m1北京:科学出版社,2012.15-19.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服