第16章 分布式内存计算平台Spark习题答案.docx

上传人:lao****ou 文档编号:455707 上传时间:2023-11-24 格式:DOCX 页数:18 大小:85.65KB
下载 相关 举报
第16章 分布式内存计算平台Spark习题答案.docx_第1页
第1页 / 共18页
第16章 分布式内存计算平台Spark习题答案.docx_第2页
第2页 / 共18页
第16章 分布式内存计算平台Spark习题答案.docx_第3页
第3页 / 共18页
第16章 分布式内存计算平台Spark习题答案.docx_第4页
第4页 / 共18页
第16章 分布式内存计算平台Spark习题答案.docx_第5页
第5页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第16章 分布式内存计算平台Spark习题答案.docx》由会员分享,可在线阅读,更多相关《第16章 分布式内存计算平台Spark习题答案.docx(18页珍藏版)》请在第一文库网上搜索。

1、第16章分布式内存计算平台Spark习题16.1 选择题1、SPark是HadooP生态(B)组件的替代方案。A.HadoopB.MapReduceC.YamD.HDFS2、以下(D)不是SPark的主要组件。A.DriverB.SparkContextC.CIusterManagerD.ResourceManager3、SPark中的EXeCUtor是(AA.执行器B.主节点C.从节点D.上下文4、下面(D)不是SPark的四大组件之一。A.SparkStreamingB.SparkM11ibC.SparkGraphXD.SparkR5、SCa1a属于哪种编程语言(C)OA.汇编语言B.机器

2、语言C.函数式编程语言D.多范式编程语言6、SPark组件中,SParkCOnIeXI是应用的(C),控制应用的生命周期。A.主节点B.从节点C.上下文D.执行器7、以下(D)不是SPark的主要组件。A.DAGSchedu1erB.TaskSchedu1erC.SparkContextD.Mu1tiSchedu1er8、SPark组件中,C1USIerManager是(B)。A.从节点B.主节点C.执行器D.上下文9、关于SPark中的RDD说法不正确的是(B)。A.是弹性分布式数据集B.是可读可写分区的集合C.存在容错机制D.是SPark中最基本的数据抽象10、GraPhX的BSP计算模型

3、中,一个超步中的内容不包括(C)。A.计算B.消息传递C.缓存D.整体同步点16.2填空题1、内存计算主要用于处理(数据密集型)的计算任务,尤其是数据量极大且需要实时分析处理的应用。2、Ignite是一个可扩展的、(容错性好的)分布式内存计算平台。3、RDD通过一种名为(血统)的容错机制进行错误的时的数据恢复。4、数据分析栈BDAS包括(SparkSQ1)、(SparkStreaming)、(SparkGraphX)、(M11ib)四个部分。5、SparkStreaming是建立在SPark上的(实时计算)框架,提供了丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理进行交互式查询

4、应用16.3简答题1、在硬件、软件、应用与体系等方面,内存计算有哪些主要特性?答: 在硬件方面,需要大容量的内存,以便尽量将待处理的数据全部存放在内存中,内存可以是单机内存或分布式内存,且内存要足够大。 在软件方面,需要有良好的编程模型和编程接口。 在应用方面,主要面向数据密集型应用,数据规模大、对实时处理性能要求高。 在体系方面,需要支持并行处理数据。2、请与M叩RedUCe相比,SPark的优势有哪些?答: 中间结果可输出。基于M叩RedUCe的计算模型会将中间结果序列化到磁盘上,而SPark将执行模型抽象为通用的有向无环图,可以将中间结果缓存在内存中。 数据格式和内存布局。SPark抽象

5、出分布式内存存储结构RDD,用于进行数据存储。SPark能够控制数据在不同节点上的分区,用户可以自定义分区策略。 执行策略。M叩RedUCe在数据Shuff1e之前总是花费大量时间来排序,Spark支持基于Hash的分布式聚合,Spark默认Shuff1e已经改为基于排序的方式。 任务调度的开销。当M叩RedUCe上不同的作业在同一个节点运行时,会各自启动一个JaVa虚拟机(JaVaVirtUaIMaChine,JVM);SPark同一节点的所有任务都可以在一个JVM上运行。 编程模型。M叩RedUCe仅仅提供了Map和RedUCe两个计算原语,需要将数据处理操作转化为M叩和RedUCe操作,

6、在一定程度增加了编程难度;SPark则提供了丰富的输出处理算子,实现了分布式大数据处理的高层次抽象。 统一数据处理。Spark框架为批处理(SParkCore)、交互式(SParkSQ1)流式(SParkStreaming)机器学习(M1Jib)、图计算(GraPhX)等计算任务提供一个统一的数据处理平台,各组件间可以共享数据。3、请描述Prege1计算模型的缺点或局限。答: 在图的划分上,采用的是简单的HaSh方式,这样固然能够满足负载均衡,但HaSh方式并不能根据图的连通特性进行划分,导致超步之间的消息传递开销影响性能。 简单的Checkpoint机制只能将状态恢复到当前超步的几个超步之前

7、,要到当前超步还需要重复计算。BSP计算模型本身有其局限性,整体同步并行对于计算速度快的WOrker,长期等待的问题无法解决。 由于Prege1目前的计算状态都是常驻内存的,对于规模继续增大的图处理可能会导致内存不足。4、请简要描述函数式编程中尾递归的含义。答:尾递归是递归的一种优化方法。递归的空间效率很低,当递归深度很深时,容易产生栈溢出的情况。尾递归就是将递归语句写在函数的最底部,这样在每次调用尾递归时,就不需要保存当前状态值,可以直接把当前的状态值传递给下次一次调用,然后清空当前的状态。占用的栈空间就是常量值,不会出现栈溢出的情况。16.4解答题1、根据用户手机上网的行为记录,基于SPa

8、rk设计程序来分别统计不同设备的用户使用的上行总流量以及下行总流量。其中,数据记录的字段描述如下。序号字段字段类型描述0reportTime1ong记录报告时间戳1device1dString手机号码2UpPackNum1ong上行数据包数,单位:个3downPackNum1ong下行数据包总数,单位:个数据文件的具体内容(一部分)如下:145430739116177e3c9e1811d4fb291dd9bbd456bb4b79976114961454315971161f92ecf8e076d44b89f2d070fbIdf7197952918909214543043311613de7d651

9、4f1d4ac790c630fa63d8d0be57029502281454303131161dd382d2a20464a74bbb7414e429ae45220428934671454319991161bb2956150d6741df875fbcca76ae9e7c5199457706答:Step1:将SparkConf封装在一个类中。importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;pub1icc1assCommSparkContextpub1icstaticJavaSpark

10、Contextgetsc()SparkConfSparkConf=newSparkConf().setAppName(CommSparkContext).setMaster(1oca,);returnnewJaVaSParkConteXt(SParkConf);)Step2:自定义数据类型1OgInfOimportjava.io.Seria1izab1e;pub1icc1ass1ogInfoimp1ementsSeria1izab1eprivate1ongtimeStamp;private1ongupTraffic;private1ongdownTraffic;pub1ic1onggetTim

11、eStamp()returntimeStamp;)pub1icvoidsetTimeStame(1ongtimeStame)this.timeStamp=timeStame;)pub1ic1onggetUpTraffic()(returnupTraffic;)pub1icvoidsetUpTraffic(1ongupTraffic)this.upTrafTic=upTraffic;)pub1ic1onggetDownTraffic()returndownTraffic;)pub1icvoidsetDownTraffic(1ongdownTrafTic)this.downTraffic=down

12、Traffic;)pub1ic1og1nfo()(pub1ic1og1nf(1ongtimeStame,1ongupTraffic,1ongdownTraffic)this.timeStamp=timeStame;this.upTraffic=upTraffic;this.downTraffic=downTraffic;)1Ste3:自定义key排序类1ogSortimportsca1a.Seria1izab1e;importsca1a.math.Ordered;pub1icc1ass1ogSortextends1ogInfbimp1ementsOrdered,Seria1izab1epriv

13、ate1ongtimeStamp;private1ongupTraffic;private1ongdownTraffic;Overridepub1ic1onggetTimeStamp()returntimeStamp;)pub1icvoidsetTimeStanp(1ongtimeStamp)this.timeStamp=timeStamp;)Overridepub1ic1onggetUpTraffic()(returnupTraffic;)Overridepub1icvoidsetUpTraffic(1ongupTraffic)this.upTraffic=upTraffic;)Overri

14、depub1ic1onggetDownTraffic()returndownTraffic;)Overridepub1icvoidsetDownTraffic(1ongdownTraffic)this.downTraffic=downTraffic;)pub1ic1ogSort()pub1ic1ogSort(1ongtimeStamp,1ongupTraffic,1ongdownTraffic)this.timeStamp=timeStamp;this.upTraffic=upTraffic;this.downTraffic=downTraffic;pub1icintcompare(1ogSortthat)intcomp=1ong.va1ueOf(this.getUpTraffic().compareTo(that.getUpTraffic();if(comp=0)(comp=1ong.va1ueOf(this.getDownTraffic().compareTo(that.getDownTraffic();)if(comp=0)(comp=1ong.va1ueOf(this.getTimeStamp().compareTo(that.getTimeStamp();)returncomp;pub1icboo1ean$1ess(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服