《大数据校内测评和总决赛理论部分模拟题_0412.docx》由会员分享,可在线阅读,更多相关《大数据校内测评和总决赛理论部分模拟题_0412.docx(15页珍藏版)》请在第一文库网上搜索。
1、大数据分析与应用技术能力Big-dataAna1ysisandApp1ications(BAA)考试的基本规范1eve1等级考试题目考试时间I满分及格分数Essentia1核心级80601000700Fundamenta1s50401000700每次考试取题量1eve1等级单选题多选题判断题合计Essentia1核心级30203080Fundamenta1s20102050Essentia1判断题O1HiVe在导入数据的时候,被导入数据是以该分割符划分的,否则导入后为nu11,缺省都列为nu11。O2分区表指的是在创建表时,指定的ParHtiOn的分区空间。O3托管表(managedtab1e
2、又称管理表或内部表)会将数据移入Hive的WarehOIse(仓库)目录;外部表(externa1tab1e)则不会。O4在删除表的元数据时,如果是托管表(managedtab1e)还会删除表的数据。5在数据库的F路径这个属性中设置:hive.metastore.warehouse.dir,其中默认的属性值是/user/hive/。O6externa1类型的表(tab1e),表对应的是文件夹,对于文件的位置不做任何限制,放到任何hdfs上到底位置都可以。O7在HadOoP中,作drop内部表(interna1)时,会删除hdfs上的文件夹和元数据。O8如果设置环境变量$PATH=$HIVE_H
3、OMEbin,即可直接使用HiVe的命令。O9必须在创建表的时候就指定了分区列才可以增加分区,后期不能增加分区列,只能增加分区字段的值。O10Sqe)OP可以在HDFS/HiVe和关系型数据库(re1ationa1database)之间,进行数据的导入导出,其中主要使用了import和export这两个工具。X11export工具,是将HDFS平台外部的结构化存储系统中的数据导入到HadooP平台,便于后续数据运算与分析。O12Hadoop,使用-append参数是将数据追加到HDFS上,一个已存在的数据集上。X13执行了importmath之后,即可执行语句PrimSin(Pi/2)。O14
4、Python可以不加声明就使用变量。X15可用OPen(fi1e1“,r)方式打开文件并进行修改。O16PythOr1是一种面向对象(object)的计算机程序设计语言。O17当我们想要跳过循环的当前迭代而不终止它时,R编程语言中的next语句是有用的。X18R语言中数组合矩阵是没有区别的。O19关于逻辑回归处理测量二元响应变量的概率,在R语言中,函数gm()可用于创建逻辑回归。O20R编程语言中的“next”语句是跳过循环的当前迭代而不终止。X21HadOOP支持数据的随机写。22S1aVe节点要存储数据,所以它的磁盘越大越好。X23因为HDFS有多个副本,所以NameNOde是不存在单点问
5、题的。X24Hadoop1.0和2.0都具备完善的HDFSHA(HighAVaiIabiIity)策略。X25HDFS的BIoCkSiZe是不可以修改的。26DataNOde通过长连接与NarT1eNode保持通信。O27HDFS系统并不支持数据的修改。O28Gang1ia不仅可以进行监控,也可以进行告警。X29NagioS不可以监控Hade)OP集群,因为它不提供HadOe)P支持。O30在HadoOP平台的机架感知(rackawareness)中,如果其中一个机架出问题,不会影响数据读写。O31HardoOP的MaPRed1ICe运算框架主要有map和reduce两个命令。O32在Hado
6、oP平台中,SParkRDD使数据处理人员不需去烦恼作大数据分析时,HadooP平台底层分散的处理数据及如何完成任务的细节。X33在HDFS中,hdfsdfs-rm命令可以把目录或文槽,从本地移到HDFS或是从HDFS移到本地。O341eVeIDB中使用了1SM树存储引擎。O35HbaSe采用是Key-Va1Ue形式的数据库,模拟于JaVa中的MaP形式。X36HBaSe中的数据都是字节,且有各种类型。单选题A1解压.tar.gz结尾的HBaSe压缩包使用的1inUX命令是tar-zvftar-zxtar-star-nfD2数据清洗的方法不包括缺失值处理噪声数据清除一致性检查重复数据记录处理D
7、3反映数据的精细化程度,越细化的数据,价值越高是指规模活性关联度颗粒度B4下列关于聚类挖掘(如K-mean)技术的说法中,错误的是不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别要求同类数据的内容相似度尽可能小要求不同类数据的内容相似度尽可能小与分类挖掘技术相似的是,都是要对数据进行分类处理C5下列通常是集群最主要的瓶颈是CPU网络磁盘I/O内存RAMC6可以对大数据进行深度分析的平台工具是传统的机器学习和数据分析肛具第二代机器学习工具第三代机器学习工具未来机器学习工具A7支撑大数据业务的基础是数据科学数据应用数据硬件数据平台C8按照涉及自变量的多少,可以将回归分析分为线性回归
8、分析非线性回归分析一元回归分析综合回归分析C9数据仓库是随着时间变化的,下面的描述不正确的是数据仓库随时间的变化不断增加新的数据内容捕捉到的新数据会覆盖原来的快照数据仓库随事件变化不断删去旧的数据内容数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合C10下面关于数据粒度(datagranuIaiity)的描述不正确的是粒度是指数据仓库小数据单元的详细程度和级别数据越详细,粒度就越小,级别也就越高数据综合度越高,粒度也就越大,级别也就越高粒度的具体划分将直接影响数据仓库中的数据量以及查询质量A11有关数据仓库的开发特点,不正确的描述是数据仓库开发要从数据出发数据仓库使
9、用的需求在开发出去前,就要明确数据仓库的开发是一个不断循环的过程,是启发式的开发。在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式。A12以下各项均是针对数据仓库的不同说法,你认为不正确的有数据仓库就是数据库数据仓库是一切商业智能系统的基础数据仓库是面向业务的,支持联机事务处理(O1TP)数据仓库支持决策而非事务处理D13Kafka中partiton设计的目的不包括通过分区,将日志内容分散到多个SerVer上,避免达到磁盘上限。提高生产与消费的效率越多Pamtion可以容纳更多消费者,提高与开发新的消费效率。提高生成与消费的数量C
10、14HFi1e数据格式的KeyVa1Ue其中的Va1Ue部分是拥有复杂结构的字符串字符串二进制数据压缩数据D15HFiIe数据格式中的MetaIndeX字段用于Meta块的长度Meta块的结束点Meta块数据内容Meta块的起始点B161SM更能保证的操作性能是读写随机读合并A17HBaSe存储底层数据依靠的是HDFSHadoopMemoryMapReduceD18在大数据的实践中,如下所示:exportSPARK_W0RKER_C0RES=2exportSPARK_WORKERJNSTANCES=1exportSPARK_W0RKEF1MEMc)RY=IO24M这几个参数的含义不正确的是”S
11、PARK_WORKER_CORES=2指分配给worker的CPUcores数量SPARK_WORKER_INSTANCES=I指worker的实例数SPARK_WORKEF1MEMORY=Io24M指分配给worker的内存大小SPARK_WORKER_MEMORY=Io24M指的是分配给driver的内存大小。A19在大数据的实践中,如下所示:print1n(Inputhad+sparkRdd.count()+concerningIineS如何改写成打印时,包含SPark字段的行并打印函数?sparkRdd.foreach(rdd=print1n(rdd+rdd.1ength()print
12、1n(rdd+”+rdd.1ength()rdd+,m+rdd.IengthQ没有方法打印A20sc.textFi1e()读取的是文本格式的文件,如果要读取json格式的文件,该如何操作?假如json文件为PeoPIeJson;,va1SqIContext=newSQ1Context(Sc)sq1Context.jsoFi1e(peop1e.json)sc.jsonFi1e(peop1e.json)sc.textFi1e(peop1e.json)没有方法读取C21hive-0.20.0/COnf目录下的hive-defau1t.xm1.temp1ate文件,如果修改其中内容是否有效?有效视情况
13、而定没有没有方法读取,但是可以修改成写入OC22如果在环境变量中配置了hive,进入hiveshe11的命令是hive.Zhive在任意目录下执行:hiveshe11必须在指定目录下执行:hiveshe11命令C23在hive中,实现修改表结构字段的关键字是modifya1erta1terupdateA24执行mapreducejar包的命令是hadoopjarjavajarjava-jarhdfsdfsjarA25在ConfigUre-SqOOP里面的配置内容,要作注释掉的原则是根据自己安装的组件,注释掉自己没有安装的组件。所有的组件都在最后注释掉只注释掉特殊的几个都不对C26查看SSh服务
14、状态的命令是servicesshdrestartservicesshdstartservicesshdstatusservicesshstatusA27在试验中的代码-target-diruser1oca1hadoopresu1t的含义是文件存放路径hdfs系统文件路径mysq1数据的路径都不对A28在试验中的代码-update-keyid的含义是export导出数据时,sqoop表格数据按照id编号进行更新。export导出数据时,只更新id,不更新其他内容export导出数据时,是为了不在mysq1新建tab1e(表格)以上都不正确D29关于各节点和说法错误的是建立顺序节点(SeqUentia1)以后会生成带数字的节点名临时节点(ephemera1)在客户端会话结束后,就会自动删除所谓持久节点(PerSiStem),是指在节点创建后,就一直存在,直到有删除操作来主动清除这个节点顺序节点(SeqUemiaI)不会自动在节点后面添加数字多选题答案编号题目内容选项A选项B选项C选项DAD1有那几种是PythOr1中的注释符#./*.7ABCD2Python中列表切片操作非常方便,若I=range(100)以下哪种形式是正确的?1-31-2:131:312-3ABCD3