《第9章 大数据处理习题答案.docx》由会员分享,可在线阅读,更多相关《第9章 大数据处理习题答案.docx(12页珍藏版)》请在第一文库网上搜索。
1、第9章大数据处理习题9.1选择题1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是(B)A.数据清洗B.数据集成C.数据归约D.数据转换2、以下(B)不是数据归约策略。A.属性子集的选择B.属性构造3、数据转换包括以下的(A)策略。A.合计处理B.平滑处理C.实例规约C.规格化处理D.属性值的规约D.以上全是4、目前机器学习的首要步骤一般是(C)。A.模型训练B.交叉验证C.特征提取D.数据可视化5、下面哪一项不是监督学习算法(B)0A.K最近邻算法B.DBSCAN算法C.决策树算法D.逻辑回归算法6、下列属于数据处理任务的是(D)。A.分类B,
2、聚类C.关联分析D.以上全是7、支持向量机SVM常常用来进行(C)oA.处理数据B.聚类C.分类D.关联分析8、以下(A)在神经网络中引入了非线性。A.修正线性单元(Re1U)B.随机梯度下降C.卷积函数D.以上都不是9、神经网络中过拟合问题的处理方法包括以下的(A)。A.正则化B.随机失活C.池化函数D.A和B10、集成学习方法不包括以下的(C)A.BoostingB.StackingC.DropoutD.BaggingII、批归一化层的目的是(C)oA.它将权重的归一化平均值和标准差B.减少神经元的输出C.让每一层的输入的范围都大致固定D.使得反向传播(BP)有效12、下面(B)不是数据清
3、洗方法。A.缺失值处理B.泛化处理C.离群点检测D.冗余数据处理13、聚类过程的要求包括(D)。A.可扩展性B.可进行基于约束的聚类C.对输入数据不敏感D.以上全是14、对分布式处理架构的描述不正确的是(D)。A.多个节点并行工作B.数据处理效率高C.每个节点负责一部分任务D.存在唯一的中心节点15、对激活函数SigmOid的描述不正确的是(D)0A.可用于二分类问题B.容易造成梯度消失C.可以减少网络计算量D.是一条非线性曲线9.2填空题1、APriori算法的核心步骤是(连接步)和(剪枝步)。2、机器学习的特征选择方法包括(过滤器方法)、(包装器方法)和(嵌入式方法)等。3、目前大数据处理
4、架构一般分为(集中式处理架构)和(分布式处理架构)两种。4、人工神经网络中,当数量众多的神经元全部连接起来后,可呈现网络状,如果各个神经元之间无环,则被称为(多层前馈)神经网络。5、神经网络中的池化方法包括(最大池化)和(平均池化)09.3简答题1、请简述数据预处理的目的及典型的几种类型。答:数据预处理目的是为数据挖掘模块提供准确、有效、具有针对性的数据,提高数据挖掘与知识发现的效率。数据预处理方法包括:数据清洗,删除重复数据、纠正数据中存在的错误,并使数据保持一致性;数据集成,将存储在不同存储介质中的数据合并到一致的存储介质中;数据转换,将数据从一种表示形式转换为另一种表现形式;数据归约,在
5、尽可能保持数据原貌的前提下,最大限度地精简数据量。2、分别简述数据挖掘算法中的监督学习和无监督学习的含义,并列举各自包含的几种典型方法。答:监督学习:通过己有的训练样本训练得到一个最优模型,通过模型对未知数据进行分类。主要包括K最近邻算法、决策树、线性回归、逻辑回归等方法。无监督学习:没有任何训练样本,直接对数据进行建模。主要包括K-Means算法、DBSCAN算法、Apriori算法、FP-growth算法等。3、请描述卷积神经网络中卷积层和池化层的作用。答:卷积层:由数量不定的卷积核加上偏置项(BiaS)组成。本质上是个权值矩阵,矩阵中的值是稀疏的。它主要进行局部特征提取,通过卷积核与上一
6、层输出的特征完成点积和累加操作,得到特征矩阵,也称为特征图(FeatureMap)O卷积层的所有卷积核在进行特征提取的过程中,其参数值,也就是权值矩阵的值是固定且共享的。池化层:在构建一个完整的卷积神经网络时的作用仅次于卷积层,具有缩小特征图的作用,由于其不含参数,因此比卷积层中进行的采样更高效。4、简述机器学习中进行特征选择的原因和目标。答:特征选择指选择出适合模型算法的最优特征子集来提升模型的性能。机器学习中进行特征选择的原因是:当数据维度达到一定水平时,将所有特征放入算法中将会带来维度灾难。特征选择的目标是:1)提高模型的泛化能力,避免过拟合并,降低误差。2)减少特征数量,提高计算效率,
7、提供更快的、具有成本效益的模型。3)筛选出不相关特征,降低模型的学习难度,前提是对特征本身有更深入的了解。5、请简述分布式大数据处理架构及其优点,并列举出几个著名的分布式大数据开源平台。答:分布式处理架构是先将一组节点连接起来形成系统,然后将需要处理的大批量数据分布在多个节点上,由多个节点去执行,通过分布式并行处理提高处理效率,最后合并计算得出最终结果。优点主要有:1)可以平衡负载和共享资源。2)降低大数据处理的成本。3)支持大数据在更多场景下的应用。目前基于服务器集群的分布式大数据平台:HadoopSpark、Storm、SamZa、F1ink等。9.4解答题1、数据挖掘任务中分类一般分为几
8、个步骤?请描述每个步骤的作用,并列举用于分类的典型数据挖掘算法,并回答交叉验证的方式是如何评价分类模型的。答:1)分类一般分为3个步骤,分别是构建模型、测试模型和使用模型。构建模型主要是对每个样本进行类别标记,通过数据的训练集构成分类模型。测试模型主要是通过对比测试样本的识别类别与实际类别来评价模型正确性。使用模型主要是要利用模型来完成数据分类任务,输出最终的分类结果。用于分类的数据挖掘算法:K最近邻算法、决策树算法。2)以交叉验证的方式评价分类模型:数组分组,将原始数组分成训练集和验证集;模型训练,先用训练集对分类器进行训练,再利用验证集测试训练得到的模型作为评价分类器的性能指标。常见的交叉
9、验证方式有HOki-OUt验证、K折叠交叉验证、留一验证等。2、循环神经网络组成部分是什么?请画出按时间展开的前后结构图,并描述图中各个元素是如何进行运算的。答:1)循环神经网络主要由输入层、隐藏层和输出层组成。按时间展开的前后结构图2)由图可知,将循环神经网络的结构按照时间序列展开之前的X是输入层的值,S是隐藏层的值,0是当前节点的输出,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵。循环层的作用是在隐藏层之间运算,隐藏层S的值不仅取决于输入层X的值,还取决于隐藏层上一个节点的值,所以W就是隐藏层上一个节点的值输入当前隐藏层节点的权重矩阵。展开后,以循环神经网络在/时刻为例,当前
10、的输入是X”隐藏层输出的值是S”输出值是S的值不仅取决于输入值,还取决于t-时刻隐藏层输出的值。当前时刻输出值。由S的内容计算得出。第10章大数据应用习题10.1选择题1、目前典型的脑电信号的分类方式不包括(B)。A.按频率分类B.按信号长度分类C.按Gibbs分类D.按图形分类2、以下的(D)不属于心电信号的波段。A.P频段B.QT间期C.U频段D.SG频段3、盲源信号分离所使用技术一般不包括(C)。5、轨迹数据预处理中,为了避免误差距离太大,需要进行以(B)操作。A.停留点检测B.轨迹滤噪C.轨迹压缩D.地图匹配6、解决路径规划问题的算法中,(C)一般是求得问题的次优解或以一定的概率求其最
11、优解。A.滤波算法B.回归算法C.启发式算法D.精确算法7、自然语言处理中(A)用于判断一个词语序列是否构成一句话概率。A.语言模型B.词袋模型C.词频-逆向文档频率D.词嵌入8、典型智能问答系统包括(D)。A.基于结构化数据的智能问答系统B.基于自由文本的智能问答系统C.基于常见问题集的智能问答系统D.以上全是9、图像大数据处理系统中的(D)主要对图片中的目标进行定位,并输出具体类别。A.目标跟踪B.图像分割C.视频处理D.目标检测10、基于深度学习的目标检测方法中的(B)检测低速度快,但检测精度低。A.阶段分割法B.单阶段方法C.视频阶段处理D.双阶段方法11、短文本分类方法中的(B)不依
12、赖于特定场景,适应性较好。A.基于特征扩展的方法B.基于深度学习的方法C.朴素贝叶斯方法D.小波包变换方法12、轨迹大数据的挖掘主要包含四种不同类别,其中(A)依靠一种或多种因素的组合来进行轨迹大数据挖掘。A.伴随模式B.轨迹聚类C.序列模式D.周期模式13、为了克服独热编码缺陷,(C)通常将词语转化成为一个分布式表示的定长连续稠密向量。A.语言模型B.结构化数据C.词嵌入D.周期化数据14、轨迹大数据中的(C)方法将轨迹点坐标映射到真实世界路网上,获得轨迹对应路网信息。A.轨迹预测B.轨迹分割C.地图匹配D.轨迹压缩10.2 填空题1、小波包变换的关键步骤包括(信号分解)和(信号重构)02、
13、自然语言处理中的独热编码缺点是(不能区分多义词语)。3、Word2vec模型根据(输入/输出)的不同,可分为CBoW模型与SkiP-Gram模型。10.3 简答题1、请对比分析小波变换和小波包变换两种方法。答:小波变换是把时间序列分解成低频和高频信息。分解出的低频a中失去的信息由高频d捕获。在下一层分解中,又将a分解成低频a1和高频d1两部分,低频a1中失去的信息由高频d1捕获。依此类推,可以进行更深层的分解。相对于小波变换,小波包变换不仅对低频部分进行分解,还可以对高频部分进行更细致的分解。2、请列举路径规划常采用的几种典型启发式算法。答:蚁群算法:包含路径构建和信息素更新两步骤。遗传算法:
14、通过不断循环迭代来搜索组合问题的最优解,直到满足预设的终止条件才结束。模拟退火算法:先生成随机解,然后对随机解扰动,通过比较扰动解与当前解的目标函数值来决定是否将扰动解定义为新解。3、请对比分析基于深度学习的目标检测方法中两阶段目标检测算法和单阶段目标检测算法。答:双阶段目标检测算法先对图像提取候选框,然后基于候选区域做二次修正得到检测点结果,检测精度较高,但检测速度较慢。单阶段目标验测算法直接对图像进行计算生成检测结果,检测低速度快,但检测精度低。4、问题分类流程中,文本预处理一般主要完成哪些工作?答: 将英文缩写替换,将意思等价的缩写统一成为完整格式。 使用正则化方式去除文本中无用的各类符
15、号,按照空格进行分词,使用拼写检查工具处理文本,减少拼写错误导致的噪声。 删除对分类没什么影响的停用词,如a,,s等。 在深度学习模块,需要使用词嵌入对文本进行初始化10.4 解答题1、出租车是城市交通的重要组成部分。请回答以下问题: 请描述出租车寻找最佳客源的路径规划流程,并简单介绍每个步骤。 画出求解最优路径时所用到的模拟退火算法流程图。答:D出租车寻找最佳客源的路径规划流程:数据清洗f上/下客点提取f数据时空分析f热门区域挖掘T最佳客源挖掘f最优路径规划。数据清洗:剔除噪声数据,缺失数值和错误数值。上/下客点提取:出租车的载客状态从1变到0,是一个下客点;出租车的载客状态从0变到1,是一个上客点。数据时空分析:研究一周内包括早高峰、晚高峰、工作日、非工作日等不同时段上/下客点的数据变化,及每个时间段的数据的空间分布。热门区域挖掘:对于每个时段的每个