第8章 大数据采集习题答案.docx

上传人:lao****ou 文档编号:455739 上传时间:2023-11-24 格式:DOCX 页数:8 大小:107.87KB
下载 相关 举报
第8章 大数据采集习题答案.docx_第1页
第1页 / 共8页
第8章 大数据采集习题答案.docx_第2页
第2页 / 共8页
第8章 大数据采集习题答案.docx_第3页
第3页 / 共8页
第8章 大数据采集习题答案.docx_第4页
第4页 / 共8页
第8章 大数据采集习题答案.docx_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第8章 大数据采集习题答案.docx》由会员分享,可在线阅读,更多相关《第8章 大数据采集习题答案.docx(8页珍藏版)》请在第一文库网上搜索。

1、第8章大数据采集习题8.1选择题1、数据采集的数据对象类型包括(D)。A.结构化数据B,半结构化数据C.非结构化数据D.以上都是2、数据采集的主要性能要求不包括以下的(A.全面性B.安全性B)cC.多维性D.高效性3、A.数据源广泛B.安全性C.速度有限D.数据类型丰富大数据采集相对于传统数据采集的优势不包括(C)。4、5、6、7、8、9、数据源数据量数据类型A.B.下面不属于Scrapy的组件的是(AA.传感器B.引擎下面选项属于典型的网络数据采集工具的是A.ScrapyB.F1uentd目前传感器的主要组件不包括(DA.敏感元件B.转换元件下面不属于典型日志系统的是(DA.F1uentdB

2、.1ogstashNutch的主要特点不包括(C)O数据产生速度C.C.下载器(A)oC.1ogstashC.信号调理转换电路C.Scribe数据存储D.D.SpiderD.F1umeD.二极管D.NutchA.伸缩性强B.可靠性高C.安全性强D.速度快10、定向数据采集特别重视(A)。A.页面与主题的相关度B.链接的安全性C.系统的运行时间D.数据量的大小8.2填空题1、数据采集的对象类型包括结构化数据、半结构化数据、(非结构化数据)。2、数据采集三个基本的性能要求:全面性、(多维性)、高效性。3、传感器一般由敏感元件、(转换原件)、信号调理转换电路组成,有时还需外加大数据采集和传统数据采集

3、的区别可以从下面的(B)看出。辅助电源来提供转换能量。4、分布式采集系统的主要特点包括(伸缩性强)、可靠性高、速度快。5、分布式数据采集系统常常采用(主从式)和对等式这两种架构。8.3简答题1、请简述网络爬虫的基本原理。答:网络爬虫又称为网络蜘蛛、网络机器人,是一种按照一定的规则自动地抓取Web数据的程序或者脚本。网络爬虫会从一个或若干初始页面的统一资源定位器开始,获得初始页面上的数据,并且在抓取页面数据的过程中,不断从当前页面中抽取新的UR1并放入UR1队列,直到满足设置的停止条件为止。2、请简述系统日志的概念及作用。答:系统日志用于在时间上连续地记录由系统指定的对象的动作及动作结果。系统日

4、志可以记录系统进程和设备驱动程序的活动,包括系统服务的开启、关闭、暂停等状态,以及设备驱动程序启动、自检、故障等情况。操作系统、数据库、网络系统等平台每天都会产生大量的系统日志,收集、存储、处理和管理这些系统日志需要特定的日志系统。3、请描述分布式数据采集系统的两种典型架构。答: 对于主从式架构而言,由一台专门的主服务器来维护待抓取的UR1队列,该服务器负责将UR1分发到不同的工作服务器,而工作服务器则负责页面下载的工作。主服务器除了维护待抓取的UR1队列以及分发UR1,还要负责调节各个工作服务器的负载情况。基于主从式架构的分布式数据采集系统的优点是结构简单,容易管理和配置;其缺点是主服务器容

5、易成为系统性能的瓶颈,特别是当工作服务器数量过于庞大时。 基于对等式架构的分布式数据采集系统没有主服务器,所有的抓取服务器在分工上没有区别,分别负责不同部分的网络数据的抓取。每一台抓取服务器都可以从待抓取的UR1队列中利用Hash等方式获取需要负责抓取的部分UR1,然后并行抓取。8.4解答题1、在大数据时代,数据采集的工具多种多样。网络爬虫是一种按照一定的规则自动地抓取Web数据的程序或者脚本。请描述网络爬虫的工作流程。答: 选取一部分种子UR1o 将这些UR1放入待抓取UR1队列。 从待抓取UR1队列取出待抓取UR1,通过域名解析,得到主机的IP地址,将UR1对应的页面下载下来,并存储到已下

6、载的页面库中。 将这些UR1放入已抓取UR1队列。 分析已抓取UR1队列中的UR1,分析其中的其他UR1,并且将这些UR1放入待抓取UR1队列,进入下一轮循环。2、F1Uentd是APaChe2.0协议许可的开源日志数据收集器,支持用户实时地从数千台机器收集数据,主要特色包括哪些?答: 使用JSON格式统一日志记录。F1uentd将数据结构化为JSON格式,不仅可以更容易地统一处理日志数据的收集、过滤、缓冲和输出,还可以保留灵活的模式。 可插拔架构。F1uentd拥有灵活的插件系统,用户可以通过插件更好地使用日志。可插拔架构,F1uentd的众多插件使其可以兼容数十种数据源和数据输出,插件也很

7、容易编写和部署。 节省资源开销。F1uentd是采用C语言和RUby语言编写的,需要较少系统资源,实例可以运行在数十MB的内存上,每个引擎每秒可以处理数以万计的事件。 基于内存和文件的缓存。Fk1entd支持基于内存和文件的缓存,可防止数据丢失。 数据源与后端系统分离。F1uentd通过在数据源与后端系统之间提供统一的日志层来将二者分离。日志层允许开发人员和数据分析师使用多种类型的日志,可以更好地利用日志数据。3、基于HadOOP平台的NUtCh能够实现分布式数据的采集。请具体描述NUteh的运行流程。答:NUtCh的工作主要可以分为两个环节:首先采集相关的页面,然后将采集的页面数据存放在本地

8、,并建立索引。 建立初始种子链接的UR1集合,将UR1集合存放在文本,然后上传至HDFS。 执行InjeCt的操作,将种子UR1集合注入UR1队列。 执行Generate的操作,通过UR1队列生成采集所需的链接列表。 执行Fetch的操作,根据链接列表的种子链接采集相关的页面内容。 执行Parse的操作,解析采集到的页面数据,然后生成parsedata和parsetex两个文件目录,分别存放页面文本内容和页面中的超链接等信息。 执行UPdate的操作,将抽取的新链接更新到始种子链接队列。 循环执行步骤3到步骤6,当满足设定的条件时,结束数据采集工作。4、请分析何谓通用数据采集,何谓定向数据采集

9、;请描述定向数据采集算法的典型步骤。答:通用数据采集的对象是从特定的种子链接开始的,采用广度搜索的方式,其目标是采集互联网上的全部页面。与通用数据采集相对的是以聚焦网络爬虫为核心的定向数据采集。定向数据采集服务于特定的专业群体,采集的数据只局限于某个主题或者与其相关的领域。定向数据采集算法的步骤包括:将初始的种子UR1全部放入链接队列,根据初始的种子UR1进行页面数据的采集,提取锚文本的内容、页面的标题及正文。 对正文进行分词的操作,计算关键字的权重和文本的相关度。 利用文本聚类算法将相关度高文本聚集在一起。 根据聚类好的文本,利用朴素贝叶斯算法计算待抓取的页面属于该主题的概率。 通过归类完成

10、的与主题相关的页面生成页面主题评价器,假设所采集页面的数量小于预先设定的最大页面数量,则循环执行以下步骤。 从链接集合中选出得分最高的链接,采集该链接对应页面的数据,抽取对应页面中的链接并插入链接队列。 计算页面的主题相关度,若大于阈值,则保存所对应的页面,否则进行交叉和变异操作。及时调整当前页面得分,重新计算从当前页面抽取的链接对应页面的得分。 根据最新的页面得分重排链接队列中的所有链接,把与主题相关的页面放入训练集合中,获取最新的页面主题评价器。 比较计算出的相关度与阈值,大于阈值的链接则重新返回步骤1;小于阈值的链接则直接舍弃。 按照上述的步骤,对页面进行定向数据采集,直到采集的页面数量

11、大于或等于预先设定的最大页面数量为止。大数据安全分析05_数据采集技术大数据分析中的数据采集方式包括1ogstash.F1ume.F1uentd.1ogtai1等,本文对这几种数据采集技术进行简要介绍。1ogstash1ogstash是一个具备实时处理能力的开源的数据收集引擎。可以动态地从不同的来源收集数据,将数据处理(过滤、变形)过之后统一输出到某个特定地址,为将来更多样化的数据分析做准备。1ogstash的作用包括:收集各类系统日志:如APaChe日志、Iog4j(Java程序日志)、WindoWS系统事件日志。通过FiIebeat能够实现安全、快速的的日志传输。能够与很多采用UDP及TC

12、P协议的工具对接,如JMX、NetFIow等等。E1asticsearch的数据采集的利器,可以配合E1asticsearch和Kibana使用;对inputfi1ter及output部分可以使用多种插件灵活配合部署用以实现不同功能。在Web接口服务中,可以收集HTTP请求。能够与各类SQ1或非SQ1数据库对接,只要这个数据库支持JDBC接口。F1umeF1Ume是由CIOUdera公司开源的,分布式可靠,高可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动、最后存储到一个中心化数据存储系统中。由原来的FIumeOG到现在的F1umeNG,进行了架构重构,并且现在NG版本完全

13、不兼容原来的OG版本,经过架构重构后,FIUmeNG更像是一个轻量级的小工具,适应各种方式的日志收集,并支持fai1。Ver和负载均衡。F1umeNG的特点:NG只有一种角色的节点:代理节点(Agent)没有CO1IeCtomaster节点,这是核心组件最核心的变化去除了physica1nodes,1oca1nodes的概念和相关内容agent节点的组成也发生了变化,脱离了zookeeperF1uentdFIUentd是一个日志收集系统,通过丰富的插件,可以收集来自于各种系统或应用的日志,然后根据用户定义将日志做分类处理。通过F1uentd,你可以非常轻易的实现像追踪日志文件并将其过滤后转存到

14、MongoDB这样的操作。F1Uentd可以彻底的将你从繁琐的日志处理中解放出来。本质上,F1uentd可以分为客户端和服务端两种模块。客户端为安装在被采集系统中的程序,用于读取Iog文件等信息,并发送到FIUentd的服务端。服务端则是一个收集器。在FIUentd服务端,我们可以进行相应的配置,使其可以对收集到的数据进行过滤和处理,并最终路由到下一跳。下一跳可以是用于存储的数据库,如MongoDBzAmazonS3,也可以是其他的数据处理平台,比如HadoOPCFIUentd有四个关键功能,使其适合构建清洁,可靠的日志管道:使用JSON进行统一日志记录:F1uentd尝试尽可能地将数据结构化

15、为JSON:这允许F1uentd统一处理日志数据的所有方面:收集,过滤,缓冲和跨多个源和目标(统一日志层)输出日志。使用JSON可以更轻松地进行下游数据处理,因为它具有足够的结构,可以在保留灵活模式的同时进行访问。可插拔架构:F1uentd拥有灵活的插件系统,允许社区扩展其功能。我们的500多个社区贡献插件连接了数十个数据源和数据输出。通过利用插件,您可以立即开始更好地使用日志。所需的资源较少:F1uentd是用C语言和RUby组合编写的,只需要很少的系统资源。Vani11a实例运行30-40MB内存,可处理13,000个事件/秒/核心。内置可靠性:FIUentd支持基于内存和文件的缓冲,以防止节点间数据丢失。F1Uentd还支持强大的故障转移功能,可以设置为高可用性。1ogtai11Ogtai1是日志服务提供的一种便于日志接入的日志采集客户端。通过在您的机器上安装1Ogtai1来监听指定的日志文件并自动把新写入到文件的日志上传到您所指定的日志库。1ogtai

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服