2023最新大数据面试宝典.docx

上传人:lao****ou 文档编号:403671 上传时间:2023-10-24 格式:DOCX 页数:79 大小:337.60KB
下载 相关 举报
2023最新大数据面试宝典.docx_第1页
第1页 / 共79页
2023最新大数据面试宝典.docx_第2页
第2页 / 共79页
2023最新大数据面试宝典.docx_第3页
第3页 / 共79页
2023最新大数据面试宝典.docx_第4页
第4页 / 共79页
2023最新大数据面试宝典.docx_第5页
第5页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023最新大数据面试宝典.docx》由会员分享,可在线阅读,更多相关《2023最新大数据面试宝典.docx(79页珍藏版)》请在第一文库网上搜索。

1、2023最新大数据面试宝典目录Hadoop61. 请说下HDFS读写流程62. HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办73. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办84. NameNode在启动的时候会做哪些操作85. SeCondaryNameNOde了解吗,它的工作机制是怎样的96. SecondaryNameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全97. 在NameNOdeHA中,会出现脑裂问题吗?怎么解决脑裂108. 小文件过多会有什么危害,如何避免119. 请说下HDFS的组织架构1110.

2、请说下MR中MaPTask的工作机制1211. 请说下MR中ReduceTask的工作机制1312. 请说下MR中ShUffIe阶段1413. ShUffIe阶段的数据压缩机制了解吗1514. 在写MR时,什么情况下可以使用规约1515. YARN集群的架构和工作原理知道多少1516. YARN的任务提交流程是怎样的1617. YARN的资源调度三种模型了解吗17Hive181. HiVe内部表和外部表的区别182. HiVe有索引吗193. 运维如何对HiVe进行调度194. ORC、ParqUet等列式存储的优点205. 数据建模用的哪些模型?216. 为什么要对数据仓库分层?237. 使

3、用过HiVe解析JSoN串吗238. sortby和orderby的区别239. 数据倾斜怎么解决2410. Hive小文件过多怎么解决2411. HiVe优化有哪些26Spark271. Spark的运行流程?272. Spark有哪些组件?283. Spark中的RDD机制理解吗?294. RDD中reduceBykey与groupByKey哪个性能好,为什么?295. 介绍一下cogrouprdd实现原理,你在什么场景下用过这个rdd?.306. 如何区分RDD的宽窄依赖?307. 为什么要设计宽窄依赖?308. DAG是什么?319. DAG中为什么要划分Stage?3110. 如何划

4、分DAG的stage?3111. DAG划分为Stage的算法了解吗?3112. 对于Spark中的数据倾斜问题你有什么好的方案?3213. Spark中的OOM问题?3214. Spark中数据的位置是被谁管理的?3315. Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?3316. 介绍一下join操作优化经验?3417. Spark与MapReduce的Shuff1e的区别?3418. SparkSQ1执行的流程?3519. SparkSQ1是如何将数据写到Hive表的?3520. 通常来说,Spark与MapReduce相比,Spark运行效率更高

5、。请说明效率更高来源于Spark内置的哪些机制?3621. Hadoop和Spark的相同点和不同点?3622. Hadoop和Spark使用场景?3723. Spark如何保证宕机迅速恢复?3724. RDD持久化原理?3725. Checkpoint检查点机制?3726. Checkpoint和持久化机制的区别?3827. SparkStreaming以及基本工作原理?3828. DStream以及基本工作原理?3929. SparkStreaming整合Kafka的两种模式?3930. Spark主备切换机制原理知道吗?4131. Spark解决了Hadoop的哪些问题?4132. 数据

6、倾斜的产生和解决办法?4233. 你用SparkSq1处理的时候,处理过程中用的DataFrame还是直接写的Sq1?为什么?4234. SparkMasterHA主从切换过程不会影响到集群已有作业的运行,为什么?4235. SparkMaster使用Zookeeper进行HA,有哪些源数据保存到Zookeeper里面?4336. 如何实现SParkStreaming读取F1Ume中的数据?4337. 在实际开发的时候是如何保证数据不丢失的?4338. RDD有哪些缺陷?44Kafka441. 为什么要使用kafka?452. Kafka消费过的消息如何再消费?453. kafka的数据是放在

7、磁盘上还是内存上,为什么速度会快?464. Kafka数据怎么保障不丢失?465. 采集数据为什么选择kafka?486. kafka重启是否会导致数据丢失?487. kafka宕机了如何解决?488. 为什么Kafka不支持读写分离?499. kafka数据分区和消费者的关系?4910. kafka的数据offset读取流程4911. kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?5012. Kafka消息数据积压,Ka妹a消费能力不足怎么处理?5013. Kafka单条日志传输大小50Hbase511. HbaSe是怎么写数据的?512. HDFS和HBaSe各自使用场景5

8、13. HbaSe的存储结构524. 热点现象(数据倾斜)怎么产生的,以及解决方法有哪些525. HBase的rowkey设计原则546. HBase的列簇设计547. HBase中compact用途是什么,什么时候触发,分为哪两种,有什么区别54F1ink551. 简单介绍一下F1ink552. F1ink的运行必须依赖Hadoop组件吗553. F1ink集群运行时角色564. F1ink相比SparkStreaming有什么区别575. 介绍下FIink的容错机制(CheCkPoint)576. F1inkCheCkPOint与SParkStreaming的有什么区别或优势吗597. F

9、1ink是如何保证ExactIyonce语义的598. 如果下级存储不支持事务,FIink怎么保证exactIy-OnCe609. F1ink常用的算子有哪些6010. FIink任务延时高,如何入手6011. FIink是如何处理反压的6112. 如何排查生产环境中的反压问题6113. FIink中的状态存储6214. OperatorChains(算子链)这个概念你了解吗6215. FIink的内存管理是如何做的6216. 如何处理生产环境中的数据倾斜问题6317. FIink中的TiIne有哪几种6318. FIink对于迟到数据是怎么处理的6419. F1ink中window出现数据倾

10、斜怎么解决6520. F1inkCEP编程中当状态没有到达的时候会将数据保存在哪里6521. FIink设置并行度的方式6522. F1ink中Task如何做到数据交换6623. F1ink的内存管理是如何做的6624. 介绍下FIink的序列化6625. FIink海量数据高效去重6726. F1inkSQ1的是如何实现的67业务方面681. ODS层采用什么压缩方式和存储格式?682. DWD层做了哪些事?683. DWS层做了哪些事?681在处理大数据过程中,如何保证得到期望值692 .你感觉数仓建设中最重要的是什么693 .数据仓库建模怎么做的694 .数据质量怎么监控695 .数据分

11、析方法论了解过哪些?70算法711 .排序算法712 .查找算法743 .二叉树实现及遍历76最后78此套面试题来自于各大厂的真实面试题及常问的知识点,如果能理解吃透这些问题,你的大数据能力将会大大提升,进入大厂指日可待复习大数据面试题,看这一套就够了!HadoopHadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1 .请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:1. C1ien

12、t客户端发送上传请求,通过RPC与NameNOde建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目录下重名,如果这两者有任意一个不满足,则直接报错,如果两者都满足,则返回给客户端一个可以上传的信息;2. C1ient根据文件的大小进行切分,默认128M一块,切分完成之后给NameNode发送请求第一个b1ock块上传到哪些服务器上;3. NameNode收到请求之后,根据网络拓扑和机架感知以及副本机制进行文件分配,返回可用的DataNode的地址;注:Hadoop在设计时考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架

13、内其它某一节点上一份,不同机架的某一节点上一份。4. 客户端收到地址之后与服务器地址列表中的一个节点如A进行通信,本质上就是RPC调用,建立pipe1ine,A收到请求后会继续调用B,B在调用C,将整个PiPeIine建立完成,逐级返回C1ient;5. C1ient开始向A上发送第一个b1ock(先从磁盘读取数据然后放到本地内存缓存),以PaCket(数据包,64kb)为单位,A收到一个PaCket就会发送给B,然后B发送给C,A每传完一个packet就会放入一个应答队列等待应答;6. 数据被分割成一个个的packet数据包在pipe1ine上依次传输,在pipe1ine反向传输中,逐个发送

14、ack(命令正确应答),最终由pipe1ine中第一个DataNode节点A将PiPeIineaCk发送给C1ient;7. 当一个b1ock传输完成之后,C1ient再次请求Na1neNode上传第二个b1ock,NameNode重新选择三台DataNode给C1ientoHDFS读流程:1 .C1ient向NameNOCIe发送RPC请求。请求文件b1ock的位置;2 .NameNode收到请求之后会检查用户权限以及是否有这个文件,如果都符合,则会视情况返回部分或全部的b1ock列表,对于每个b1ock,NameNode都会返回含有该b1ock副本的DataNOde地址;这些返回的Data

15、Node地址,会按照集群拓扑结构得出DataNode与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离C1ient近的排靠前;心跳机制中超时汇报的DataNOdC状态为STA1E,这样的排靠后;3 .C1ient选取排序靠前的DataNode来读取b1ock,如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性);4 .底层上本质是建立SocketStream(FSDataInputStream),重复的调用父类Data1nPUtStream的read方法,直到这个块上的数据读取完毕;5 .当读完列表的b1ock后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的b1ock列表;6 .读取完一个b1ock都会进行checksum验证

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服