2023最新大数据面试宝典.docx

资源描述

《2023最新大数据面试宝典.docx》由会员分享，可在线阅读，更多相关《2023最新大数据面试宝典.docx（79页珍藏版）》请在第一文库网上搜索。

1、2023最新大数据面试宝典目录Hadoop61. 请说下HDFS读写流程62. HDFS在读取文件的时候，如果其中一个块突然损坏了怎么办73. HDFS在上传文件的时候，如果其中一个DataNode突然挂掉了怎么办84. NameNode在启动的时候会做哪些操作85. SeCondaryNameNOde了解吗，它的工作机制是怎样的96. SecondaryNameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全97. 在NameNOdeHA中，会出现脑裂问题吗？怎么解决脑裂108. 小文件过多会有什么危害，如何避免119. 请说下HDFS的组织架构1110.

2、请说下MR中MaPTask的工作机制1211. 请说下MR中ReduceTask的工作机制1312. 请说下MR中ShUffIe阶段1413. ShUffIe阶段的数据压缩机制了解吗1514. 在写MR时，什么情况下可以使用规约1515. YARN集群的架构和工作原理知道多少1516. YARN的任务提交流程是怎样的1617. YARN的资源调度三种模型了解吗17Hive181. HiVe内部表和外部表的区别182. HiVe有索引吗193. 运维如何对HiVe进行调度194. ORC、ParqUet等列式存储的优点205. 数据建模用的哪些模型？216. 为什么要对数据仓库分层？237. 使

3、用过HiVe解析JSoN串吗238. sortby和orderby的区别239. 数据倾斜怎么解决2410. Hive小文件过多怎么解决2411. HiVe优化有哪些26Spark271. Spark的运行流程？272. Spark有哪些组件？283. Spark中的RDD机制理解吗？294. RDD中reduceBykey与groupByKey哪个性能好，为什么？295. 介绍一下cogrouprdd实现原理，你在什么场景下用过这个rdd?.306. 如何区分RDD的宽窄依赖？307. 为什么要设计宽窄依赖？308. DAG是什么？319. DAG中为什么要划分Stage?3110. 如何划

4、分DAG的stage?3111. DAG划分为Stage的算法了解吗？3112. 对于Spark中的数据倾斜问题你有什么好的方案？3213. Spark中的OOM问题？3214. Spark中数据的位置是被谁管理的？3315. Spaek程序执行，有时候默认为什么会产生很多task,怎么修改默认task执行个数？3316. 介绍一下join操作优化经验？3417. Spark与MapReduce的Shuff1e的区别？3418. SparkSQ1执行的流程？3519. SparkSQ1是如何将数据写到Hive表的？3520. 通常来说，Spark与MapReduce相比，Spark运行效率更高

5、。请说明效率更高来源于Spark内置的哪些机制？3621. Hadoop和Spark的相同点和不同点？3622. Hadoop和Spark使用场景？3723. Spark如何保证宕机迅速恢复?3724. RDD持久化原理？3725. Checkpoint检查点机制？3726. Checkpoint和持久化机制的区别？3827. SparkStreaming以及基本工作原理？3828. DStream以及基本工作原理？3929. SparkStreaming整合Kafka的两种模式？3930. Spark主备切换机制原理知道吗？4131. Spark解决了Hadoop的哪些问题？4132. 数据

6、倾斜的产生和解决办法？4233. 你用SparkSq1处理的时候，处理过程中用的DataFrame还是直接写的Sq1?为什么？4234. SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？4235. SparkMaster使用Zookeeper进行HA,有哪些源数据保存到Zookeeper里面？4336. 如何实现SParkStreaming读取F1Ume中的数据？4337. 在实际开发的时候是如何保证数据不丢失的？4338. RDD有哪些缺陷？44Kafka441. 为什么要使用kafka?452. Kafka消费过的消息如何再消费？453. kafka的数据是放在

7、磁盘上还是内存上，为什么速度会快？464. Kafka数据怎么保障不丢失？465. 采集数据为什么选择kafka?486. kafka重启是否会导致数据丢失？487. kafka宕机了如何解决？488. 为什么Kafka不支持读写分离？499. kafka数据分区和消费者的关系？4910. kafka的数据offset读取流程4911. kafka内部如何保证顺序，结合外部组件如何保证消费者的顺序？5012. Kafka消息数据积压，Ka妹a消费能力不足怎么处理？5013. Kafka单条日志传输大小50Hbase511. HbaSe是怎么写数据的？512. HDFS和HBaSe各自使用场景5

8、13. HbaSe的存储结构524. 热点现象（数据倾斜）怎么产生的，以及解决方法有哪些525. HBase的rowkey设计原则546. HBase的列簇设计547. HBase中compact用途是什么，什么时候触发，分为哪两种，有什么区别54F1ink551. 简单介绍一下F1ink552. F1ink的运行必须依赖Hadoop组件吗553. F1ink集群运行时角色564. F1ink相比SparkStreaming有什么区别575. 介绍下FIink的容错机制（CheCkPoint）576. F1inkCheCkPOint与SParkStreaming的有什么区别或优势吗597. F

9、1ink是如何保证ExactIyonce语义的598. 如果下级存储不支持事务，FIink怎么保证exactIy-OnCe609. F1ink常用的算子有哪些6010. FIink任务延时高，如何入手6011. FIink是如何处理反压的6112. 如何排查生产环境中的反压问题6113. FIink中的状态存储6214. OperatorChains（算子链）这个概念你了解吗6215. FIink的内存管理是如何做的6216. 如何处理生产环境中的数据倾斜问题6317. FIink中的TiIne有哪几种6318. FIink对于迟到数据是怎么处理的6419. F1ink中window出现数据倾

10、斜怎么解决6520. F1inkCEP编程中当状态没有到达的时候会将数据保存在哪里6521. FIink设置并行度的方式6522. F1ink中Task如何做到数据交换6623. F1ink的内存管理是如何做的6624. 介绍下FIink的序列化6625. FIink海量数据高效去重6726. F1inkSQ1的是如何实现的67业务方面681. ODS层采用什么压缩方式和存储格式？682. DWD层做了哪些事？683. DWS层做了哪些事？681在处理大数据过程中，如何保证得到期望值692 .你感觉数仓建设中最重要的是什么693 .数据仓库建模怎么做的694 .数据质量怎么监控695 .数据分

11、析方法论了解过哪些？70算法711 .排序算法712 .查找算法743 .二叉树实现及遍历76最后78此套面试题来自于各大厂的真实面试题及常问的知识点，如果能理解吃透这些问题,你的大数据能力将会大大提升，进入大厂指日可待复习大数据面试题，看这一套就够了！HadoopHadoop中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce);第三：资源调度框架(YARN)。1 .请说下HDFS读写流程这个问题虽然见过无数次，面试官问过无数次，还是有不少面试者不能完整的说出来，所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程：1. C1ien

12、t客户端发送上传请求，通过RPC与NameNOde建立通信，NameNode检查该用户是否有上传权限，以及上传的文件是否在HDFS对应的目录下重名，如果这两者有任意一个不满足，则直接报错，如果两者都满足，则返回给客户端一个可以上传的信息；2. C1ient根据文件的大小进行切分，默认128M一块，切分完成之后给NameNode发送请求第一个b1ock块上传到哪些服务器上；3. NameNode收到请求之后，根据网络拓扑和机架感知以及副本机制进行文件分配，返回可用的DataNode的地址；注：Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为本地一份，同机架

13、内其它某一节点上一份，不同机架的某一节点上一份。4. 客户端收到地址之后与服务器地址列表中的一个节点如A进行通信，本质上就是RPC调用，建立pipe1ine,A收到请求后会继续调用B,B在调用C,将整个PiPeIine建立完成，逐级返回C1ient；5. C1ient开始向A上发送第一个b1ock(先从磁盘读取数据然后放到本地内存缓存)，以PaCket(数据包，64kb)为单位，A收到一个PaCket就会发送给B,然后B发送给C,A每传完一个packet就会放入一个应答队列等待应答；6. 数据被分割成一个个的packet数据包在pipe1ine上依次传输，在pipe1ine反向传输中，逐个发送

14、ack（命令正确应答），最终由pipe1ine中第一个DataNode节点A将PiPeIineaCk发送给C1ient；7. 当一个b1ock传输完成之后，C1ient再次请求Na1neNode上传第二个b1ock,NameNode重新选择三台DataNode给C1ientoHDFS读流程：1 .C1ient向NameNOCIe发送RPC请求。请求文件b1ock的位置；2 .NameNode收到请求之后会检查用户权限以及是否有这个文件，如果都符合,则会视情况返回部分或全部的b1ock列表，对于每个b1ock,NameNode都会返回含有该b1ock副本的DataNOde地址；这些返回的Data

15、Node地址，会按照集群拓扑结构得出DataNode与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离C1ient近的排靠前；心跳机制中超时汇报的DataNOdC状态为STA1E,这样的排靠后；3 .C1ient选取排序靠前的DataNode来读取b1ock,如果客户端本身就是DataNode,那么将从本地直接获取数据（短路读取特性）；4 .底层上本质是建立SocketStream（FSDataInputStream）,重复的调用父类Data1nPUtStream的read方法，直到这个块上的数据读取完毕；5 .当读完列表的b1ock后，若文件读取还没有结束，客户端会继续向NameNode获取下一批的b1ock列表；6 .读取完一个b1ock都会进行checksum验证

展开阅读全文