大数据工程师求职简历模板.docx

资源描述

《大数据工程师求职简历模板.docx》由会员分享，可在线阅读，更多相关《大数据工程师求职简历模板.docx（4页珍藏版）》请在第一文库网上搜索。

1、XXX简历-大数据工程师姓名：XXXO工作经验：X年I电话：性别：X0毕业学校：xG邮箱：xxxxxx画年龄：XXg学历：XXQ现居：XX求职意向目标职能：大数据开发工程师目前状态：离职随时到岗目标地点：北京目标薪资：面议Q工作经历xxx.08-xxxx.02xxxx时代科技有限公司大数据工程师个人技能1 .熟练掌握HadOOP底层架构、HDFS存储机制和读写流程、MaPRedUCe框架原理和工作机制、Yarn组成架构和调度机制、MR调优以及高可用的部署。2 .熟练掌握Hive数仓搭建，能够熟练使用HQ1进行企业级开发，掌握HQ1中的相关函数和HQ1语句执行流程，以及Hive的压缩格式和存储格

2、式的选择，Hive杳询的相关优化措施。3 .熟练掌握HBase底层数据存储原理与读写流程，能够熟练使用HBase进行分布式的、非结构化的存储，能够通过预分区和RowKey设计处理HBase的数据倾斜问题,能够配置HBase的高可用和对其内存进行优化。4 .熟练掌握F1ume内部的结构和原理，以及事务机制，能够使用F1ume进行分布式的海量日志采集，聚合和传输。能够自定义拦截器链对传输数据进行过滤与分类，以及使用Gang1ia对其进行监控。5 .熟练掌握Kafka内部架构和写入流程，能够编写Kafka的生产者和消费者的高级API与彳氐级API、Kafka拦截器、KafkaStream进行数据清洗

3、。6 .熟练掌握SPark的工作原理，能够熟练使用SParkCore、SparkSQ1xSParkStreaming进行编程，能够对Spark进行调优，了解Spark内核。7 .熟练掌握ZOokeePer工作原理，了解FIink基本架构、流式处理原理、核心计算框架。8 .熟练使用MySQ1xRedis数据库，能够使用MongoDBsEIasticSerach数据库。9 .熟练使用Sqoop对MySQ1的数据进行导入与导出，Azkaban和Oozie进行任务调度，GitHub管理项目。10 .熟练使用Java、SCa1a进行编程，熟悉使用1inUX操作系统，能够使用SheII、Python编写脚

4、本。项目经历项目名称：XX时代数仓项目软件架构：F1ume+Kafka+Hadoop+Zookeeper+HiveSpark+MySQ1+Azkaban+Sqoop开发工具：IDEA+JDK1.8+Sca1a+Maven+Git项目描述：对果敢时代的用户行为数据和业务交互数据进行采集、清洗、管理、维护、并进行统计、分析、挖掘，提炼出有价值的信息，基于事实的管理来推动决策过程与实现价值增长。1【数据采集】采用F1ume+Kafka+F1ume架构，通过前端埋点，Nginx负载均衡，Tomcat的Iog4j写日志，F1ume采集、清洗、分类日志，Kafka缓存，F1ume消费Kafka数据，采集行

5、为日志到HDFS中。2 .【数仓搭建】数据仓库采用ODS+DWD+DWS+ADS四层分层搭建。将MySQ1中的业务交互数据通过Sq。P导入到ODS层。进而将ODS层中的业务交互数据与用户行为数据通过SParkSQ1进行清洗、更改存储方式、更改压缩方式、进行维度建模后转存到数据仓库DWD层。计算数据仓库DWD层的复用度，将复用度高的数据进行轻聚合后转存到数据仓库DWS层。ADS层中以DWD层或者DWS层的数据为基础，通过具体需求聚合数据，组成各种统计报表,统计结果最终同步到MySQ1数据库供B1等查询使用。3 .【数据分析】流程分析：登录、浏览、下单&支付、交易成功、售后等。用户分析：用户价值分

6、析、用户粘性分析、满意度分析等。商品分析：点击量、转化率、加购率、收藏率、购买人数、销量、销售额、热门品类排行榜、动销率、次品率、投诉率、售罄率、库存量等。责任描述：1 .参与了项目需求的讨论与分析、HiVe表的设计、架构的搭建。2 .负责了用户分析部分的需求实现：活跃用户统计、新增用户统计、用户转化率分析、用户留存率分析、用户流失率分析等。3 .负责了部分流程分析与部分商品分析的需求实现：收藏率、加购率、GMV分析、热门品类排行榜、热门商品ToPI0、动销率等。4 .通过Sqoop将数据同步到MySQ1中，编写执行脚本，并通过Azkaban进行调度执行。技术要点：1 .将MySQ1中的业务交

7、互数据通过Sqoop导入到Hive中，并编写定时导入脚本。2 .搭建四层数据仓库，为原始数据层ODS、明细数据层DWD、服务数据层DWS、应用数据层ADS。3 .存储在ODS层的原始数据表采用行式存储，采用Gzip压缩。将ODS层的原始数据通过SparkSQ1进行清洗、改为Parquet列式存储、改为Snappy压缩格式后转存到数据仓库DWD层。4 .对数据进行维度建模，采用维度较少的星型模型，减少Join,即减少Shuff1e,有效的提高性能。5 .分析DWD层数据的复用性，将复用度高的数据进行轻聚合后转存到数据仓库DWS层。6 .ADS层中以DWD层或DWS层的数据为基础，通过具体的业务需

8、求聚合数据，组成各种统计报表。7 .配置Spark与外置Hive数据仓库的关联。自定义UDF函数，实现对各种需求的统计分析。8 .对不同类型的表，定制不同的同步策略，创建并维护拉链表。9 .对HiVe查询进行优化，提升效率，防止数据倾斜。:MapJoin,行列过滤、分桶分区、合理设置M叩数和RedUCe数、并行执行、推测执行、JVM重用、严格模式等。10 .对Spark查询进行优化。对复用度高的RDD进行缓存或CheckPoint,对较大对象进行广播变量。项目名称：大V店实时分析项目软件架构：F1Ume+Kafka+Hadoop+Zookeeper+Cana1+MySQ1+Spark+Redi

9、s+EIasticSearch开发工具:IDEA+JDK1.8+Sca1a+Maven+Git项目描述：对大V店用户的实时行为数据进行采集，实时分析，帮助营销人员更好的了解其业务对用户行为的影响。1【实时数据采集模块】在Kafka之前实时数据的采集与离线的采集共用一套F1Ume+Kafka日志采集系统。在Kafka之后，离线数据再通过F1ume将Kafka中数据消费到HDFS中。而实时数据直接通过Kafka来缓存用户行为日志。业务交互数据通过Cana1监控MySQ1数据库的写操作并通过编写的Java程序将业务交互数据存储到Kafka中。2 .【实时统计分析模块】实时数据处理系统中的SParkS

10、treaming使用了Kafka低级消费者对Kafka中的日志数据进行消费，并通过Checkpoint机制和Z。KeePer保存机制对Kafka中主题各个分区的OffSet进行手动保存。最后通过流式处理实现项目需求，进而保存到日asticSearch中并建立倒排索引。3 .【实时数据分析】当日活跃用户量、当日新增用户量、统计各个时段用户浏览量，当日订单量与交易金额、实时点击量统计、当日PV与UV等需求的实时统计。责任描述：1 .使用F1Ume+Kafka架构对日志数据进行采集、处理与缓存。参与了项目需求的分析与讨论。2 .负责了SparkStreaming与KafkaStream的对接，部分数

11、据通过Redis进行去重。3 .负责了对当日活跃用户量、当日新增用户量、当日订单量与交易金额的实时需求进行实现。4 .对SPark的实时计算效率进行调优。技术要点：1 .通过搭建F1ume+Kafka架构，将用户行为数据实时的采集到Kafka中。2 .通过Cana1伪装成Mysq1的S1ave进行数据拉取，将拉取的业务交互数据信息通过编写的Java程序实时存储到Kafka中。3 .开启MySQ1的bin1og,并修改Cana1配置。4 .采用Kafka低级API,手动维护Kafka的offset至UZooKeeper中。5 .通过SparkStreaming对实时数据进行清洗，主要检查数据合法

12、性和数据业务逻辑性。6 .通过SparkStreaming消费Kafka中的健并保持到EIasticSerach,并指定Ik分词器建立索引。7 .通过SparkStreaming将数据存入Redis中的Set类型中,指定Key为时间戳，Va1ue为所要去重数据，对部分需要去重统计的数据进行去重。8 .自定义累加器，对共享变量进行更新。9 .搭建数据发布的接口，供可视化界面进行杳询。11.对Spark进行优化，对复用度高的RDD进行Cache或CheckPoint,对较大的对象进行广播变量。使用reduceByKey算不弋替groupByKey算子，使用mapPartition算而弋替map算子

13、，使用foreachPartitions代替foreach,在fi1ter进行coa1esce等。项目名称：大V店数据采集项目软件架构：Nginx+F1ume+Kafka+Zookeeper+Hadoop+Hive+Azkaban开发工具：IDEA+JDK18+Maven+Git项目描述：对大V店的用户行为数据进行采集数据，为后续离线计算与实时计算提供数据依据。1【定制化日志模块】在APP前端进行埋点采集用户行为日志，规范服务节点统计日志信息为：启动日志(Startup1og)、访问日志(Event1og)和错误日志(Eerror1og)o2.【日志采集模块】APP客户端的行为日志数据定时向服

14、务器进行发送，服务器采用NginX实现负载均衡，Nginx将日志数据负载均衡到多个Tomcat上,Tomcat服务器通过Iog4j将日志数据写入日志文件中，通过日志数据的落盘实现业务系统与数据采集系统的解耦。随后采集F1ume将对应的Tomcat生成的日志文件采集到其拓扑结构中并通过自定义ET1拦截器、类型区分拦截器将日志数据根据分类存储到不同的Kafka主题中,再通过消费F1ume消费到HDFS中，执行脚本存入Hive数据仓库，作为日志原始数据存储。责任描述：1 .参与定制化日志模块所用字段的需求分析，采集框架的搭建。2 .在F1ume+Kafka+F1ume架构中,对F1ume和Kafka

15、进行调优。3 .自定义拦截器链对F1ume中的日志进行清洗与分类，写入Kafka不同主题中。4 .编写F1ume消费Kafka写到HDFS的程序,编写更新Hive数据表脚本。技术要点：1 .搭建F1ume+Kafka+F1ume架构，对数据进行缓冲解决消费者与生产者处理速度不一致问题，提高峰值处理能力，保证数据安全有效传输。2 .配置采集F1Ume的Agent文件。SoUrCeS的类型为Tai1Dir,并指定拦截链类型信息。ChanneIS的类型为MemoryoSinks的类型是KafkaSink,并存指定存入Kafka的主题。3 .编写第一层F1ume的ET1拦截器(实现Interceptor接口)，编写数据清洗工具类(过滤数据格式不符合要求的和不是JSON类型的数据)，在拦截器的intercept方法中调用，实现对嘘的清洗。4 .编写第一层F1ume的日志类型拦截器(实现Interceptor接口)，根据传输单元Event的getBody()方法获取传输的日志类型信息，将其放入Event的Header中进行日志类型分类。5 .配置消费F1ume的Agent文件。Source的类型为KafkaSourceoChanne1的类型为MemoryoSink的类型是HDFSo6 .对F1ume进行调优。设置Source的batchSize的大小，设置Cha

展开阅读全文