大数据工程师求职简历模板.docx

资源描述

《大数据工程师求职简历模板.docx》由会员分享，可在线阅读，更多相关《大数据工程师求职简历模板.docx（4页珍藏版）》请在第一文库网上搜索。

1、XXX简历-大数据工程师姓名：XXXO工作经验：X年I电话：性别：X0毕业学校：xG邮箱：xxxxxx画年龄：XXg学历：XXQ现居：XX求职意向目标职能：大数据开发工程师目前状态：离职随时到岗目标地点：北京目标薪资：面议Q工作经历xxx.08 - xxxx.02xxxx时代科技有限公司大数据工程师个人技能1 .熟练掌握HadOOP底层架构、HDFS存储机制和读写流程、MaPRedUCe框架原理和工作机制、Yarn组成架构和调度机制、MR调优以及高可用的部署。2 .熟练掌握Hive数仓搭建，能够熟练使用HQL进行企业级开发，掌握HQL中的相关函数和HQL语句执行流程，以及Hive的压缩格

2、式和存储格式的选择，Hive杳询的相关优化措施。3 .熟练掌握HBase底层数据存储原理与读写流程，能够熟练使用HBase进行分布式的、非结构化的存储，能够通过预分区和RowKey设计处理HBase的数据倾斜问题,能够配置HBase的高可用和对其内存进行优化。4 .熟练掌握Flume内部的结构和原理，以及事务机制，能够使用Flume进行分布式的海量日志采集，聚合和传输。能够自定义拦截器链对传输数据进行过滤与分类，以及使用Ganglia对其进行监控。5 .熟练掌握Kafka内部架构和写入流程，能够编写Kafka的生产者和消费者的高级API与彳氐级API、Kafka 拦截器、KafkaStr

3、eam进行数据清洗。6 .熟练掌握SPark的工作原理，能够熟练使用SParkC ore、SparkSQLx SParkStreaming进行编程，能够对Spark进行调优，了解Spark内核。7 .熟练掌握ZOokeePer工作原理，了解FIink基本架构、流式处理原理、核心计算框架。8 .熟练使用MySQLx Redis数据库，能够使用MongoDBs EIasticSerach数据库。9 .熟练使用Sqoop对MySQL的数据进行导入与导出，Azkaban和Oozie进行任务调度，GitHub管理项目。10 .熟练使用Java、SCala进行编程，熟悉使用LinUX操作系统，能够使用

4、SheII、Python编写脚本。项目经历项目名称：XX时代数仓项目软件架构：Flume+Kafka+ Hadoop+Zookeeper+HiveSpark+MySQL+Azkaban+Sqoop开发工具：IDEA+JDK1.8+Scala+Maven+Git项目描述：对果敢时代的用户行为数据和业务交互数据进行采集、清洗、管理、维护、并进行统计、分析、挖掘，提炼出有价值的信息，基于事实的管理来推动决策过程与实现价值增长。L【数据采集】采用Flume+Kafka+Flume架构，通过前端埋点，Nginx负载均衡，Tomcat的Iog4j写日志，Flume采集、清洗、分类日志，Kafka缓存，

5、Flume消费Kafka数据，采集行为日志到HDFS中。2 .【数仓搭建】数据仓库采用ODS+DWD+DWS+ADS四层分层搭建。将MySQL中的业务交互数据通过Sq。P导入到ODS层。进而将ODS层中的业务交互数据与用户行为数据通过SParkSQL进行清洗、更改存储方式、更改压缩方式、进行维度建模后转存到数据仓库DWD层。计算数据仓库DWD层的复用度，将复用度高的数据进行轻聚合后转存到数据仓库DWS层。ADS层中以DWD层或者DWS层的数据为基础，通过具体需求聚合数据，组成各种统计报表,统计结果最终同步到MySQL数据库供Bl等查询使用。3 .【数据分析】流程分析：登录、浏览、下单&

6、支付、交易成功、售后等。用户分析：用户价值分析、用户粘性分析、满意度分析等。商品分析：点击量、转化率、加购率、收藏率、购买人数、销量、销售额、热门品类排行榜、动销率、次品率、投诉率、售罄率、库存量等。责任描述：1 .参与了项目需求的讨论与分析、HiVe表的设计、架构的搭建。2 .负责了用户分析部分的需求实现：活跃用户统计、新增用户统计、用户转化率分析、用户留存率分析、用户流失率分析等。3 .负责了部分流程分析与部分商品分析的需求实现：收藏率、加购率、GMV分析、热门品类排行榜、热门商品ToPI0、动销率等。4 .通过Sqoop将数据同步到MySQL中，编写执行脚本，并通过Azkaban

7、进行调度执行。技术要点：1 .将MySQL中的业务交互数据通过Sqoop导入到Hive中，并编写定时导入脚本。2 .搭建四层数据仓库，为原始数据层ODS、明细数据层DWD、服务数据层DWS、应用数据层ADS。3 .存储在ODS层的原始数据表采用行式存储，采用Gzip压缩。将ODS层的原始数据通过SparkSQL 进行清洗、改为Parquet列式存储、改为Snappy压缩格式后转存到数据仓库DWD层。4 .对数据进行维度建模，采用维度较少的星型模型，减少Join ,即减少Shuffle ,有效的提高性能。5 .分析DWD层数据的复用性，将复用度高的数据进行轻聚合后转存到数据仓库DWS层。6 .

8、 ADS层中以DWD层或DWS层的数据为基础，通过具体的业务需求聚合数据，组成各种统计报表。7 .配置Spark与外置Hive数据仓库的关联。自定义UDF函数，实现对各种需求的统计分析。8 .对不同类型的表，定制不同的同步策略，创建并维护拉链表。9 .对HiVe查询进行优化，提升效率，防止数据倾斜。 : MapJoin,行列过滤、分桶分区、合理设置 M叩数和RedUCe数、并行执行、推测执行、JVM重用、严格模式等。10 .对Spark查询进行优化。对复用度高的RDD进行缓存或CheckPoint,对较大对象进行广播变量。项目名称：大V店实时分析项目软件架构：FlUme+Kafka+ Hado

9、op+Zookeeper+Canal+MySQL+Spark+Redis+EIasticSearch开发工具:IDEA+JDK1.8+Scala+Maven+Git项目描述：对大V店用户的实时行为数据进行采集，实时分析，帮助营销人员更好的了解其业务对用户行为的影响。L【实时数据采集模块】在Kafka之前实时数据的采集与离线的采集共用一套FlUme+Kafka日志采集系统。在Kafka之后，离线数据再通过Flume将Kafka中数据消费到HDFS中。而实时数据直接通过Kafka 来缓存用户行为日志。业务交互数据通过Canal监控MySQL数据库的写操作并通过编写的Java程序将业务交互数据存

10、储到Kafka中。2 .【实时统计分析模块】实时数据处理系统中的SParkStreaming使用了 Kafka低级消费者对Kafka中的日志数据进行消费，并通过Checkpoint机制和Z。KeePer保存机制对Kafka中主题各个分区的OffSet进行手动保存。最后通过流式处理实现项目需求，进而保存到日asticSearch中并建立倒排索引。3 .【实时数据分析】当日活跃用户量、当日新增用户量、统计各个时段用户浏览量，当日订单量与交易金额、实时点击量统计、当日PV与UV等需求的实时统计。责任描述：1 .使用FlUme+Kafka架构对日志数据进行采集、处理与缓存。参与了项目需求的分析与

11、讨论。2 .负责了 SparkStreaming与KafkaStream的对接，部分数据通过Redis进行去重。3 .负责了对当日活跃用户量、当日新增用户量、当日订单量与交易金额的实时需求进行实现。4 .对SPark的实时计算效率进行调优。技术要点：1 .通过搭建Flume+Kafka架构，将用户行为数据实时的采集到Kafka中。2 .通过Canal伪装成Mysql的Slave进行数据拉取，将拉取的业务交互数据信息通过编写的Java程序实时存储到Kafka中。3 .开启MySQL的binlog,并修改Canal配置。4 .采用Kafka低级API,手动维护Kafka的offset至U Zoo

12、Keeper中。5 .通过SparkStreaming对实时数据进行清洗，主要检查数据合法性和数据业务逻辑性。6 .通过SparkStreaming消费Kafka中的健并保持到EIasticSerach ,并指定Ik分词器建立索引。7 .通过SparkStreaming将数据存入Redis中的Set类型中,指定Key为时间戳，Value为所要去重数据，对部分需要去重统计的数据进行去重。8 .自定义累加器，对共享变量进行更新。9 .搭建数据发布的接口，供可视化界面进行杳询。11.对Spark进行优化，对复用度高的RDD进行Cache或CheckPoint,对较大的对象进行广播变量。使用red

13、uceByKey算不弋替groupByKey算子，使用mapPartition算而弋替map算子，使用 foreachPartitions 代替 foreach ,在 filter 进行 coalesce 等。项目名称：大V店数据采集项目软件架构：Nginx+Flume+Kafka+Zookeeper+Hadoop+Hive+Azkaban开发工具：IDEA+JDKL8+Maven+Git项目描述：对大V店的用户行为数据进行采集数据，为后续离线计算与实时计算提供数据依据。L【定制化日志模块】在APP前端进行埋点采集用户行为日志，规范服务节点统计日志信息为：启动日志(StartupLog )、访

14、问日志(EventLog )和错误日志(EerrorLog ) o2.【日志采集模块】APP客户端的行为日志数据定时向服务器进行发送，服务器采用NginX实现负载均衡，Nginx将日志数据负载均衡到多个Tomcat上,Tomcat服务器通过Iog4j将日志数据写入日志文件中，通过日志数据的落盘实现业务系统与数据采集系统的解耦。随后采集Flume将对应的Tomcat生成的日志文件采集到其拓扑结构中并通过自定义ETL拦截器、类型区分拦截器将日志数据根据分类存储到不同的Kafka主题中,再通过消费Flume消费到HDFS中，执行脚本存入Hive数据仓库，作为日志原始数据存储。责任描述：1 .

15、参与定制化日志模块所用字段的需求分析，采集框架的搭建。2 .在 Flume+Kafka+Flume 架构中,对 Flume 和 Kafka 进行调优。3 .自定义拦截器链对Flume中的日志进行清洗与分类，写入Kafka不同主题中。4 .编写Flume消费Kafka 写到HDFS的程序,编写更新Hive数据表脚本。技术要点：1 .搭建Flume+Kafka+Flume架构，对数据进行缓冲解决消费者与生产者处理速度不一致问题，提高峰值处理能力，保证数据安全有效传输。2 .配置采集FlUme的Agent文件。SoUrCeS的类型为TailDir ,并指定拦截链类型信息。ChanneIS的类型为Memoryo Sinks的类型是KafkaSink ,并存指定存入Kafka的主题。3 .编写第一层Flume的ETL拦截器(实现Interceptor接口)，编写数据清洗工具类(过滤数据格式不符合要求的和不是JSON类型的数据)，在拦截器的intercept方法中调用，实现对嘘的清洗。4 .编写第一层Flume的日志类型拦截器(实现Interceptor接口)，根据传输单元Event的getBody() 方法获取传输的日志类型信息，将其放入Event的Header中进行日志类型分类。5 .配置消费 Flume 的 Agent 文件。Source 的类型为 Ka

展开阅读全文