《大数据工程师求职简历模板.docx》由会员分享,可在线阅读,更多相关《大数据工程师求职简历模板.docx(4页珍藏版)》请在第一文库网上搜索。
1、XXX简历-大数据工程师姓名:XXXO工作经验:X年I电话:性别:X0毕业学校:xG邮箱:xxxxxx画年龄:XXg学历:XXQ现居:XX求职意向目标职能:大数据开发工程师目前状态:离职随时到岗目标地点:北京目标薪资:面议Q工作经历xxx.08-xxxx.02xxxx时代科技有限公司大数据工程师个人技能1 .熟练掌握HadOOP底层架构、HDFS存储机制和读写流程、MaPRedUCe框架原理和工作机制、Yarn组成架构和调度机制、MR调优以及高可用的部署。2 .熟练掌握Hive数仓搭建,能够熟练使用HQ1进行企业级开发,掌握HQ1中的相关函数和HQ1语句执行流程,以及Hive的压缩格式和存储格
2、式的选择,Hive杳询的相关优化措施。3 .熟练掌握HBase底层数据存储原理与读写流程,能够熟练使用HBase进行分布式的、非结构化的存储,能够通过预分区和RowKey设计处理HBase的数据倾斜问题,能够配置HBase的高可用和对其内存进行优化。4 .熟练掌握F1ume内部的结构和原理,以及事务机制,能够使用F1ume进行分布式的海量日志采集,聚合和传输。能够自定义拦截器链对传输数据进行过滤与分类,以及使用Gang1ia对其进行监控。5 .熟练掌握Kafka内部架构和写入流程,能够编写Kafka的生产者和消费者的高级API与彳氐级API、Kafka拦截器、KafkaStream进行数据清洗
3、。6 .熟练掌握SPark的工作原理,能够熟练使用SParkCore、SparkSQ1xSParkStreaming进行编程,能够对Spark进行调优,了解Spark内核。7 .熟练掌握ZOokeePer工作原理,了解FIink基本架构、流式处理原理、核心计算框架。8 .熟练使用MySQ1xRedis数据库,能够使用MongoDBsEIasticSerach数据库。9 .熟练使用Sqoop对MySQ1的数据进行导入与导出,Azkaban和Oozie进行任务调度,GitHub管理项目。10 .熟练使用Java、SCa1a进行编程,熟悉使用1inUX操作系统,能够使用SheII、Python编写脚
4、本。项目经历项目名称:XX时代数仓项目软件架构:F1ume+Kafka+Hadoop+Zookeeper+HiveSpark+MySQ1+Azkaban+Sqoop开发工具:IDEA+JDK1.8+Sca1a+Maven+Git项目描述:对果敢时代的用户行为数据和业务交互数据进行采集、清洗、管理、维护、并进行统计、分析、挖掘,提炼出有价值的信息,基于事实的管理来推动决策过程与实现价值增长。1【数据采集】采用F1ume+Kafka+F1ume架构,通过前端埋点,Nginx负载均衡,Tomcat的Iog4j写日志,F1ume采集、清洗、分类日志,Kafka缓存,F1ume消费Kafka数据,采集行
5、为日志到HDFS中。2 .【数仓搭建】数据仓库采用ODS+DWD+DWS+ADS四层分层搭建。将MySQ1中的业务交互数据通过Sq。P导入到ODS层。进而将ODS层中的业务交互数据与用户行为数据通过SParkSQ1进行清洗、更改存储方式、更改压缩方式、进行维度建模后转存到数据仓库DWD层。计算数据仓库DWD层的复用度,将复用度高的数据进行轻聚合后转存到数据仓库DWS层。ADS层中以DWD层或者DWS层的数据为基础,通过具体需求聚合数据,组成各种统计报表,统计结果最终同步到MySQ1数据库供B1等查询使用。3 .【数据分析】流程分析:登录、浏览、下单&支付、交易成功、售后等。用户分析:用户价值分
6、析、用户粘性分析、满意度分析等。商品分析:点击量、转化率、加购率、收藏率、购买人数、销量、销售额、热门品类排行榜、动销率、次品率、投诉率、售罄率、库存量等。责任描述:1 .参与了项目需求的讨论与分析、HiVe表的设计、架构的搭建。2 .负责了用户分析部分的需求实现:活跃用户统计、新增用户统计、用户转化率分析、用户留存率分析、用户流失率分析等。3 .负责了部分流程分析与部分商品分析的需求实现:收藏率、加购率、GMV分析、热门品类排行榜、热门商品ToPI0、动销率等。4 .通过Sqoop将数据同步到MySQ1中,编写执行脚本,并通过Azkaban进行调度执行。技术要点:1 .将MySQ1中的业务交
7、互数据通过Sqoop导入到Hive中,并编写定时导入脚本。2 .搭建四层数据仓库,为原始数据层ODS、明细数据层DWD、服务数据层DWS、应用数据层ADS。3 .存储在ODS层的原始数据表采用行式存储,采用Gzip压缩。将ODS层的原始数据通过SparkSQ1进行清洗、改为Parquet列式存储、改为Snappy压缩格式后转存到数据仓库DWD层。4 .对数据进行维度建模,采用维度较少的星型模型,减少Join,即减少Shuff1e,有效的提高性能。5 .分析DWD层数据的复用性,将复用度高的数据进行轻聚合后转存到数据仓库DWS层。6 .ADS层中以DWD层或DWS层的数据为基础,通过具体的业务需
8、求聚合数据,组成各种统计报表。7 .配置Spark与外置Hive数据仓库的关联。自定义UDF函数,实现对各种需求的统计分析。8 .对不同类型的表,定制不同的同步策略,创建并维护拉链表。9 .对HiVe查询进行优化,提升效率,防止数据倾斜。:MapJoin,行列过滤、分桶分区、合理设置M叩数和RedUCe数、并行执行、推测执行、JVM重用、严格模式等。10 .对Spark查询进行优化。对复用度高的RDD进行缓存或CheckPoint,对较大对象进行广播变量。项目名称:大V店实时分析项目软件架构:F1Ume+Kafka+Hadoop+Zookeeper+Cana1+MySQ1+Spark+Redi
9、s+EIasticSearch开发工具:IDEA+JDK1.8+Sca1a+Maven+Git项目描述:对大V店用户的实时行为数据进行采集,实时分析,帮助营销人员更好的了解其业务对用户行为的影响。1【实时数据采集模块】在Kafka之前实时数据的采集与离线的采集共用一套F1Ume+Kafka日志采集系统。在Kafka之后,离线数据再通过F1ume将Kafka中数据消费到HDFS中。而实时数据直接通过Kafka来缓存用户行为日志。业务交互数据通过Cana1监控MySQ1数据库的写操作并通过编写的Java程序将业务交互数据存储到Kafka中。2 .【实时统计分析模块】实时数据处理系统中的SParkS
10、treaming使用了Kafka低级消费者对Kafka中的日志数据进行消费,并通过Checkpoint机制和Z。KeePer保存机制对Kafka中主题各个分区的OffSet进行手动保存。最后通过流式处理实现项目需求,进而保存到日asticSearch中并建立倒排索引。3 .【实时数据分析】当日活跃用户量、当日新增用户量、统计各个时段用户浏览量,当日订单量与交易金额、实时点击量统计、当日PV与UV等需求的实时统计。责任描述:1 .使用F1Ume+Kafka架构对日志数据进行采集、处理与缓存。参与了项目需求的分析与讨论。2 .负责了SparkStreaming与KafkaStream的对接,部分数
11、据通过Redis进行去重。3 .负责了对当日活跃用户量、当日新增用户量、当日订单量与交易金额的实时需求进行实现。4 .对SPark的实时计算效率进行调优。技术要点:1 .通过搭建F1ume+Kafka架构,将用户行为数据实时的采集到Kafka中。2 .通过Cana1伪装成Mysq1的S1ave进行数据拉取,将拉取的业务交互数据信息通过编写的Java程序实时存储到Kafka中。3 .开启MySQ1的bin1og,并修改Cana1配置。4 .采用Kafka低级API,手动维护Kafka的offset至UZooKeeper中。5 .通过SparkStreaming对实时数据进行清洗,主要检查数据合法
12、性和数据业务逻辑性。6 .通过SparkStreaming消费Kafka中的健并保持到EIasticSerach,并指定Ik分词器建立索引。7 .通过SparkStreaming将数据存入Redis中的Set类型中,指定Key为时间戳,Va1ue为所要去重数据,对部分需要去重统计的数据进行去重。8 .自定义累加器,对共享变量进行更新。9 .搭建数据发布的接口,供可视化界面进行杳询。11.对Spark进行优化,对复用度高的RDD进行Cache或CheckPoint,对较大的对象进行广播变量。使用reduceByKey算不弋替groupByKey算子,使用mapPartition算而弋替map算子
13、,使用foreachPartitions代替foreach,在fi1ter进行coa1esce等。项目名称:大V店数据采集项目软件架构:Nginx+F1ume+Kafka+Zookeeper+Hadoop+Hive+Azkaban开发工具:IDEA+JDK18+Maven+Git项目描述:对大V店的用户行为数据进行采集数据,为后续离线计算与实时计算提供数据依据。1【定制化日志模块】在APP前端进行埋点采集用户行为日志,规范服务节点统计日志信息为:启动日志(Startup1og)、访问日志(Event1og)和错误日志(Eerror1og)o2.【日志采集模块】APP客户端的行为日志数据定时向服
14、务器进行发送,服务器采用NginX实现负载均衡,Nginx将日志数据负载均衡到多个Tomcat上,Tomcat服务器通过Iog4j将日志数据写入日志文件中,通过日志数据的落盘实现业务系统与数据采集系统的解耦。随后采集F1ume将对应的Tomcat生成的日志文件采集到其拓扑结构中并通过自定义ET1拦截器、类型区分拦截器将日志数据根据分类存储到不同的Kafka主题中,再通过消费F1ume消费到HDFS中,执行脚本存入Hive数据仓库,作为日志原始数据存储。责任描述:1 .参与定制化日志模块所用字段的需求分析,采集框架的搭建。2 .在F1ume+Kafka+F1ume架构中,对F1ume和Kafka
15、进行调优。3 .自定义拦截器链对F1ume中的日志进行清洗与分类,写入Kafka不同主题中。4 .编写F1ume消费Kafka写到HDFS的程序,编写更新Hive数据表脚本。技术要点:1 .搭建F1ume+Kafka+F1ume架构,对数据进行缓冲解决消费者与生产者处理速度不一致问题,提高峰值处理能力,保证数据安全有效传输。2 .配置采集F1Ume的Agent文件。SoUrCeS的类型为Tai1Dir,并指定拦截链类型信息。ChanneIS的类型为MemoryoSinks的类型是KafkaSink,并存指定存入Kafka的主题。3 .编写第一层F1ume的ET1拦截器(实现Interceptor接口),编写数据清洗工具类(过滤数据格式不符合要求的和不是JSON类型的数据),在拦截器的intercept方法中调用,实现对嘘的清洗。4 .编写第一层F1ume的日志类型拦截器(实现Interceptor接口),根据传输单元Event的getBody()方法获取传输的日志类型信息,将其放入Event的Header中进行日志类型分类。5 .配置消费F1ume的Agent文件。Source的类型为KafkaSourceoChanne1的类型为MemoryoSink的类型是HDFSo6 .对F1ume进行调优。设置Source的batchSize的大小,设置Cha