求职简历模板大数据工程师.docx

资源描述

《求职简历模板大数据工程师.docx》由会员分享，可在线阅读，更多相关《求职简历模板大数据工程师.docx（3页珍藏版）》请在第一文库网上搜索。

1、杨强简历个人概况工作经验：X年毕业院校：XX大学（本科）E-mai1:XXXXXXXX目标地点：北京期望薪资：面议姓名：XX性别：男联系方式：XXXXXX求职意向工作性质：全职目标职能：大数据开发工程师专业技能1 .精通Java,熟练使用Sca1a,了解Python,熟悉常见数据结构和算法2 .熟悉JVM内存结构、JVM调优以及垃圾收集算法，了解CMS和G1垃圾收集器3 .熟练使用1inux操作系统，熟悉She11编程4 .熟练掌握HDFS读写流程，MapReduce工作原理，Yarn提交job流程,熟悉MR程序调优以及Hadoop集群搭建5 .熟练掌握Hive并使用HQ1进行开发，熟练使用开

2、窗函数和自定义UDF函数，理解HQ1语句执行流程及其优化措施6 .熟练使用SparkCorexSparkSQ1SparkStreaming编程，深亥U理解Spark底层原理、共享变量、RDD持久化机制，并能进行一些性能调优与故障处理7 .熟练使用Zookeeper,理解其选举机制、监听器原理以及ZAB协议8 .熟练使用Kafka,理解Kafka高、低阶API的差异,分区分配策略，精确一次性语义9 .熟练掌握SparkStreaming与Kafka的搭配使用，尤其擅长Kafka低阶API操作10 .熟练使用F1ume进行日志采集，熟悉其架构组成、拓扑结构以及Agent内部原理,有自定义拦截器和修

3、改源码的经历11 .熟练使用MySQ1,对其优化有一定理解，了解MyISAM和InnoDB存储引擎12 .熟练使用SqoopxAzkabanxKy1inxGit、Maven等工具13 .熟悉Hbase,理解其读写流程以及数据刷写过程，了解RowKey设计规则14 .能使用Redis,理解其持久化机制及集群的主从复制，了解乐观锁与悲观锁15 .了解EIasticSearch,能进行一些常用操作，了解倒排索引工作经历宝贝格子（北京）科技有限公司-大数据开发工程师2016年8月-至今1 .参与需求分析，编写相应文档，从技术角度给出开发意见2 .使用双层FIUme拓扑结构搭建日志采集系统3 .负责对数

4、据清洗、加工、建模，并进行数据分析、挖掘4 .优化存储和计算架构性能，kafka与SparkStreaming高低版本适配方案研究项目经验项目一：宝贝格子数仓系统软件架构：Hadoop+MySQ1+Sqoop+Spark+Hive+Azkaban项目描述：该项目主要基于来自APP和网站的启动（访问）日志、用户行为日志、订单数据、用户信息、商品信息等数据，经过清洗、加工、建模、分析与挖掘，得到日活、周活、月活、GMV.转化率、复购率等指标，同时建立用户画像，以供运营及公司决策。责任描述：1 .参与项目需求分析讨论，负责日活、周活、月活、转化率、复购率、ToPN等指标的统计2 .参与日志与业务原始

5、数据入库，并进行数据清洗、建模和规划3 .自定义SparkSQ1UDAF函数,并进行相关SQ1优化和部分问题解决技术要点：1 .使用Sqoop将存储于MySQ1的业务雌导入到HDFS,并将日志数据与业务数据的分析结果从Hive导出到MySQ12 .将json-serde-1.3.8-jar-with-dependenciesjar拷贝到hive/1ib和spark/jars目录下，使Hive支持JSON解析3 .将每日新增的日志数据和业务经过压缩后加载到数据仓库ODS层4 .对数据仓库ODS层数据进行判空清洗,行式存储改为列为存储，并更改压缩方式，然后存入DWD层5 .在数据仓库DWD层建立并

6、维护拉链表，记录从开始到当前所有的变化信息6 .在数据仓库DWS层，聚合经常查询的字段组建宽表，以便之后进行统计分析7 .对于数据仓库的前三层表要支持分区,并将动态分区的模式设置为nonstrict,根据实际数据为hive.exec.max.dynamic.partitions.pernode设置合理的参数8 .修改hive.mapred.mode为strict开启严格模式，防止执行可能意想不到的并且有不好影响的查询9 .在SparkSQ1中自定义UDAF,以满足特殊需求10 .通过提高shuff1e操作中的reduce并行度、随机key双重聚合、reducejoin转换为m叩join等方式缓

7、解甚至解决Spark数插顷斜问题11 .使用Azkaban周期性调度脚本，更新数据仓库和分析结果项目二：宝贝格子实时分析系统开发环境:IDEA+Sca1a2.11+Maven+Git软件架构：Cana1+Kafka+Zookeeper+Spark+MySQ1+Redis+EIasticSearch+SpringBoot+Echarts项目描述：该项目主要基于来自APP和网站的各种日志和业务数据，统计当日活跃用户、交易额、订单数、用户购买明细、广告点击量等指标，然后存入EIasticSearch,供前后端调用，并利用Redis进行黑名单实时维护。责任描述：1 .参与项目需求分析讨论、架构设计，并

8、编写相应文档2 .负责每日活跃用户、每日交易额、每日订单数、用户购买明细等指标的统计3 .负责管理实时黑名单模块，出现突发状况实时解决4 .参与SPark系统调优工作技术要点：1 .MySQ1开启bin1og,并把bin1og_format设置为row2 .在Cana1Server端进行MySQ1数据的增量订阅,C1ient端进行消费，写入Kafka3 .低版本kafka高版本Spark适配，手动维护offset并保存到Zookeeper,实行Kafka数据消费严格的exact1y-once语义4 .使用Redis缓存数据,实现去重、黑名单等功能5 .使用EIaStiCSearCh进行实时交互

9、，将实时计算结果存入EIasticSearch6 .为了更好地根据中文语义进行搜索，为EasticSearch添加IK分词器7 .在IK分词器的IKAna1yzer.cfg.xm1文件中配置远程扩展词典，保持词汇的更新8 .使用SpringBoot搭建Echarts模块,对接EIasticSearch,实现实时处理结果可视化项目三：宝贝格子日志采集系统软彳牛架构：Nginx+F1ume+Hadoop项目描述：该项目主要通过Nginx路由通过埋点发送过来的启动（浏览）日志、用户行为日志，然后写入日志系统，再通过双层F1ume采集日志系统上的日志数据到HDFS0责任描述：参与项目架构设计与搭建,以

10、及后期的维护。技术要点：1 .基于Nginx反向代理，采用其默认的轮询负载均衡策略,实现日志数据分流，分别写入不同的日志服务器2 .使用双层F1ume架构，第一层使用Tai1dirSource监控日志文件变化，第二层使用拦截器过滤不合法数据，并根据日志数据的type进行分类，写入不同的HDFS文件3 .第一层F1ume配置Sinkgroups,并设詈processor.type为1oad_ba1ance,processor.se1ector为round_robin4 .通过实现Interceptor接口自定义拦截器，然后打包拷贝到fume1ib目录下5 .修改F1ume源码，使Tai1dirSource完全支持1og4j日志自我评价1 .具有良好的沟通协作能力与学习能力，乐于分享2 .阅读过HadoOp、SPark源代码，修改过F1Ume源码，有Hive、SPark调优经历，故障处理能力3 .有实际的大数据分布式项目经验，了解各个组件的适用场景,有离线、实时处理经验4 .积极主动，对新技术、新事物有很好的探索和求知欲

展开阅读全文