《求职简历模板大数据工程师.docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据工程师.docx(3页珍藏版)》请在第一文库网上搜索。
1、杨强简历个人概况工作经验:X年毕业院校:XX大学(本科)E-mai1:XXXXXXXX目标地点:北京期望薪资:面议姓名:XX性别:男联系方式:XXXXXX求职意向工作性质:全职目标职能:大数据开发工程师专业技能1 .精通Java,熟练使用Sca1a,了解Python,熟悉常见数据结构和算法2 .熟悉JVM内存结构、JVM调优以及垃圾收集算法,了解CMS和G1垃圾收集器3 .熟练使用1inux操作系统,熟悉She11编程4 .熟练掌握HDFS读写流程,MapReduce工作原理,Yarn提交job流程,熟悉MR程序调优以及Hadoop集群搭建5 .熟练掌握Hive并使用HQ1进行开发,熟练使用开
2、窗函数和自定义UDF函数,理解HQ1语句执行流程及其优化措施6 .熟练使用SparkCorexSparkSQ1SparkStreaming编程,深亥U理解Spark底层原理、共享变量、RDD持久化机制,并能进行一些性能调优与故障处理7 .熟练使用Zookeeper,理解其选举机制、监听器原理以及ZAB协议8 .熟练使用Kafka,理解Kafka高、低阶API的差异,分区分配策略,精确一次性语义9 .熟练掌握SparkStreaming与Kafka的搭配使用,尤其擅长Kafka低阶API操作10 .熟练使用F1ume进行日志采集,熟悉其架构组成、拓扑结构以及Agent内部原理,有自定义拦截器和修
3、改源码的经历11 .熟练使用MySQ1,对其优化有一定理解,了解MyISAM和InnoDB存储引擎12 .熟练使用SqoopxAzkabanxKy1inxGit、Maven等工具13 .熟悉Hbase,理解其读写流程以及数据刷写过程,了解RowKey设计规则14 .能使用Redis,理解其持久化机制及集群的主从复制,了解乐观锁与悲观锁15 .了解EIasticSearch,能进行一些常用操作,了解倒排索引工作经历宝贝格子(北京)科技有限公司-大数据开发工程师2016年8月-至今1 .参与需求分析,编写相应文档,从技术角度给出开发意见2 .使用双层FIUme拓扑结构搭建日志采集系统3 .负责对数
4、据清洗、加工、建模,并进行数据分析、挖掘4 .优化存储和计算架构性能,kafka与SparkStreaming高低版本适配方案研究项目经验项目一:宝贝格子数仓系统软件架构:Hadoop+MySQ1+Sqoop+Spark+Hive+Azkaban项目描述:该项目主要基于来自APP和网站的启动(访问)日志、用户行为日志、订单数据、用户信息、商品信息等数据,经过清洗、加工、建模、分析与挖掘,得到日活、周活、月活、GMV.转化率、复购率等指标,同时建立用户画像,以供运营及公司决策。责任描述:1 .参与项目需求分析讨论,负责日活、周活、月活、转化率、复购率、ToPN等指标的统计2 .参与日志与业务原始
5、数据入库,并进行数据清洗、建模和规划3 .自定义SparkSQ1UDAF函数,并进行相关SQ1优化和部分问题解决技术要点:1 .使用Sqoop将存储于MySQ1的业务雌导入到HDFS,并将日志数据与业务数据的分析结果从Hive导出到MySQ12 .将json-serde-1.3.8-jar-with-dependenciesjar拷贝到hive/1ib和spark/jars目录下,使Hive支持JSON解析3 .将每日新增的日志数据和业务经过压缩后加载到数据仓库ODS层4 .对数据仓库ODS层数据进行判空清洗,行式存储改为列为存储,并更改压缩方式,然后存入DWD层5 .在数据仓库DWD层建立并
6、维护拉链表,记录从开始到当前所有的变化信息6 .在数据仓库DWS层,聚合经常查询的字段组建宽表,以便之后进行统计分析7 .对于数据仓库的前三层表要支持分区,并将动态分区的模式设置为nonstrict,根据实际数据为hive.exec.max.dynamic.partitions.pernode设置合理的参数8 .修改hive.mapred.mode为strict开启严格模式,防止执行可能意想不到的并且有不好影响的查询9 .在SparkSQ1中自定义UDAF,以满足特殊需求10 .通过提高shuff1e操作中的reduce并行度、随机key双重聚合、reducejoin转换为m叩join等方式缓
7、解甚至解决Spark数插顷斜问题11 .使用Azkaban周期性调度脚本,更新数据仓库和分析结果项目二:宝贝格子实时分析系统开发环境:IDEA+Sca1a2.11+Maven+Git软件架构:Cana1+Kafka+Zookeeper+Spark+MySQ1+Redis+EIasticSearch+SpringBoot+Echarts项目描述:该项目主要基于来自APP和网站的各种日志和业务数据,统计当日活跃用户、交易额、订单数、用户购买明细、广告点击量等指标,然后存入EIasticSearch,供前后端调用,并利用Redis进行黑名单实时维护。责任描述:1 .参与项目需求分析讨论、架构设计,并
8、编写相应文档2 .负责每日活跃用户、每日交易额、每日订单数、用户购买明细等指标的统计3 .负责管理实时黑名单模块,出现突发状况实时解决4 .参与SPark系统调优工作技术要点:1 .MySQ1开启bin1og,并把bin1og_format设置为row2 .在Cana1Server端进行MySQ1数据的增量订阅,C1ient端进行消费,写入Kafka3 .低版本kafka高版本Spark适配,手动维护offset并保存到Zookeeper,实行Kafka数据消费严格的exact1y-once语义4 .使用Redis缓存数据,实现去重、黑名单等功能5 .使用EIaStiCSearCh进行实时交互
9、,将实时计算结果存入EIasticSearch6 .为了更好地根据中文语义进行搜索,为EasticSearch添加IK分词器7 .在IK分词器的IKAna1yzer.cfg.xm1文件中配置远程扩展词典,保持词汇的更新8 .使用SpringBoot搭建Echarts模块,对接EIasticSearch,实现实时处理结果可视化项目三:宝贝格子日志采集系统软彳牛架构:Nginx+F1ume+Hadoop项目描述:该项目主要通过Nginx路由通过埋点发送过来的启动(浏览)日志、用户行为日志,然后写入日志系统,再通过双层F1ume采集日志系统上的日志数据到HDFS0责任描述:参与项目架构设计与搭建,以
10、及后期的维护。技术要点:1 .基于Nginx反向代理,采用其默认的轮询负载均衡策略,实现日志数据分流,分别写入不同的日志服务器2 .使用双层F1ume架构,第一层使用Tai1dirSource监控日志文件变化,第二层使用拦截器过滤不合法数据,并根据日志数据的type进行分类,写入不同的HDFS文件3 .第一层F1ume配置Sinkgroups,并设詈processor.type为1oad_ba1ance,processor.se1ector为round_robin4 .通过实现Interceptor接口自定义拦截器,然后打包拷贝到fume1ib目录下5 .修改F1ume源码,使Tai1dirSource完全支持1og4j日志自我评价1 .具有良好的沟通协作能力与学习能力,乐于分享2 .阅读过HadoOp、SPark源代码,修改过F1Ume源码,有Hive、SPark调优经历,故障处理能力3 .有实际的大数据分布式项目经验,了解各个组件的适用场景,有离线、实时处理经验4 .积极主动,对新技术、新事物有很好的探索和求知欲