求职简历模板大数据工程师.docx

资源描述

《求职简历模板大数据工程师.docx》由会员分享，可在线阅读，更多相关《求职简历模板大数据工程师.docx（3页珍藏版）》请在第一文库网上搜索。

1、杨强简历个人概况工作经验：X年毕业院校：XX大学（本科）E-mail : XXXXXXXX目标地点：北京期望薪资：面议姓名：XX性别：男联系方式：XXXXXX求职意向工作性质：全职目标职能：大数据开发工程师专业技能1 .精通Java ,熟练使用Scala , 了解Python ,熟悉常见数据结构和算法2 .熟悉JVM内存结构、JVM调优以及垃圾收集算法，了解CMS和Gl垃圾收集器3 .熟练使用Linux操作系统，熟悉Shell编程4 .熟练掌握HDFS读写流程，MapReduce工作原理，Yarn提交job流程,熟悉MR程序调优以及Hadoop集群搭建5 .熟练掌握Hive并使用HQL

2、进行开发，熟练使用开窗函数和自定义UDF函数，理解HQL语句执行流程及其优化措施6 .熟练使用SparkCorex SparkSQL SparkStreaming编程，深亥U理解Spark底层原理、共享变量、RDD持久化机制，并能进行一些性能调优与故障处理7 .熟练使用Zookeeper,理解其选举机制、监听器原理以及ZAB协议8 .熟练使用Kafka ,理解Kafka高、低阶API的差异,分区分配策略，精确一次性语义9 .熟练掌握SparkStreaming与Kafka的搭配使用，尤其擅长Kafka低阶API操作10 .熟练使用Flume进行日志采集，熟悉其架构组成、拓扑结构以及Agen

3、t内部原理,有自定义拦截器和修改源码的经历11 .熟练使用MySQL ,对其优化有一定理解，了解MyISAM和InnoDB存储引擎12 .熟练使用 Sqoopx Azkabanx Kylinx Git、Maven 等工具13 .熟悉Hbase ,理解其读写流程以及数据刷写过程，了解RowKey设计规则14 .能使用Redis ,理解其持久化机制及集群的主从复制，了解乐观锁与悲观锁15 .了解EIasticSearch ,能进行一些常用操作，了解倒排索引工作经历宝贝格子（北京）科技有限公司-大数据开发工程师2016年8月-至今1 .参与需求分析，编写相应文档，从技术角度给出开发意见2 .使用双

4、层FIUme拓扑结构搭建日志采集系统3 .负责对数据清洗、加工、建模，并进行数据分析、挖掘4 .优化存储和计算架构性能，kafka与SparkStreaming高低版本适配方案研究项目经验项目一：宝贝格子数仓系统软件架构：Hadoop + MySQL + Sqoop + Spark + Hive + Azkaban项目描述：该项目主要基于来自APP和网站的启动（访问）日志、用户行为日志、订单数据、用户信息、商品信息等数据，经过清洗、加工、建模、分析与挖掘，得到日活、周活、月活、GMV.转化率、复购率等指标，同时建立用户画像，以供运营及公司决策。责任描述：1 .参与项目需求分析讨论，负责日活

5、、周活、月活、转化率、复购率、ToPN等指标的统计2 .参与日志与业务原始数据入库，并进行数据清洗、建模和规划3 .自定义SparkSQL UDAF函数,并进行相关SQL优化和部分问题解决技术要点：1 .使用Sqoop将存储于MySQL的业务雌导入到HDFS ,并将日志数据与业务数据的分析结果从Hive导出到 MySQL2 .将 json-serde-1.3.8-jar-with-dependenciesjar 拷贝到 hive/lib 和 spark/jars 目录下，使 Hive 支持 JSON 解析3 .将每日新增的日志数据和业务经过压缩后加载到数据仓库ODS层4 .对数据仓库ODS层

6、数据进行判空清洗,行式存储改为列为存储，并更改压缩方式，然后存入DWD层5 .在数据仓库DWD层建立并维护拉链表，记录从开始到当前所有的变化信息6 .在数据仓库DWS层，聚合经常查询的字段组建宽表，以便之后进行统计分析7 .对于数据仓库的前三层表要支持分区,并将动态分区的模式设置为nonstrict,根据实际数据为hive.exec.max. dynamic.partitions.pernode 设置合理的参数8 .修改hive.mapred.mode为strict开启严格模式，防止执行可能意想不到的并且有不好影响的查询9 .在SparkSQL中自定义UDAF ,以满足特殊需求10 .通过提高

7、shuffle操作中的reduce并行度、随机key双重聚合、reduce join转换为m叩join等方式缓解甚至解决Spark数插顷斜问题11 .使用Azkaban周期性调度脚本，更新数据仓库和分析结果项目二：宝贝格子实时分析系统开发环境:IDEA + Scala 2.11 + Maven + Git软件架构：Canal + Kafka + Zookeeper + Spark + MySQL + Redis + EIasticSearch + SpringBoot + Echarts 项目描述：该项目主要基于来自APP和网站的各种日志和业务数据，统计当日活跃用户、交易额、订单数、用户购买

8、明细、广告点击量等指标，然后存入EIasticSearch ,供前后端调用，并利用Redis进行黑名单实时维护。责任描述：1 .参与项目需求分析讨论、架构设计，并编写相应文档2 .负责每日活跃用户、每日交易额、每日订单数、用户购买明细等指标的统计3 .负责管理实时黑名单模块，出现突发状况实时解决4 .参与SPark系统调优工作技术要点：1 . MySQL 开启 binlog ,并把 binlog_format 设置为 row2 .在Canal Server端进行MySQL数据的增量订阅,Client端进行消费，写入Kafka3 .低版本kafka 高版本Spark适配，手动维护offset并

9、保存到Zookeeper,实行Kafka数据消费严格的 exactly-once 语义4 .使用Redis缓存数据,实现去重、黑名单等功能5 .使用EIaStiCSearCh进行实时交互，将实时计算结果存入EIasticSearch6 .为了更好地根据中文语义进行搜索，为EasticSearch添加IK分词器7 .在IK分词器的IKAnalyzer.cfg.xml文件中配置远程扩展词典，保持词汇的更新8 .使用SpringBoot搭建Echarts模块,对接EIasticSearch ,实现实时处理结果可视化项目三：宝贝格子日志采集系统软彳牛架构：Nginx + Flume + Hadoop项

10、目描述：该项目主要通过Nginx路由通过埋点发送过来的启动（浏览）日志、用户行为日志，然后写入日志系统，再通过双层Flume采集日志系统上的日志数据到HDFS0责任描述：参与项目架构设计与搭建,以及后期的维护。技术要点：1 .基于Nginx反向代理，采用其默认的轮询负载均衡策略,实现日志数据分流，分别写入不同的日志服务器2 .使用双层Flume架构，第一层使用Taildir Source监控日志文件变化，第二层使用拦截器过滤不合法数据，并根据日志数据的type进行分类，写入不同的HDFS文件3 .第一层 Flume 配置 Sink groups ,并设詈 processor.type 为 load_balance , processor.selector 为 round_robin4 .通过实现Interceptor接口自定义拦截器，然后打包拷贝到fumelib目录下5 .修改Flume源码，使Taildir Source完全支持Log4j日志自我评价1 .具有良好的沟通协作能力与学习能力，乐于分享2 .阅读过HadoOp、SPark源代码，修改过FlUme源码，有Hive、SPark调优经历，故障处理能力3 .有实际的大数据分布式项目经验，了解各个组件的适用场景,有离线、实时处理经验4 .积极主动，对新技术、新事物有很好的探索和求知欲

展开阅读全文