《求职简历模板大数据工程师.docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据工程师.docx(3页珍藏版)》请在第一文库网上搜索。
1、杨强简历个人概况工作经验:X年毕业院校:XX大学(本科)E-mail : XXXXXXXX目标地点:北京 期望薪资:面议姓 名:XX性 别:男联系方式:XXXXXX求职意向工作性质:全职目标职能:大数据开发工程师专业技能1 .精通Java ,熟练使用Scala , 了解Python ,熟悉常见数据结构和算法2 .熟悉JVM内存结构、JVM调优以及垃圾收集算法,了解CMS和Gl垃圾收集器3 .熟练使用Linux操作系统,熟悉Shell编程4 .熟练掌握HDFS读写流程,MapReduce工作原理,Yarn提交job流程,熟悉MR程序调优以及Hadoop集 群搭建5 .熟练掌握Hive并使用HQL
2、进行开发,熟练使用开窗函数和自定义UDF函数,理解HQL语句执行流程及其优 化措施6 .熟练使用SparkCorex SparkSQL SparkStreaming编程,深亥U理解Spark底层原理、共享变量、RDD持久 化机制,并能进行一些性能调优与故障处理7 .熟练使用Zookeeper,理解其选举机制、监听器原理以及ZAB协议8 .熟练使用Kafka ,理解Kafka高、低阶API的差异,分区分配策略,精确一次性语义9 .熟练掌握SparkStreaming与Kafka的搭配使用,尤其擅长Kafka低阶API操作10 .熟练使用Flume进行日志采集,熟悉其架构组成、拓扑结构以及Agen
3、t内部原理,有自定义拦截器和修改源 码的经历11 .熟练使用MySQL ,对其优化有一定理解,了解MyISAM和InnoDB存储引擎12 .熟练使用 Sqoopx Azkabanx Kylinx Git、Maven 等工具13 .熟悉Hbase ,理解其读写流程以及数据刷写过程,了解RowKey设计规则14 .能使用Redis ,理解其持久化机制及集群的主从复制,了解乐观锁与悲观锁15 .了解EIasticSearch ,能进行一些常用操作,了解倒排索引工作经历宝贝格子(北京)科技有限公司-大数据开发工程师2016年8月-至今1 .参与需求分析,编写相应文档,从技术角度给出开发意见2 .使用双
4、层FIUme拓扑结构搭建日志采集系统3 .负责对数据清洗、加工、建模,并进行数据分析、挖掘4 .优化存储和计算架构性能,kafka与SparkStreaming高低版本适配方案研究项目经验项目一:宝贝格子数仓系统软件架构:Hadoop + MySQL + Sqoop + Spark + Hive + Azkaban项目描述:该项目主要基于来自APP和网站的启动(访问)日志、用户行为日志、订单数据、用户信息、商品信息等数 据,经过清洗、加工、建模、分析与挖掘,得到日活、周活、月活、GMV.转化率、复购率等指标,同时建立用户 画像,以供运营及公司决策。责任描述:1 .参与项目需求分析讨论,负责日活
5、、周活、月活、转化率、复购率、ToPN等指标的统计2 .参与日志与业务原始数据入库,并进行数据清洗、建模和规划3 .自定义SparkSQL UDAF函数,并进行相关SQL优化和部分问题解决 技术要点:1 .使用Sqoop将存储于MySQL的业务雌导入到HDFS ,并将日志数据与业务数据的分析结果从Hive导出到 MySQL2 .将 json-serde-1.3.8-jar-with-dependenciesjar 拷贝到 hive/lib 和 spark/jars 目录下,使 Hive 支持 JSON 解析3 .将每日新增的日志数据和业务经过压缩后加载到数据仓库ODS层4 .对数据仓库ODS层
6、数据进行判空清洗,行式存储改为列为存储,并更改压缩方式,然后存入DWD层5 .在数据仓库DWD层建立并维护拉链表,记录从开始到当前所有的变化信息6 .在数据仓库DWS层,聚合经常查询的字段组建宽表,以便之后进行统计分析7 .对于数据仓库的前三层表要支持分区,并将动态分区的模式设置为nonstrict,根据实际数据为hive.exec.max. dynamic.partitions.pernode 设置合理的参数8 .修改hive.mapred.mode为strict开启严格模式,防止执行可能意想不到的并且有不好影响的查询9 .在SparkSQL中自定义UDAF ,以满足特殊需求10 .通过提高
7、shuffle操作中的reduce并行度、随机key双重聚合、reduce join转换为m叩join等方式缓解甚 至解决Spark数插顷斜问题11 .使用Azkaban周期性调度脚本,更新数据仓库和分析结果项目二:宝贝格子实时分析系统开发环境:IDEA + Scala 2.11 + Maven + Git软件架构:Canal + Kafka + Zookeeper + Spark + MySQL + Redis + EIasticSearch + SpringBoot + Echarts 项目描述:该项目主要基于来自APP和网站的各种日志和业务数据,统计当日活跃用户、交易额、订单数、用户购买
8、明 细、广告点击量等指标,然后存入EIasticSearch ,供前后端调用,并利用Redis进行黑名单实时维护。责任描述:1 .参与项目需求分析讨论、架构设计,并编写相应文档2 .负责每日活跃用户、每日交易额、每日订单数、用户购买明细等指标的统计3 .负责管理实时黑名单模块,出现突发状况实时解决4 .参与SPark系统调优工作技术要点:1 . MySQL 开启 binlog ,并把 binlog_format 设置为 row2 .在Canal Server端进行MySQL数据的增量订阅,Client端进行消费,写入Kafka3 .低版本kafka 高版本Spark适配,手动维护offset并
9、保存到Zookeeper,实行Kafka数据消费严格的 exactly-once 语义4 .使用Redis缓存数据,实现去重、黑名单等功能5 .使用EIaStiCSearCh进行实时交互,将实时计算结果存入EIasticSearch6 .为了更好地根据中文语义进行搜索,为EasticSearch添加IK分词器7 .在IK分词器的IKAnalyzer.cfg.xml文件中配置远程扩展词典,保持词汇的更新8 .使用SpringBoot搭建Echarts模块,对接EIasticSearch ,实现实时处理结果可视化项目三:宝贝格子日志采集系统软彳牛架构:Nginx + Flume + Hadoop项
10、目描述:该项目主要通过Nginx路由通过埋点发送过来的启动(浏览)日志、用户行为日志,然后写入日志系统,再通 过双层Flume采集日志系统上的日志数据到HDFS0责任描述:参与项目架构设计与搭建,以及后期的维护。技术要点:1 .基于Nginx反向代理,采用其默认的轮询负载均衡策略,实现日志数据分流,分别写入不同的日志服务器2 .使用双层Flume架构,第一层使用Taildir Source监控日志文件变化,第二层使用拦截器过滤不合法数据,并 根据日志数据的type进行分类,写入不同的HDFS文件3 .第一层 Flume 配置 Sink groups ,并设詈 processor.type 为 load_balance , processor.selector 为 round_robin4 .通过实现Interceptor接口自定义拦截器,然后打包拷贝到fumelib目录下5 .修改Flume源码,使Taildir Source完全支持Log4j日志自我评价1 .具有良好的沟通协作能力与学习能力,乐于分享2 .阅读过HadoOp、SPark源代码,修改过FlUme源码,有Hive、SPark调优经历,故障处理能力3 .有实际的大数据分布式项目经验,了解各个组件的适用场景,有离线、实时处理经验4 .积极主动,对新技术、新事物有很好的探索和求知欲