《求职简历模板大数据研发工程师简历.docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据研发工程师简历.docx(4页珍藏版)》请在第一文库网上搜索。
1、大数据研发工程师简历性另I:X年龄:XX联系电话:XXXX薪资要求:面议姓名:XX毕业院校:XX大学(一本)目前城市:北京E-mai1:asy_huyueH应聘方向工作性质全职应聘职位:大数据研发工程师求职地点:北京H工作经历单位名称XXXXXX商务有限公司职位名称大数据研发工程师工作时间2016.5-2019.2H职业技能1 .熟练掌握HadoopHdfs存储流程,Yarn调度机制,MapReduce工作原理,高可用部署,mr运行性能调优。2 .熟练掌握hive数仓结构,熟练HQ1开窗及UDTF函数应用,熟悉HQ1优化执行手段。、3 .熟练掌握f1ume,有使用多层F1Ume搭建高可用和容灾
2、架构的经验。4 .熟练使用Sqoop将数据在Hdfs和关系型数据库之间转移。5 .熟练使用Kafka实现分布式,大吞吐集群,熟悉Kafka高低阶API差别,掌握Kafka一致性机制以及一次性语意。6 .熟练使用SParkCore,SparkSqISParkStreaming编码,涉及过SParkM11ib编程,熟悉Spark任务提交执行流程及内存调优。7 .熟练使用Sca1a,Java8进行业务代码编写。8 .熟练使用1in11X操作系统,能够编写SheI1脚本。9 .熟练使用Crontab,AZkaban进行任务调度。10 .理解HbaSe数据存储原理,有处理过HRegiOn热点问题,ROW
3、key设计等开发设计经验。11 .熟练使用Mysq1数据库操作,以及使用RediS做缓存处理。12 .了解日asticsearch搜索引擎及MongoDB数据库基本操作。B项目经历项目一:猎趣电商分析系统软件架构:Nginx+F1ume+ZookeeperSpark+Hadoop+Spingboot+Hive+Mysq1开发环境:IDEA+JDK1.8+Maven+Git项目描述:该项目通过对电商网站的用户行为数据进行埋点,根据平台统计数据,辅助PM和后端人员分析现有的产品情况,并根据用户行为数据分析的结果来改善展示以及调整公司的战略和业务。责任描述:1 .参与项目需求分析,负责相关模块搭建。
4、2 .采用双层F1Ume架构构建日志采集模块。3 .通过对用户行为数据分析,统计相关指标。4 .活跃用户统计:以设备为单位作为单用户标识,通过脚本每日从dwd层中统计以前日为基准的日活,周活,月活的设备明细存入dws层。然后通过脚本每日计算日活,周活,月活的设备总数进入ads层存储。5 .用户沉默流失统计:通过对dws层用户行为宽表分析,计算出7日无点击行为的用户作为沉默用户,30日内无点击行为的用户作为流失用户,存入ads层。技术要点:1 .为了方便对数据的管理与统计,将数据仓库分为ods,dwd,dws,ads四层。2 .通过CrOntab每日运行She11脚本将hdfs中采集的数据读入H
5、iVe,进入OdS层。3 .每日从OdS层读取相关业务数据进行简单的ET1清洗并存入dwd层。4 .根据表结构,数据量选用不同的数据同步策略,如对于每日订单明细,因考虑到数据量较大以及后续不会变化,可以作成每日增量表,对于用户表,考虑到用户信息可能改变,可以作成用户信息拉链表,以便查询具体某时间点的用户信息。5 .为实现数仓的数据冗余,方便进行查询,将维度表进行退化,贴近星型模型。6 .使用SParkRDD算子完成一些较难用HQ1直接处理的业务,如计算页面转化率。项目二:猎趣app数据统计平台软件架构:F1ume+Kafka+Zookeeper+Spark+MySQ1+E1asticSearc
6、h+Springboot+Redis+Echarts开发环境:IDEA+JDK1.8+Maven+G计+Sca1a项目描述:该项目通过对用户明细数据进行处理,计算用户分时活跃和新增以及当日交易额和订单数的分时趋势,最终由前端使用EChartS制成饼状图展示给用户。对广告点击量采用流式处理实时分析,统计各区域热门广告,计算近一小时内广告点击量趋势。责任描述:1 .参与项目需求分析,负责相关模块搭建。2 .参与SParkStreaming实时计算模块,统计需求处理。3 .参与SPark系统调优。技术要点:1 .构建Kafka集群对F1ume数据收容,对接SparkStreaming进行消费,使用K
7、afka低阶API,手动对OffSet进行维护并保存至ZOOkeeper,采用EXaCt1yone精确一次性语意实现数据传输的可靠性及速率保证。2 .将活跃用户数据先存放入RediS中进行缓存,并在SParkStreaming中对每条数据进行过滤,去除RediS中已有的用户。3 .将最终结果放入EIasticSearch,保证容量的前提下,且能保证不错的交互性,并且可以使用倒排索引进行全文检索。4 .使用Cana1对MySQ1订单表元数据进行实时监控,数据通过Kafka传输,采用SparkStreaming对Kafka数据进行实时消费,最终将结果数据放入E1aStiCSearChC5 .EIa
8、sticSearch采用max_word的IK分词器进行倒排索引。6 .优化SPark执行效率,将需要多次使用的RDD持久化处理,对于多节点需要的较大的数据可以采用广播变量,加快数据计算。项目三:电商日志采集系统软件架构:Nginx+F1ume+Hadoop开发环境:IDEA+JDK1.8+Maven+Git项目描述:用户行为数据是数据分析的主要指标,为了保证数据采集的可靠和高效,尽可能减少数据传输过程中的丢包情况,采用双层F1ume架构。责任描述:1 .参与项目讨论和搭建。2 .构建双层F1Ume架构。技术要点:1 .Nginx是一个高性能的Web和反向代理服务器,具有较强的并发处理能力,项
9、目中采用Nginx+Tomocat做H志数据采集。2 .使用双层F1ume架构对日志数据采集和分流。3 .项目中一层FI1Ime选用Tai1dirSOUrce,用于实时监控日志文件变化,并记录偏移量可以实现断点续传,选用SinkGroups的1oad_ban1ance策略实现高可用,,采用AvroSink传入数据到下一层F1umeo4 .二层F1I1me选用AvroSource,自定义拦截器将event中的内容根据类型进行筛选,配合Channe1选择器(MI11tPIeXing)进行分流,放入header中,。5 .最终的日志数据根据类型通过二层FIUme的hdfssink存入HadooP集群中,进行日志落盘。B自我评价1 .积极乐观,能够在遇到困难时保持不急躁,冷静面对。2 .乐于沟通,善于同同事协商处理问题。3 .对新事物充满兴趣,享受攻克难题后的喜悦。