《大数据开发工程师求职简历模板_002.docx》由会员分享,可在线阅读,更多相关《大数据开发工程师求职简历模板_002.docx(4页珍藏版)》请在第一文库网上搜索。
1、大数据开发工程师-赵毅个人资料性 别:X手 机:XXXXX工作年限:3年姓名:XX学位:本科邮箱:XXXXXX求职意向工作性质:全职目标地点:北京期望职位:大数据开发工程帅专业技能1. 熟练使用MapReduce处理复杂业务,熟悉HDFS的读写流程、MapRcduce的运行流程以及Shuffle机制、Yarn的工作机制、Hadoop的优化手段以及Hadoop框架搭建过程。2. 熟悉Zookeeper的选举机制和监听机制。3. 熟悉HiVe的架构和调优策略,熟练使用Hive的开窗等函数处理业务问题。4. 熟练使用FIUnIC完成数据的采集、过滤、分流等功能,熟悉双层FlUme的使用。5. 熟悉K
2、afka的工作流程、能够搭建Kafka集群,使用Kafka和Spark进行数据的流式处理。6. 熟悉HBasc框架,会使用HBaSe的基本操作以及HBase调优。7. 熟练掌握SPark任务调度和资源调度过程,会使用SPark常用的RDD算子处理数据,能够独立完成SPark 集群的搭建,熟悉SPark的优化策略。8. 熟练使用DataSet和DataFrame算子和UDAF函数处理数据,熟练使用DStream算子完成流式实时数据的批次处理。9. 了解 EIaStiCSearCho10. 会使用Azkaban和Oozie批量工作流任务调度器。11. 会使用SqOoP工具,实现关系型数据库和非关系
3、型数据库表数据的交互。12. 熟练使用Java和Scala编程,了解Python编程。13. 了解MongoDB、RCdiS等非关系型数据库。14. 熟练掌握常用的LinUX命令,使用ShelI常用工具编写LinUX脚本。工作经历公司名称: 工作时间: 职位名称:项目经验XXXXX教育科技有限公司2015.07-至今大数据开发工程师项目名称:开发环境: 技术框架: 项目描述:东奥电商业务分析系统(2017.012019-02)IDEA + jdkl.8 + MySQL+ Maven + SVNSpringBoot-. Nginx、Flume- Hadoop. Hive、Spark、Sqoop,
4、 Azkaban通过对PC端和手机APP端用户产生的各类型日志经过一系列处理,形成各种报表,并且 将网站的品牌前十、每月畅销图书、每季热门名师、地区点击量排名等统计出来,提供给公司 的各大领导以及运营部门,提供参考,以便调整公司的发展方向。责任描述:1 .参与前期项目分析、设计系统整体架构。2 .编写shell脚本定期将flume-hdfs中的日志进行清洗并导入到hdfs中。3 .通过数据分层ODS、DWD. DWS. ADS,对东奥商城中活跃用户主题(日活、周活、月活)进 行编码以及每月畅销图书、课程、热门名师,商品复购率等,以及特定需求的分析报表。4 . hive数据仓库设计和维护,数据主
5、题的抽取,数据维度分析。5 .参与SPark的一些优化,如常规性能调优、ShUffIe调优、数据倾斜。6 .编写系统的需求分析、设计、开发和部署文档。技术要点:1 .整体架构使用了双层FIUme的拓扑结构,以实现容灾及负载均衡,保证数据的安全性。2 .将行式存储转为列式存储,因为列式存储查询效率高,并采用ParqUet为存储方式,为了 减少磁盘10、节约带宽;采用压缩格式为SnaPPy。3 .分析表的同步策略类型:例如用户表、商品表等实体表采用全量;订单明细、支付方式等 采用增量;订单表采用新增及变化,并使用SqOoP导入数据到HDFS中。4 .把每个用户单bl的操作聚合起来组成一张多列宽表,
6、以便之后关联用户维度信息后进行不 同角度的统计分析。5 .制作订单表拉链表,将新增变动与拉链表,先进行合并变动信息,再追加新增信息插入到 临时表中,然后覆盖拉链表,整理为每日脚本,查看任意一天的订单记录。6 .使用SPark共享变量机制,实现自定义累加器,并通过广播变量机制提升SPark任务的运 行性能。7 .使用SParkSQL、自定义二次排序、UDF函数、UDAF函数实现对课程、书籍以及教师ToPN 的统计。8 .本项目中SPark集群采用了 SortShUffie,通过产生一个RedUCerid排序可索引文件,大 大提高了文件内指定reduce数据的读速度。9 .项目中的SPark集群采
7、取了统一内存管理机制,一定程度上提高了堆内和堆外内存资源的 利用率。10 .为了避免在Spark的shuffle过程中出现数据倾斜问题,我们提高了 shuffle操作中的 reduce并行度。11 .项目中HiVe中,在map执行前合并小文件,并合理设置MaP数和RedUCe数,以防止导致 数据倾斜。12 .在查询的时候对于“ SELEcT * FROM* ”这种情况下,可以不用使用MaPRedUCe计算,所 以我们使用Fetch抓取来直接读取存储目录下的文件。项目名称:开发环境: 技术框架: 项目描述:东奥电商实时分析系统(2018.082019-01)IDEA + JDK +Tomcat+
8、Maven+GitNginx、 SpingBoot Kafka、 Redis、 Spark、 ElasticSearch, Canal、 EChart公司某一段时间会规划一个招生方案,为了了解每次每个招生方案的带来的价值,通过采 集日志分析当日活跃用户及分时趋势图以及通过Canal实时监控MySQL数据库获取当日交易 额、当日订单数及分时趋势图等。通过这些数据图来分析改进招生方案。责任描述:1 .使用JavaEE技术完成数据可视化。2 .参与项目分析以及数据埋点工作。3 .负责部分需求的开发。4 .负贲数据处理性能调优,时数据库整体架构提出建议。技术要点:L在日志服务器进行分流,将不同的的日志
9、类型发送到不同的Kafka的topic2 .消费Kafka的数据转化为DStream,利用RediS进行记录、过灌、去重,把当日的活跃用户 明细存入 Elasticsearcho3 .因为一些情况无法从日志中获取信息,而又无法利用Sqoop等ETL工具对数据实时的监控, 所以我们使用canal对mysql中的数据实时监控。4 . SparkStreaming 消费 Kafka 数据并保存到 Elasticsearch 中。5 .从Elasticsearch中查询数据,并通过接口发布出来。6 .使用Elasticsearch的第三方中文分析器和自定义词库。7 .利用Kafka的低级APl从Kaf
10、ka集群中读取数据,并且在Spark Streaming系统里面维护偏 移量offset相关的信息,并通过Direct方式实现零数据丢失。8 .在SPark过程中,设置了检查点(checkpoint)与数据持久化级别(MEMORY AND DISK),并将各个EXeCUtor中常用数据设为广播变量,从而提高了 SPark集群数据处理速度。项目名称:东奥聘离线日志分析系统(2017.122018.07)开发环境:技术框架:项目描述:责任描述:技术要点:IDEA + jdk + mysql + Maven+GitSpringBoot Nginx、Flume Hadoop、Hive、SparkSqo
11、op、Azkaban东奥聘主要是为了提供会计机会的招聘网站。东奥聘利息日志分析系统是通过网站的各种 用户的行为(访问行为、投递行为、注册登录行为等)进行统计分析,从而根据结果持续改进 产品的设计,以及调整公司的战略和业务。最终达到用大数据来帮助提升公司的业绩、营业额 以及市场占有率的目标。1 .负责项目的数据的埋点。2 .参与了数仓的建模。3 .根据公司数据量,确定数据同步策略。4 .对相关的部分需求的逻辑代码进行编写。1 .使用Git进行代码版本管理,使用markdown编写文档。2 .本项目中通过Nginx将日志数据负载均衡到多个Tomcat, Tomcat服务器通过log4j将日志数 据
12、写入日志文件中进行落盘,从而实现了业务系统与数据系统的解耦。3 .在ODS层选择ER实体模型为建模方式,进行粗粒度的数据存储;在DWD层进行数据的清 洗、脱敏、统一化等操作:在DWS层选择选择维度建模为建模方式,进行数据的轻度汇 总。4 .本项目中FhIme (版本1.6)采用TaildirSOUrCe实现断点续传,监控一个目录下多个文件, 但是文件重命名后被当做新文件重新采集,本项目通过对Taildir Source源码进行修改从而 解决该问题。5 .用SCaIa编写ETL程序对数据进行清洗、将脏数据过灌、清洗完导入到HiVe分区表中。6 .在进行维度建模时,根据公司的业务情况和数据量的具体
13、情况将数仓设计成星型模型,因为 数据不符合第三范式,有一定的亢余,减少了 JOin操作,提高了数据的查询效率。7 .使用FLUIne自定义拦截器,将日志写入到相应的event、hander实现日志的分类处理。8 .本项目使用了 Sink组,根据内部负载算法选择Sink,实现了 Sink负载均衡和容灾。9 .使用Azkaban定时对任务进行有顺序的调度。项目名称:东奥会计在线(2015.072016.12)开发环境:技术框架:项目描述:责任描述技术要点:IDEA+Tomcat+MYSQL+SVN+MavenSPringMVC、Spring、MyBatis, Redis、Memcache% Dub
14、bo MongoDBEcharts、EasyUIL 东奥电子商城分为前台后台两大系统,其中后台系统分为基库和电商后台,两个系统分别管理 着电商的基本信息和主要业务信息,后续主要维护电商后台。10 前台电商主要面向用户购物,换课、服务保障开课、开发票等,前台首页中的商品列表分 类,广告,推荐等都是用ajax动态获取,数据全部经过Hiemcached缓存,分解高并发带来的R 力。11 后台主要包括电商基础、商城管理、促销管理、卡卷管理、电商统计、分班管理、客服管 理、积分系统、电商数据、物流中转、买送卡卷促销、个人中心等。1 .订单管理相关开发和维护,并基于原有的退换货进行改造增加退款资金原理返回
15、的功能。2 .电商前台中订单详情和物流详情、图书赠卡激活的相关开发和维护。3 .完成核心/重要模块的关文档的编写。L使用Easyui进行管理后台的编写。4 .分析查询慢、数据量大的表适当添加索引优化查询效率。5 .使用Dubbo为不同业务提供分布式服务Il6 .使用MyBatis Generator生成实体表。7 .使用AjaX异步刷新页面C8 .使用MongDB存储购物车信息、商品上架信息、日志信息等。教育背景2011.09-2015.06XXX学院软件工程专业本科自我评价1、执行力强,有较好的沟通交流能力,能够迅速融入团队。2、热衷学习研究新技能,了解时下技术流行趋势和关注行业动向。3、具备良好的逻辑思维能力,对数据敏感,能够主动从运营数据或者系统日志中发现问题。4、具有严谨的工作态度与高质量意识,良好的抗压能力。