求职简历模板—大数据开发工程师.docx

资源描述

《求职简历模板—大数据开发工程师.docx》由会员分享，可在线阅读，更多相关《求职简历模板—大数据开发工程师.docx（3页珍藏版）》请在第一文库网上搜索。

1、个人简历令个人信息姓名：XXX工作经验：X年性别：X英语水平：CET-6学历：本科联系电话：XXXXXX毕业学校：XX大学电子邮箱：XXXXXXX令求职意向目标职能：大数据开发工程师目标地点：上海目前状态：离职，可立即上岗目标薪资：面议Q工作经历单位名称：XXXXXX有限公司职位名称：大数据开发工程师工作时间：2017年7月至今令专业技能A 熟练使用Java, SCaIa编程语言进行大数据开发，有良好的编码习惯熟悉HadooP核心技术，包括MaPRedUCe工作原理，ShUffle机制，HadOoP优化方案能熟练应用Kafka框架，理解Kafka生产消费流程，了解高低阶消费者模式并且

2、掌握 Kafka的高可靠性存储掌握Hbase核心架构，了解Hbase读写数据流程，理解数据刷写及合并过程，掌握 RowKey的设计原则能够解决热点数据问题熟悉SPark工作机制及其ShUffIe过程，掌握SPark算子的应用，熟悉SPark性能调优，可以解决数据倾斜等常见问题熟悉JVM内存结构，简单理解GC策略及其工作原理了解Redis数据库RDB和AOF持久化机制,理解哨兵模式工作原理以及数据存储方式, 开发中能够正常应用Redis存储数据熟练使用FhIme的基本架构搭建分布式数据框架，采集日志用于离线分析能熟练使用Hive进行数据统计，了解Hive的架构原理，能够应用HQL处

3、理业务需求, 并有一定的HiVe调优经验熟练在Linux操作系统进行项目开发，能够编写Shell脚本能够使用Azkaban工作流调度框架完成离线任务的调度，并且可以使用Sqoop在数据库和HDFS之间的导入和导出熟悉分布式服务管理框架Zookeeper的内部原理及其分布式安装部署理解ElasticSearch的分词及其索引查询，了解基本操作可以将业务数据存储和查询项目经验项目名称：可可宝贝数仓分析开发环境：IDEA + JDK + Maven + Git项目架构：Nginx, Flume, HDFS, Hive, Spark, Sqoop项目描述：该项目是对针对用户在客户端产生的基

4、本用户信息，收藏点赞等行为数据，经过离线采集，存储和分析来实现用户日活，用户留存，TOPN热门视频等需求。数据来源分别由日志系统和业务系统提供，日志系统的数据由双层Flume架构采集，业务数据由数据库通过Sqoop导出，两种类型的数据存储到HDFS。通过Hive的分层管理，由Spark 和HQL对不同类型的数据表压缩，清洗，降维，聚合等将HDFS上的数据以不同层级业务表的形式存储，最后提供需求报表。责任描述：1 .项目需求分析及采集架构的设计2 .数仓中数据模型的搭建和管理3 .分析实现活跃用户主题的需求技术点总结：L项目采用双层FlUme,第一层3台FIUme负责日志采集接收，第二层

5、2台FIUme将接收到的数据发送到HDFS上4 .自定义拦截器类型，用来判断EVent中的消息类型，过滤对不同数据类型交给选择器处理5 .Flume中选择器选用Multiplexing SeIeCtor,将过滤后的数据通过选择器分发到Channel 4.笫一层Flume的Source选择上，考虑到宕机问题以及采取数据的稳定性，选用Taildir 来解决数据连续性问题6 .数仓分层Ods, Dwd, Dws, Ads对不同数据进行不同阶段处理，为了有一个清晰的数据结构，并且考虑中间数据是否会重复计算问题7 .存储格式选择列式存储，压缩格式上OdS层可以使用GZiP压缩，Dwd, DWS层可

6、以使用Snappy8 .HQL查询利用Datjformat, Next_day, Datediff等相关日期函数实现周活和月活9 .应用数据同步策略，将实体表，维度表采取增量表，全量表和拉链表统计记录数据 9.Sqoop通过对将要处理的数据批量从数据库导出到Hive中的分层库中10 .通过数据建模理论，对数仓中的数据采用多冗余，低范式构建星型模型，减少关联查询11 .指定用户中间行为宽表，以便关联用户维度信息后及进行不同角度的统计分析，制作拉链表来维护历史业务信息项目名称：可可宝贝实时分析开发环境：IDEA + JDK + Maven + Git项目架构：Nginx, Kafka, M

7、ysql, Canal, Spark ElasticSearch, Redis项目描述：该项目分为采集存储，实时分析，页面发布3个阶段。消息来源通过日志系统发布和CaneI对数据库的实时监控，由Kafka接收并存储。分析阶段通过SParkStreaming对 Kafka的实时消费将中间数据持久化到RediS中，去重后保存EIaStiCSearch；通过发布数据接口由Web端对接进行展示实时数据变化。责任描述：1 .参与实时统计架构的设计以及采集框架的构建2 .设计SparkStreaming交互数据库的优化策略3 .搭建 ElasticSearch 集群4 .参与日活需求的实时统计及其分析

8、技术点总结：1 .客户端发送过来的数据通过Nginx接收并分发到日志服务器2 .消息采集框架用Kafka,负责接收日志系统发送的消息，为实时分析数据做准备3 .消息来源一部分通过日志系统发送，另一方面由Cannel对Mysql中的数据实时监控存到Kafka4 .为保证数据的一致性，Mysql的Binlog的格式选用Row5 . Kafka对接SparkStreaming,并且手动维护OffSe3将数据写入Redis去重并保存到Redis 6.将去重后的数据通过BUIk批量保存到ElasticSearch中7.ElasticSearch中的分词器准备中文分词器Ik_max_word并且自定义词

9、库项目名称：可可同步提分课堂推荐系统开发环境：IDEA + JDK + Maven + Git + Scala项目架构：Flume, Kafka, Spark, Redis, ElasticSearch项目描述：该项目为英语教学视频的实时推荐系统,通过用户对免费视频和付费视频的行为信息，推荐出合适的电影增加收益。系统架构分为近线，离线和实时3个模块，首先近线通过APP收集到的用户，内容以及行为操作等日志信息通过内容检索后加载到 ElasticSearch o离线部分由SPark对数据库中己有数据进行统计指标和类别等信息为统计推荐服务构建中间表；离线推荐由ALS算法训练隐语义模型和基于内容

10、推荐转化用户推荐列表并保存相似矩阵。最后实时模块通过采集实时数据由SparkStreaming计算推荐优先级将推荐列表写入数据库完成推荐。责任描述：1 .参与系统模块的架构的设计2 .数据中间表的设计3 .参与Spark离线计算的优化4 .离线推荐ALS算法的实现技术点总结：LSpark离线计算原始数据并持久化到数据库中来解决冷启动问题2 .通过将中间数据进行缓存操作，对数据矩阵广播等方式来优化Spark计算效率3 .日志采集服务框架选取Flume, Kafka作为消息服务框架实时读取Flutne收集到的日志信息，被SparkStreaming消费4 .应用ALS推荐算法训练隐语义模型，计算评分矩阵，转化用户推荐列表，实现离线推荐业务，根据隐语义特征计算相识度矩阵，并将相似度矩阵做倒排索引保存到 ElasticSearch5 .通过Rmse的最小误差和调整ALS算法参数来确定训练集和测试集最优比例6 .应用笛卡尔积和余弦定理过滤出余弦相似度高的特征矩阵保存到RediS7 .利用相似度矩阵获取备选列表，并计算备选列表的推荐优先级保存到ElasticSearch

展开阅读全文