《求职简历模板—大数据开发工程师.docx》由会员分享,可在线阅读,更多相关《求职简历模板—大数据开发工程师.docx(3页珍藏版)》请在第一文库网上搜索。
1、个人简历令个人信息姓名:XXX工作经验:X年性别:X英语水平:CET-6学历:本科联系电话:XXXXXX毕业学校:XX大学电子邮箱:XXXXXXX令求职意向目标职能:大数据开发工程师目标地点:上海目前状态:离职,可立即上岗目标薪资:面议Q工作经历单位名称:XXXXXX有限公司职位名称:大数据开发工程师工作时间:2017年7月至今令专业技能A熟练使用Java,SCaIa编程语言进行大数据开发,有良好的编码习惯 熟悉HadooP核心技术,包括MaPRedUCe工作原理,ShUff1e机制,HadOoP优化方案 能熟练应用Kafka框架,理解Kafka生产消费流程,了解高低阶消费者模式并且掌握Kaf
2、ka的高可靠性存储 掌握Hbase核心架构,了解Hbase读写数据流程,理解数据刷写及合并过程,掌握RowKey的设计原则能够解决热点数据问题 熟悉SPark工作机制及其ShUffIe过程,掌握SPark算子的应用,熟悉SPark性能调优,可以解决数据倾斜等常见问题 熟悉JVM内存结构,简单理解GC策略及其工作原理 了解Redis数据库RDB和AOF持久化机制,理解哨兵模式工作原理以及数据存储方式,开发中能够正常应用Redis存储数据 熟练使用FhIme的基本架构搭建分布式数据框架,采集日志用于离线分析 能熟练使用Hive进行数据统计,了解Hive的架构原理,能够应用HQ1处理业务需求,并有一
3、定的HiVe调优经验 熟练在1inux操作系统进行项目开发,能够编写She11脚本 能够使用Azkaban工作流调度框架完成离线任务的调度,并且可以使用Sqoop在数据库和HDFS之间的导入和导出 熟悉分布式服务管理框架Zookeeper的内部原理及其分布式安装部署 理解E1asticSearch的分词及其索引查询,了解基本操作可以将业务数据存储和查询项目经验 项目名称:可可宝贝数仓分析开发环境:IDEA+JDK+Maven+Git项目架构:Nginx,F1ume,HDFS,Hive,Spark,Sqoop项目描述:该项目是对针对用户在客户端产生的基本用户信息,收藏点赞等行为数据,经过离线采集
4、,存储和分析来实现用户日活,用户留存,TOPN热门视频等需求。数据来源分别由日志系统和业务系统提供,日志系统的数据由双层F1ume架构采集,业务数据由数据库通过Sqoop导出,两种类型的数据存储到HDFS。通过Hive的分层管理,由Spark和HQ1对不同类型的数据表压缩,清洗,降维,聚合等将HDFS上的数据以不同层级业务表的形式存储,最后提供需求报表。责任描述:1 .项目需求分析及采集架构的设计2 .数仓中数据模型的搭建和管理3 .分析实现活跃用户主题的需求技术点总结:1项目采用双层F1Ume,第一层3台FIUme负责日志采集接收,第二层2台FIUme将接收到的数据发送到HDFS上4 .自定
5、义拦截器类型,用来判断EVent中的消息类型,过滤对不同数据类型交给选择器处理5 .F1ume中选择器选用Mu1tip1exingSeIeCtor,将过滤后的数据通过选择器分发到Channe14.笫一层F1ume的Source选择上,考虑到宕机问题以及采取数据的稳定性,选用Tai1dir来解决数据连续性问题6 .数仓分层Ods,Dwd,Dws,Ads对不同数据进行不同阶段处理,为了有一个清晰的数据结构,并且考虑中间数据是否会重复计算问题7 .存储格式选择列式存储,压缩格式上OdS层可以使用GZiP压缩,Dwd,DWS层可以使用Snappy8 .HQ1查询利用Datjformat,Next_da
6、y,Datediff等相关日期函数实现周活和月活9 .应用数据同步策略,将实体表,维度表采取增量表,全量表和拉链表统计记录数据9.Sqoop通过对将要处理的数据批量从数据库导出到Hive中的分层库中10 .通过数据建模理论,对数仓中的数据采用多冗余,低范式构建星型模型,减少关联查询11 .指定用户中间行为宽表,以便关联用户维度信息后及进行不同角度的统计分析,制作拉链表来维护历史业务信息项目名称:可可宝贝实时分析开发环境:IDEA+JDK+Maven+Git项目架构:Nginx,Kafka,Mysq1,Cana1,SparkE1asticSearch,Redis项目描述:该项目分为采集存储,实时
7、分析,页面发布3个阶段。消息来源通过日志系统发布和CaneI对数据库的实时监控,由Kafka接收并存储。分析阶段通过SParkStreaming对Kafka的实时消费将中间数据持久化到RediS中,去重后保存EIaStiCSearch;通过发布数据接口由Web端对接进行展示实时数据变化。责任描述:1 .参与实时统计架构的设计以及采集框架的构建2 .设计SparkStreaming交互数据库的优化策略3 .搭建E1asticSearch集群4 .参与日活需求的实时统计及其分析技术点总结:1 .客户端发送过来的数据通过Nginx接收并分发到日志服务器2 .消息采集框架用Kafka,负责接收日志系统
8、发送的消息,为实时分析数据做准备3 .消息来源一部分通过日志系统发送,另一方面由Canne1对Mysq1中的数据实时监控存到Kafka4 .为保证数据的一致性,Mysq1的Bin1og的格式选用Row5 .Kafka对接SparkStreaming,并且手动维护OffSe3将数据写入Redis去重并保存到Redis6.将去重后的数据通过BUIk批量保存到E1asticSearch中7.E1asticSearch中的分词器准备中文分词器Ik_max_word并且自定义词库项目名称:可可同步提分课堂推荐系统开发环境:IDEA+JDK+Maven+Git+Sca1a项目架构:F1ume,Kafka,
9、Spark,Redis,E1asticSearch项目描述:该项目为英语教学视频的实时推荐系统,通过用户对免费视频和付费视频的行为信息,推荐出合适的电影增加收益。系统架构分为近线,离线和实时3个模块,首先近线通过APP收集到的用户,内容以及行为操作等日志信息通过内容检索后加载到E1asticSearcho离线部分由SPark对数据库中己有数据进行统计指标和类别等信息为统计推荐服务构建中间表;离线推荐由A1S算法训练隐语义模型和基于内容推荐转化用户推荐列表并保存相似矩阵。最后实时模块通过采集实时数据由SparkStreaming计算推荐优先级将推荐列表写入数据库完成推荐。责任描述:1 .参与系统
10、模块的架构的设计2 .数据中间表的设计3 .参与Spark离线计算的优化4 .离线推荐A1S算法的实现技术点总结:1Spark离线计算原始数据并持久化到数据库中来解决冷启动问题2 .通过将中间数据进行缓存操作,对数据矩阵广播等方式来优化Spark计算效率3 .日志采集服务框架选取F1ume,Kafka作为消息服务框架实时读取F1utne收集到的日志信息,被SparkStreaming消费4 .应用A1S推荐算法训练隐语义模型,计算评分矩阵,转化用户推荐列表,实现离线推荐业务,根据隐语义特征计算相识度矩阵,并将相似度矩阵做倒排索引保存到E1asticSearch5 .通过Rmse的最小误差和调整A1S算法参数来确定训练集和测试集最优比例6 .应用笛卡尔积和余弦定理过滤出余弦相似度高的特征矩阵保存到RediS7 .利用相似度矩阵获取备选列表,并计算备选列表的推荐优先级保存到E1asticSearch