《求职简历模板—大数据开发工程师.docx》由会员分享,可在线阅读,更多相关《求职简历模板—大数据开发工程师.docx(3页珍藏版)》请在第一文库网上搜索。
1、个人简历令个人信息姓 名:XXX工作经验:X年性 别:X英语水平:CET-6学 历:本科联系电话:XXXXXX毕业学校:XX大学电子邮箱:XXXXXXX令求职意向目标职能:大数据开发工程师目标地点:上海目前状态:离职,可立即上岗目标薪资:面议Q工作经历单位名称:XXXXXX有限公司职位名称:大数据开发工程师工作时间:2017年7月至今令专业技能A 熟练使用Java, SCaIa编程语言进行大数据开发,有良好的编码习惯 熟悉HadooP核心技术,包括MaPRedUCe工作原理,ShUffle机制,HadOoP优化方案 能熟练应用Kafka框架,理解Kafka生产消费流程,了解高低阶消费者模式并且
2、掌握 Kafka的高可靠性存储 掌握Hbase核心架构,了解Hbase读写数据流程,理解数据刷写及合并过程,掌握 RowKey的设计原则能够解决热点数据问题 熟悉SPark工作机制及其ShUffIe过程,掌握SPark算子的应用,熟悉SPark性能调优, 可以解决数据倾斜等常见问题 熟悉JVM内存结构,简单理解GC策略及其工作原理 了解Redis数据库RDB和AOF持久化机制,理解哨兵模式工作原理以及数据存储方式, 开发中能够正常应用Redis存储数据 熟练使用FhIme的基本架构搭建分布式数据框架,采集日志用于离线分析 能熟练使用Hive进行数据统计,了解Hive的架构原理,能够应用HQL处
3、理业务需求, 并有一定的HiVe调优经验 熟练在Linux操作系统进行项目开发,能够编写Shell脚本 能够使用Azkaban工作流调度框架完成离线任务的调度,并且可以使用Sqoop在数据 库和HDFS之间的导入和导出 熟悉分布式服务管理框架Zookeeper的内部原理及其分布式安装部署 理解ElasticSearch的分词及其索引查询,了解基本操作可以将业务数据存储和查询项目经验 项目名称:可可宝贝数仓分析开发环境:IDEA + JDK + Maven + Git项目架构:Nginx, Flume, HDFS, Hive, Spark, Sqoop项目描述:该项目是对针对用户在客户端产生的基
4、本用户信息,收藏点赞等行为数据,经过离 线采集,存储和分析来实现用户日活,用户留存,TOPN热门视频等需求。数据来源分 别由日志系统和业务系统提供,日志系统的数据由双层Flume架构采集,业务数据由 数据库通过Sqoop导出,两种类型的数据存储到HDFS。通过Hive的分层管理,由Spark 和HQL对不同类型的数据表压缩,清洗,降维,聚合等将HDFS上的数据以不同层级 业务表的形式存储,最后提供需求报表。责任描述:1 .项目需求分析及采集架构的设计2 .数仓中数据模型的搭建和管理3 .分析实现活跃用户主题的需求技术点总结:L项目采用双层FlUme,第一层3台FIUme负责日志采集接收,第二层
5、2台FIUme将接 收到的数据发送到HDFS上4 .自定义拦截器类型,用来判断EVent中的消息类型,过滤对不同数据类型交给选择器 处理5 .Flume中选择器选用Multiplexing SeIeCtor,将过滤后的数据通过选择器分发到Channel 4.笫一层Flume的Source选择上,考虑到宕机问题以及采取数据的稳定性,选用Taildir 来解决数据连续性问题6 .数仓分层Ods, Dwd, Dws, Ads对不同数据进行不同阶段处理,为了有一个清晰的 数据结构,并且考虑中间数据是否会重复计算问题7 .存储格式选择列式存储,压缩格式上OdS层可以使用GZiP压缩,Dwd, DWS层可
6、以 使用Snappy8 .HQL查询利用Datjformat, Next_day, Datediff等相关日期函数实现周活和月活9 .应用数据同步策略,将实体表,维度表采取增量表,全量表和拉链表统计记录数据 9.Sqoop通过对将要处理的数据批量从数据库导出到Hive中的分层库中10 .通过数据建模理论,对数仓中的数据采用多冗余,低范式构建星型模型,减少关联 查询11 .指定用户中间行为宽表,以便关联用户维度信息后及进行不同角度的统计分析,制 作拉链表来维护历史业务信息 项目名称:可可宝贝实时分析开发环境:IDEA + JDK + Maven + Git项目架构:Nginx, Kafka, M
7、ysql, Canal, Spark ElasticSearch, Redis项目描述:该项目分为采集存储,实时分析,页面发布3个阶段。消息来源通过日志系统发布 和CaneI对数据库的实时监控,由Kafka接收并存储。分析阶段通过SParkStreaming对 Kafka的实时消费将中间数据持久化到RediS中,去重后保存EIaStiCSearch;通过发布 数据接口由Web端对接进行展示实时数据变化。责任描述:1 .参与实时统计架构的设计以及采集框架的构建2 .设计SparkStreaming交互数据库的优化策略3 .搭建 ElasticSearch 集群4 .参与日活需求的实时统计及其分析
8、技术点总结:1 .客户端发送过来的数据通过Nginx接收并分发到日志服务器2 .消息采集框架用Kafka,负责接收日志系统发送的消息,为实时分析数据做准备3 .消息来源一部分通过日志系统发送,另一方面由Cannel对Mysql中的数据实时监控 存到Kafka4 .为保证数据的一致性,Mysql的Binlog的格式选用Row5 . Kafka对接SparkStreaming,并且手动维护OffSe3将数据写入Redis去重并保存到Redis 6.将去重后的数据通过BUIk批量保存到ElasticSearch中7.ElasticSearch中的分词器准备中文分词器Ik_max_word并且自定义词
9、库项目名称:可可同步提分课堂推荐系统开发环境:IDEA + JDK + Maven + Git + Scala项目架构:Flume, Kafka, Spark, Redis, ElasticSearch项目描述:该项目为英语教学视频的实时推荐系统,通过用户对免费视频和付费视频的行为信 息,推荐出合适的电影增加收益。系统架构分为近线,离线和实时3个模块,首先近线 通过APP收集到的用户,内容以及行为操作等日志信息通过内容检索后加载到 ElasticSearch o离线部分由SPark对数据库中己有数据进行统计指标和类别等信息为 统计推荐服务构建中间表;离线推荐由ALS算法训练隐语义模型和基于内容
10、推荐转化 用户推荐列表并保存相似矩阵。最后实时模块通过采集实时数据由SparkStreaming计算 推荐优先级将推荐列表写入数据库完成推荐。责任描述:1 .参与系统模块的架构的设计2 .数据中间表的设计3 .参与Spark离线计算的优化4 .离线推荐ALS算法的实现技术点总结:LSpark离线计算原始数据并持久化到数据库中来解决冷启动问题2 .通过将中间数据进行缓存操作,对数据矩阵广播等方式来优化Spark计算效率3 .日志采集服务框架选取Flume, Kafka作为消息服务框架实时读取Flutne收集到的日 志信息,被SparkStreaming消费4 .应用ALS推荐算法训练隐语义模型,计算评分矩阵,转化用户推荐列表,实现离线 推荐业务,根据隐语义特征计算相识度矩阵,并将相似度矩阵做倒排索引保存到 ElasticSearch5 .通过Rmse的最小误差和调整ALS算法参数来确定训练集和测试集最优比例6 .应用笛卡尔积和余弦定理过滤出余弦相似度高的特征矩阵保存到RediS7 .利用相似度矩阵获取备选列表,并计算备选列表的推荐优先级保存到ElasticSearch