求职简历模板大数据开发工程师_001.docx

资源描述

《求职简历模板大数据开发工程师_001.docx》由会员分享，可在线阅读，更多相关《求职简历模板大数据开发工程师_001.docx（3页珍藏版）》请在第一文库网上搜索。

1、XXX大数据开发工程师姓名：XXXX学历：本科性别：男毕业院校：XXXX大学工作经验：3年户籍/所在：XXX联系电话：XXXXXXXXXX电子邮箱：XXXXX求职意向工作性质：全职工作地点：北京目标职位：大数据开发工程师目标薪资：面议工作经历2015. 092019. 02XXXXXXXXX有限公司大数据开发工程师专业技能1 .熟练使用SParkCore, SparkSQL, SParkStreaming编程，理解SPark工作机制，任务提交，执行流程。熟悉 SPark调优策略。2 .熟练使用Sca I a和Java编程，IDEA工具。3 .熟练使用Kafka,实现大数据集群，Kafka消费者

2、高低级APl的区别。4,熟练掌握HadOop, HDFS, MaPRedUCe工作机制，运行原理，MR调优，搭建，部署。5,熟练使用UDF, UDAF和开窗函数等处理数据，理解HQL语句执行流程，以及相应优化措施。6 .熟练使用FIUrne,数据采集，基于多FIUme拓扑结构，搭建分布式、双层FlUme。7 .熟练使用MaVen自动构建项目和项目模块化管理。8 .熟悉IinUX开发环境，熟练掌握基础的I inux命令，编写基础的she I I脚本。9 .熟悉ZOoKeePer选举机制和监听器。10 .熟练使用 CrOntab, Azkaban, Git,熟悉 OOZie, SqOOP 等开发工

3、具。11 .熟悉redis应用经验，能基本使用其中redis JavaAPIo项目经历项目一：塔读文学推荐系统软件架构：Kafka+ElasticSearch+Redis+SparkStreaming+MongoDB开发环境：1DE+JDK1. 8+Scala +Maven +Git项目描述:根据用户的评分、喜好，书籍的类型来推荐给用户优质内容，提高用户的粘性、用户留存率、注册率、消费比率。责任描述：1 .参与项目需求分析讨论，架构设计。2 .参与SParkStreaming实时推荐模块，SParkMlib算法选择，优化。3 .参与Spark系统调优工作。技术要点：1 .把书城数据库中的书籍

4、，结合用户信息，建立倒排索引存入到EIaStiCSearCh中，供用户进行搜索关键字词。2 .通过SPark-SQL书籍总阅读量排行榜，一个月内书籍阅读量排行榜，统计小说的平均得分，和每个类别小说的平均得分ToPI 0。3 .基于SparkMIib (ALS)求解用户评分模型，用户特征矩阵，产品特征矩阵，保存到MongoDB,实现离线推荐业务。4 .训练模型MOdeI,创建Rating类型的数据集(uid, mid, score), ALS. train方法。5 .计算小说相似度矩阵，从Model中拿到小说的特征矩阵，计算笛卡尔积并过滤掉自身，计算两个特征矩阵的余弦相似度。6 .考察预

5、测评分，计算均方根误差，带入隐语义的rank. iterations, lambda,来找出均方根最少的值。7 .猜你喜欢，通过对用户对小说的评分、评论内容，计算用户推荐矩阵，预测用户评分列表。项目二：塔读文学实时统计分析软件架构：Kafka+ElasticSearch+Redis+SparkStreami ng+Canal开发环境：IDEA+JDKL8+Scala +Maven +Git项目描述：基于SParkStreaming的流式计算，实时分析用户的行为，广告的点击，每个类别的访问量，统计从哪里引流下载，每个类别的销售额。责任描述：1 .参与项目需求分析讨论，架构设计。2 .负责实时数

6、据分析，如广告流量实时统计。技术要点：1. 使用SParkStreaming消费Kafka中的数据，使用broadcast减少网络IO流。2. Transform, ForeachRdd算子，该函数每一个批次调度一次，可以优化数据库的链接。3. RDD计算可以使用mapPartit ion代替map算子，一次处理一个分区的数据。4. Redis的链接客户端因为不能序列化,没办法在Dr iver端初始化,发送到每个Executor,可以使用ScaIa的LaZy关键字修饰的变量，延迟初始化。5. RediS过滤重复设备，使用RediS的Set数据类型，可以去除重复数据。6. 通过设置SParkSt

7、reaming的步长，和窗口函数，每10分钟得到最近一小时数据。7. Canal的配置部署，Canal实时监控MySQL的数据，指定每次获取的日志条数。发送到Kafka。8. EIaStiCSearCh表的设计，安装使用IK分词器，构建分词检索服务。项目三：塔读文学数据采集与离线分析软件架构：Flume+Zookeeper+Spark+Hadoop+Hive+MySQL开发环境：IDEA+JDKl. 8+Scala+Maven+Gi t+Azkaban项目描述：捕获用户每天的行为数据，和业务数据，生成业务日志文件，通过对业务日志文件清洗、聚合、分析，提取出需要的价值信息，对网站的良好运营和决

8、策提供有价值的指标。责任描述：1 .参与项目需求分析讨论，架构设计。2 . HiVe自定义函数编写，HQL语句编写。技术要点：1 .通过双层Flume技术对分布在各个业务服务器上的用户行为日志进行采集，设置Flume拦截器和选择器对数据进行简单分类（启动日志、行为日志），导入到HDFS,根据日期放入到不同文件夹。2 . SqooP导入用户的业务数据，根据MySQL的表数据大小，与变动频率，导入类型选择每日全量，每日增量，每日新增变动。导入到Hive,按日期PartitiOn。3 .使用SPark对ODS （原始数据层）数据清洗，去除异常字段，维度退化，制作拉链表。4 . DWS层主要包含对数据轻度聚合的表，把每个用户的单日操作聚合成一个宽表，为ADS层做准备。5 .为了查看不稳定用户转化成活跃用户，稳定用户的过程。查看活动的效果等等。每天用户留存数。6 .统计每日用户新增设备反映广告引流的效果，非注册转注册用户的用时，非付费转付费用户的用时，每日广告点击，单日收入。自我评价1 .参与过多个项目的开发，可以很好的融入团队。2 .逻辑思维能力强，思路清晰，有很好的理解学习能力。3 .对工作尽职尽责，乐于与同事和领导沟通。

展开阅读全文