简历模板大数据开发工程师.docx

上传人:lao****ou 文档编号:122002 上传时间:2023-03-29 格式:DOCX 页数:2 大小:8.51KB
下载 相关 举报
简历模板大数据开发工程师.docx_第1页
第1页 / 共2页
简历模板大数据开发工程师.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《简历模板大数据开发工程师.docx》由会员分享,可在线阅读,更多相关《简历模板大数据开发工程师.docx(2页珍藏版)》请在第一文库网上搜索。

1、项目描述:根据用户的评分、喜好,书籍的类型来推荐给用户优质内容,提高用户的粘性、用户留存率、注册率、消费比率。责任描述:1 .参与项目需求分析讨论,架构设计。2 .参与SparkStreaming实时推荐模块,SparkMI ib算法选择,优化。3 .参与Spark系统调优工作。技术要点:1 .把书城数据库中的书籍,结合用户信息,建立倒排索引存入到ElasticSearch中,供用户进行搜索关键字词。2 .通过Spark-SQL书籍总阅读量排行榜,一个月内书籍阅读量排行榜,统计小说的平均得分,和每个类别小说的平均得分Top10o3 .基于sparkMIib (ALS)求解用户评分模型,用户特征

2、矩阵,产品特征矩阵,保存到MongoDB,实现离线推荐业务。4 .训练模型Model,创建Rat i ng类型的数据集(uid, mid, score), ALS. train方法。5 .计算小说相似度矩阵,从Model中拿到小说的特征矩阵,计算笛卡尔积并过滤掉自身,计算两个特征矩阵的余弦相似度。6 .考察预测评分,计算均方根误差,带入隐语义的rank, iterations, lambda,来找出均方根最少的值。7 .猜你喜欢,通过对用户对小说的评分、评论内容,计算用户推荐矩阵,预测用户评分列表。项目二:塔读文学实时统计分析软件架构:Kafka+ElasticSearch+Redis+Spa

3、rkStreaming+Canal开发环境:IDEA+JDK1.8+Scala +Maven +Git项目描述:基于SparkStreaming的流式计算,实时分析用户的行为,广告的点击,每个类别的访问量,统计从哪里引流下载,每个类别的销售额。责任描述:1 .参与项目需求分析讨论,架构设计。2 .负责实时数据分析,如广告流量实时统计。技术要点:1. 使用SparkStreaming消费Kafka中的数据,使用broadcast减少网络I0流。2. Transform, foreachRdd算子,该函数每一个批次调度一次,可以优化数据库的链接。3. RDD计算可以使用mapPart it ion

4、代替map算子,一次处理一个分区的数据。4. Redi s的链接客户端因为不能序列化,没办法在Dr iver端初始化,发送到每个Executor,可以使用Sea la的Lazy关键字修饰的变量,延迟初始化。5. Redis过滤重复设备,使用Redis的Set数据类型,可以去除重复数据。6. 通过设置SparkStreaming的步长,和窗口函数,每10分钟得到最近一小时数据。7. Canal的配置部署,canal实时监控MySQL的数据,指定每次获取的日志条数。发送到Kafka。8. ElasticSearch表的设计,安装使用IK分词器,构建分词检索服务。项目三:塔读文学数据采集与离线分析软

5、件架构:F1 ume+Zookeeper+Spark+HadoopHi ve+MySQI,开发环境:IDEA+JDK1. 8+Sca 1 a+Maven+Gi t+Azkaban项目描述:捕获用户每天的行为数据,和业务数据,生成业务日志文件,通过对业务日志文件清洗、聚合、分析,提取出需要的价值信息,对网站的良好运营和决策提供有价值的指标。责任描述:1 .参与项目需求分析讨论,架构设计。2 . Hive自定义函数编写,HQL语句编写。技术要点:1 .通过双层Flume技术对分布在各个业务服务器上的用户行为日志进行采集,设置Flume拦截器和选择器对数据进行简单分类(启动日志、行为日志),导入到H

6、DFS,根据日期放入到不同文件夹。2 . Sqoop导入用户的业务数据,根据MySQL的表数据大小,与变动频率,导入类型选择每日全量,每日增量,每日新增变动。导入到Hive,按日期partition。3 .使用Spark对0DS (原始数据层)数据清洗,去除异常字段,维度退化,制作拉链表。4 . DWS层主要包含对数据轻度聚合的表,把每个用户的单日操作聚合成一个宽表,为ADS层做准备。5 .为了查看不稳定用户转化成活跃用户,稳定用户的过程。查看活动的效果等等。每天用户留存数。6 .统计每日用户新增设备反映广告引流的效果,非注册转注册用户的用时,非付费转付费用户的用时,每日广告点击,单日收入。自我评价1 .参与过多个项目的开发,可以很好的融入团队。2 .逻辑思维能力强,思路清晰,有很好的理解学习能力。3 .对工作尽职尽责,乐于与同事和领导沟通。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服