简历模板大数据开发工程师.docx

上传人:lao****ou 文档编号:116119 上传时间:2023-03-23 格式:DOCX 页数:3 大小:12.04KB
下载 相关 举报
简历模板大数据开发工程师.docx_第1页
第1页 / 共3页
简历模板大数据开发工程师.docx_第2页
第2页 / 共3页
简历模板大数据开发工程师.docx_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《简历模板大数据开发工程师.docx》由会员分享,可在线阅读,更多相关《简历模板大数据开发工程师.docx(3页珍藏版)》请在第一文库网上搜索。

1、大熬据开发工程师个人信息姓 名:XXX电 话:17XXXXXX工作经验:3年性另成男邮 箱:XXXp 教育经历毕业学校:XX大同大学专也:计算机科学与技术工作经历工作经历:XXXXXXX技术有限公司时间:2016.22019.3技术列表 熟练使用Hadoop结构体系,以及Hadoop集群搭建和维护,理解HDFS读写流程、MapReduce原理,以及Hadoop的Shuffle机制及优化。 理解Spark任务提交流程以及Spark RDD、Shuffl广播变量等一系列调优。 熟练使用Flume完成数据的采集、过滤、分类等功能,理解Flume的组成及工作原理。 熟练使用Kafla高低阶API消费数

2、据,理解Kafl 熟悉使用Hive进行海量数据查询分析,常用的查询函数,以及自定义函数,熟悉Hive的架构和调优策略。 熟悉Zookeeper的选举机制和监听机制。 熟练使用DataSet和DataFrame算子以及UDF函数处理数据,熟练使用Dstream算子完成实时数据的批次处理。 熟悉Redis的常规操作以及五种数据类型,主从复制,集群搭建,以及Redis的持久化方式。 了解Hbase底层数据存储原理以及Hbase中RowKey的设计。 熟练使用Scala和Java编程,并了解Python编程。 熟练掌握Linux命令,可以使用Shell编写Linux脚本。 了解JVM的运行原理,GC优

3、化策略。 熟练使用GIT、SVN等代码管理工具。项目经验 项目名称:别样数仓离线分析项目架构:Flume Hadoop + Hive Spark + Sqoop开发环境:IDEA + Maven + Git + Scala项目描述:本项目是为了将分散的操作型数据、埋点数据以及历史数据通过做数据抽取、清理等有系统的分析整理,得到高效率、高质量、高扩展的数据,以方便联机分析处理(OLAP)的进行,分析处理可以分为离线、实时两大部分,离线通过分析当前系统的用户活跃、转化率以及用户行为等一些关键性指标,实现BI报表,起到企业决策分析的作用,对企业的未来趋势做出定量分析和预测。职责描述:1、参与数据仓库

4、的建模搭建。2、负责数据仓库与前台埋点数据以及用户行为口志的数据联调。3、负责将采集系统获取的页面的点击、下单等一系列用户操作行为日志进行具体分析。4、负责将数据进行分析并分别存储到ODS、DWD、DWS、ADS四层,不仅减少了极大的重复计算还使数据结构更加清晰。5、对Spark core Spark sql性能调用和优化。技术要点:1、通过将采集到的前台用户操作日志文件写入到对应的HDFS目录,得到原始数据。2、通过Hive将采集到HDFS的日志数据导入到数仓ODS层。3、将ODS层数据存储格式改为Parquet存储,以及压缩算法采用Snappy,以保证在提升查询速度的前提下降低压缩比。4、

5、使用Spark Sql来对项目中具体的分析指标将ODS层的数据进行轻度汇总并存储到ADS层,根据对应指标得到统计报表,代替原生Hive的执行引擎。5、通过Sqp导入用户行为数据,将不会频繁增减且符合指标分析的一些相关字段组合成为一张宽表,达到窥一表知全貌的好处。6、使用拉链表来解决订单每日增量变化与历史订单表的同步更新。职责描述:1、负责对埋点实时数据进行ETL,并保存至J Elasticsearch中。2、负责对订单、购物车等模块的埋点数据进行分析。3、使用Canal对数据库数据进行监控,获取与实时分析维度相关的数据。4、负责与前端Vue系统进行联调对接,提供数据展示功能。技术要点:1 通过

6、SpringBoot整合Kafka获取前端埋点日志数据并利用redis去重。2、使用Canal实时监控Mysql数据库中相关心的数据,因为有的数据是通过埋点口志获取不到的。3、使用Spark Streaming消费Kafka的数据,对某些数据做broadcast广播到其他节点。4、使用自定义累加器对日志中的支付、点击、下单进行累加,对相同的id进行聚合累加,得到热门商品分类。5、在Spark Streaming里面通过DirectDStream手动保存OffSet的方式实现零数据丢失。6、通过调节Map缓冲区的大小配置避免频繁磁盘I0,提升Spark的整体性能。7、调节连接等待时长避免Spar

7、k的作业崩溃。8、将数据环流到业务系统库,与前端进行数据联调展示数据分析结果。项目名称:别样数据采集项目架构:Flume + KafKa + Spark + Hive +Hadoop开发工具:IDEA + Maven + XShell项目描述:本项目是通过将PC端以及手机APP业务进行埋点,接口口志调用,数据库抓取快照,得到业务流程中的登录、订单、支付以及页面浏览、点击、收藏等一些用户行为数据,把这些基础数据的各种可分析维度保存起来,保证实时接口调用的高吞吐高实时性。职责描述:负责使用双层Flume收集口志系统的口志文件,对口志进行预处理,放入Kafka的消息队列。技术要点:1、将嵌入SDK定

8、义事件并添加事件代码对Web、H5页面进行埋点获取的数据分类存储到HDFS,使业务信息更完善,数据全面准确,便于后续分析。2、通过采用双层Flume的架构完成系统的口志采集工作,第一层Flume监控采集口志服务器的数据,再由第二层Flume按照分类分别存储到HDFS,双层Flume解决了 Flume的单点故障,还起到了负载均衡、容灾备份的作用。3、通过自定义Interceptor实现对日志数据的分流。4、采用Taildir Source实现了断点续传以及多文件多目录实时监控。5对于一些难以获取的数据通过Canal模拟Mysql slave的交互协议,获取binary log并解析为对象。6、通过topic将Flume采集的数据进行分类,由不同的数据分析平台消费。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服