《求职简历模板大数据开发工程师_001.docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据开发工程师_001.docx(3页珍藏版)》请在第一文库网上搜索。
1、大数据开发工程师个人信息姓名:XXX电话:XXXXX性另IJ:X邮箱:XXXXX教育经历毕业学校:XXXX大学专业:计算机科学与技术工作经历工作经历:XXXXXX有限公司时间:2016.22019.3技术列表 熟练使用Hadoop结构体系,以及Hadoop集群搭建和维护,理解HDFS读写流程、MapReduce原理,以及Hadoop的Shuff1e机制及优化。 理解SPark任务提交流程以及SParkRDD、Shuff1e,广播变量等一系列调优。 熟练使用F1ume完成数据的采集、过滤、分类等功能,理解F1ume的组成及工作原理。 熟练使用Kafka高低阶API消费数据,理解Kafka的基本组
2、成及其运行机制。会使用Kaf1 熟悉使用HiVe进行海量数据查询分析,常用的查询函数,以及自定义函数,熟悉HiVe的架构和调优策略。 熟悉ZoOkeePer的选举机制和监听机制。 熟练使用DataSet和DataFrame算子以及UDF函数处理数据,熟练使用Dstream算子完成实时数据的批次处理。 熟悉RediS的常规操作以及五种数据类型,主从复制,集群搭建,以及RediS的持久化方式。 了解Hbase底层数据存储原理以及Hbase中RowKey的设计。 熟练使用Sca1a和Java编程,并了解Python编程。 熟练掌握1inUX命令,可以使用Shen编写1inUX脚本。 了解JVM的运行
3、原理,GC优化策略。 熟练使用GIT、SVN等代码管理工具。项目经验项目名称:别样数仓离线分析项目架构:F1ume+Hadoop+Hive+Spark+Sqoop开发环境:IDEA+Maven+Git+Sca1a项目描述:本项目是为了将分散的操作型数据、埋点数据以及历史数据通过做数据抽取、清理等有系统的分析整理,得到高效率、高质量、高扩展的数据,以方便联机分析处理(O1AP)的进行,分析处理可以分为离线、实时两大部分,离线通过分析当前系统的用户活跃、转化率以及用户行为等一些关键性指标,实现B1报表,起到企业决策分析的作用,对企业的未来趋势做出定量分析和预测。职责描述:1、参与数据仓库的建模搭建
4、。2、负责数据仓库与前台埋点数据以及用户行为日志的数据联调。3、负责将采集系统获取的页面的点击、下单等一系列用户操作行为日志进行具体分析。4、负责将数据进行分析并分别存储到ODS、DWD、DWS.ADS四层,不仅减少了极大的重复计算还使数据结构更加清晰。5、对Sparkcore、SparkSqI性能调用和优化。技术要点:1、通过将采集到的前台用户操作日志文件写入到对应的HDFS目录,得到原始数据。2、通过HiVe将采集到HDFS的日志数据导入到数仓ODS层。3、将C)DS层数据存储格式改为Parq11et存储,以及压缩算法采用SnaPPy,以保证在提升查询速度的前提下降低压缩比。4、使用Spa
5、rkSq1来对项目中具体的分析指标将ODS层的数据进行轻度汇总并存储到ADS层,根据对应指标得到统计报表,代替原生HiVe的执行引擎。5、通过SqOoP导入用户行为数据,将不会频繁增减且符合指标分析的一些相关字段组合成为一张宽表,达到窥一表知全貌的好处。6、使用拉链表来解决订单每日增量变化与历史订单表的同步更新。7、通过对PV的变化趋势和分析其变化原因以及PR的级别标识指导业务流程改进,显著提高了项目的用户访问人数。8、对一些需要重复计算的数据进行操作缓存,避免重复计算带来的不必要的性能消耗。9、使用KryO序列化机制,对需要的序列化的对象进行预注册。10、使用foreachPamtion优化
6、数据操作,避免对数据库多次建立连接,造成性能损失。项目名称:别样数仓实时分析项目架构:Kafka+Spark+Redis+Mysq1开发工具:IDEA+Maven+XShe11+Sqoop项目描述:本项目是通过对网站用户查询时发生或者用户购买产生的行为数据进行即时处理分析,达到对数据进行核对、检查、复算、判断的作用,及时反映出来数据的价值和意义。还可针对分析当日交易额等一些指标做可视化大屏。职责描述:1、负责对埋点实时数据进行ET1,并保存至IJE1aStiCSearCh中。2、负责对订单、购物车等模块的埋点数据进行分析。3、使用Cana1对数据库数据进行监控,获取与实时分析维度相关的数据。4
7、、负责与前端VUe系统进行联调对接,提供数据展示功能。技术要点:1、通过SpringBoot整合Kafka获取前端埋点日志数据并利用redis去重。2、使用Cana1实时监控MySq1数据库中相关心的数据,因为有的数据是通过埋点日志获取不到的。3、使用SParkStreaming消费Kafka的数据,对某些数据做broadcast广播到其他节点。4、使用自定义累加器对日志中的支付、点击、下单进行累加,对相同的id进行聚合累加,得到热门商品分类。5、在SparkStreaming里面通过DirectDStream手动保存OffSet的方式实现零数据丢失。6、通过调节MaP缓冲区的大小配置避免频繁
8、磁盘I0,提升Spark的整体性能。7、调节连接等待时长避免SPark的作业崩溃。8、将数据环流到业务系统库,与前端进行数据联调展示数据分析结果。项目名称:别样数据采集项目架构:F1ume+KafKa+Spark+Hive+Hadoop开发工具:IDEA+Maven+XShe11项目描述:本项目是通过将PC端以及手机APP业务进行埋点,接口日志调用,数据库抓取快照,得到业务流程中的登录、订单、支付以及页面浏览、点击、收藏等一些用户行为数据,把这些基础数据的各种可分析维度保存起来,保证实时接口调用的高吞吐高实时性。职责描述:负责使用双层FIUme收集日志系统的日志文件,对日志进行预处理,放入Ka
9、fka的消息队列。技术要点:1、将嵌入SDK定义事件并添加事件代码对Web、H5页面进行埋点获取的数据分类存储到HDFS,使业务信息更完善,数据全面准确,便于后续分析。2、通过采用双层FIUme的架构完成系统的日志采集工作,第一层F1Ume监控采集日志服务器的数据,再由第二层F1ume按照分类分别存储到HDFS,双层F1ume解决了F1ume的单点故障,还起到了负载均衡、容灾备份的作用。3、通过自定义InterCePtor实现对日志数据的分流。4、采用Tai1dirSource实现了断点续传以及多文件多目录实时监控。5、对于一些难以获取的数据通过Cana1模拟Mysq1s1ave的交互协议,获取binary1og并解析为对象。6、通过t。PiC将F1Ume采集的数据进行分类,由不同的数据分析平台消费。