《求职简历模板大数据开发工程师(1).docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据开发工程师(1).docx(3页珍藏版)》请在第一文库网上搜索。
1、大数据开发工程师个人信息姓 名:XXX电 话:XXXXX性另IJ: X邮 箱:XXXXX教育经历毕业学校:XXXX大学专业:计算机科学与技术工作经历工作经历:XXXXXX有限公司时间:2016.22019.3技术列表 熟练使用Hadoop结构体系,以及Hadoop集群搭建和维护,理解HDFS读写流程、 MapReduce原理,以及Hadoop的Shuffle机制及优化。 理解SPark任务提交流程以及SParkRDD、Shuffle,广播变量等一系列调优。 熟练使用Flume完成数据的采集、过滤、分类等功能,理解Flume的组成及工作原理。 熟练使用Kafka高低阶API消费数据,理解Kafk
2、a的基本组成及其运行机制。会使用 Kafl 熟悉使用HiVe进行海量数据查询分析,常用的查询函数,以及自定义函数,熟悉HiVe 的架构和调优策略。 熟悉ZoOkeePer的选举机制和监听机制。 熟练使用DataSet和DataFrame算子以及UDF函数处理数据,熟练使用Dstream算 子完成实时数据的批次处理。 熟悉RediS的常规操作以及五种数据类型,主从复制,集群搭建,以及RediS的持久化 方式。 了解Hbase底层数据存储原理以及Hbase中RowKey的设计。 熟练使用Scala和Java编程,并了解Python编程。 熟练掌握LinUX命令,可以使用Shen编写LinUX脚本。
3、 了解JVM的运行原理,GC优化策略。 熟练使用GIT、SVN等代码管理工具。项目经验 项目名称:别样数仓离线分析项目架构:Flume + Hadoop + Hive+ Spark + Sqoop开发环境:IDEA + Maven + Git + Scala项目描述:本项目是为了将分散的操作型数据、埋点数据以及历史数据通过做数据抽取、 清理等有系统的分析整理,得到高效率、高质量、高扩展的数据,以方便联机分析处理 (OLAP)的进行,分析处理可以分为离线、实时两大部分,离线通过分析当前系统的 用户活跃、转化率以及用户行为等一些关键性指标,实现Bl报表,起到企业决策分析 的作用,对企业的未来趋势做
4、出定量分析和预测。职责描述:1、参与数据仓库的建模搭建。2、负责数据仓库与前台埋点数据以及用户行为日志的数据联调。3、负责将采集系统获取的页面的点击、下单等一系列用户操作行为日志进行具体分析。4、负责将数据进行分析并分别存储到ODS、DWD、DWS. ADS四层,不仅减少了极 大的重复计算还使数据结构更加清晰。5、对Spark core、Spark SqI性能调用和优化。技术要点:1、通过将采集到的前台用户操作日志文件写入到对应的HDFS目录,得到原始数据。2、通过HiVe将采集到HDFS的日志数据导入到数仓ODS层。3、将C)DS层数据存储格式改为ParqLlet存储,以及压缩算法采用Sna
5、PPy,以保证在 提升查询速度的前提下降低压缩比。4、使用Spark Sql来对项目中具体的分析指标将ODS层的数据进行轻度汇总并存储到 ADS层,根据对应指标得到统计报表,代替原生HiVe的执行引擎。5、通过SqOoP导入用户行为数据,将不会频繁增减且符合指标分析的一些相关字段组 合成为一张宽表,达到窥一表知全貌的好处。6、使用拉链表来解决订单每日增量变化与历史订单表的同步更新。7、通过对PV的变化趋势和分析其变化原因以及PR的级别标识指导业务流程改进, 显著提高了项目的用户访问人数。8、对一些需要重复计算的数据进行操作缓存,避免重复计算带来的不必要的性能消耗。 9、使用KryO序列化机制,
6、对需要的序列化的对象进行预注册。10、使用foreachPamtion优化数据操作,避免对数据库多次建立连接,造成性能损失。 项目名称:别样数仓实时分析项目架构:Kafka + Spark + Redis + Mysql开发工具:IDEA + Maven + XShell + Sqoop项目描述:本项目是通过对网站用户查询时发生或者用户购买产生的行为数据进行即时 处理分析,达到对数据进行核对、检查、复算、判断的作用,及时反映出来数据的价值 和意义。还可针对分析当日交易额等一些指标做可视化大屏。职责描述:1、负责对埋点实时数据进行ETL,并保存至IJElaStiCSearCh中。2、负责对订单、
7、购物车等模块的埋点数据进行分析。3、使用Canal对数据库数据进行监控,获取与实时分析维度相关的数据。4、负责与前端VUe系统进行联调对接,提供数据展示功能。技术要点:1、通过SpringBoot整合Kafka获取前端埋点日志数据并利用redis去重。2、使用Canal实时监控MySql数据库中相关心的数据,因为有的数据是通过埋点日志 获取不到的。3、使用SPark Streaming消费Kafka的数据,对某些数据做broadcast广播到其他节 点。4、使用自定义累加器对日志中的支付、点击、下单进行累加,对相同的id进行聚合累 加,得到热门商品分类。5、在Spark Streaming里面
8、通过DirectDStream手动保存OffSet的方式实现零数据丢 失。6、通过调节MaP缓冲区的大小配置避免频繁磁盘I0,提升Spark的整体性能。7、调节连接等待时长避免SPark的作业崩溃。8、将数据环流到业务系统库,与前端进行数据联调展示数据分析结果。项目名称:别样数据采集项目架构:Flume + KafKa + Spark + Hive +Hadoop开发工具:IDEA + Maven + XShell项目描述:本项目是通过将PC端以及手机APP业务进行埋点,接口日志调用,数据 库抓取快照,得到业务流程中的登录、订单、支付以及页面浏览、点击、收藏等一些用 户行为数据,把这些基础数据
9、的各种可分析维度保存起来,保证实时接口调用的高吞 吐高实时性。职责描述:负责使用双层FIUme收集日志系统的日志文件,对日志进行预处理,放入Kafka的消息 队列。技术要点:1、将嵌入SDK定义事件并添加事件代码对Web、H5页面进行埋点获取的数据分类存 储到HDFS,使业务信息更完善,数据全面准确,便于后续分析。2、通过采用双层FIUme的架构完成系统的日志采集工作,第一层FlUme监控采集日志 服务器的数据,再由第二层Flume按照分类分别存储到HDFS,双层Flume解决了 Flume 的单点故障,还起到了负载均衡、容灾备份的作用。3、通过自定义InterCePtor实现对日志数据的分流。4、采用Taildir Source实现了断点续传以及多文件多目录实时监控。5、对于一些难以获取的数据通过Canal模拟Mysql slave的交互协议,获取binary log 并解析为对象。6、通过t。PiC将FlUme采集的数据进行分类,由不同的数据分析平台消费。