大数据研发工程师30求职简历模板.docx

资源描述

《大数据研发工程师30求职简历模板.docx》由会员分享，可在线阅读，更多相关《大数据研发工程师30求职简历模板.docx（4页珍藏版）》请在第一文库网上搜索。

1、大数据开发工程师姓名：XXX年龄：XX毕业院校：XX大学手机：XXXXXE-Maikxxxxxx 籍贯：xxxx工作经历：XXXXXXX有限公司大数据开发工程师2016年1月-2019年2月工作技能：1、熟练掌握HDFSfYarnfMapReduce工作机制与运行原理，MR程序调优，HadOOP集群搭建，高可用部署。2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。3、熟练掌握Hive数仓工具，熟练应用HQL操作数据仓库，自定义过UDF函数，熟练窗口函数，用户定义表函数explode与其他类型函数，理解HQL运行流程与相应优化措施4、熟练使用Flume日志采集工具,熟悉F

2、lume的运行原理。有基于多层次Flume结构经验,自定义过 Flume拦截器。5、耨东掌握Kafka工作流程搭建过Kafka集群熟悉Kafka的高级与低级API的差异与SPark Streaming 对接时方案的选取。6、了解HBase基于分布式，高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。7、熟悉Sq。P数据的导入导出，并结合AZkaban任务调度工具使用。8、熟悉Scala编程语言，熟悉Scala的隐式转换，熟悉模式匹配和样例类的使用，以及常用算子的使用。9、熟悉Spark的Transformation算子与Action算子熟悉Spark的架构与提交流程启

3、定义过Spark Sqlo 的UDF函数，熟悉Spark Streaming对流的按批次处理,熟悉DStream的有状态与无状态的转换。10、瞬Java编程语言,熟悉JVM内存结构，了解JVM调优。11、熟悉 MySqL Rediesx EIasticSearch 的使用，熟悉 SQL012、熟悉Linux操作系统，熟练Linux常用命令，编写过ShelI脚本，使用过Crontabo项目经验：项目名称：开卷有益业务平台离线数仓开发环境：IDEA+JDK1.8+Scala2.12.1+Maven软件架构：Hadoop+Hive+Scala+SparkCore+SparkSql项目描述：针对公司A

4、PP日志采集系统收集的数据与公司APP业务数据库收集的数据落盘到Hive后，对数据做分层处理。对原始数据层的数据做降维作，然后在数据服务层形成跨主题宽表。最后依据叫仓库中的数据，形成各项数据报表辅助公司APP现状，指导决策，为产品的迭代提供支持。负责内容：1、对数据采集到Hive的原始数据做数据清洗(去空，脏数据，操过极限值范围的数据)。2、参与讨论数据仓库的分层设计与维度设计。3、参与需求分析与讨论，处理运营部门提出的业务需求。如每日，每周，每月活跃用户，用户留存，用户复购，ToPN排名。4、使用Sqoop把Hive中提取的数据导入到公司BI系统，用于业务部门分析。技术要点：1、对OD

5、S层原始数据做数据清洗,并更改压缩格式与存储格式到DWD ,减少I/O,提高数据压缩效果。2、在数据服务层成形跨主题的宽表,存储大量数据，提高查询效率。3、针对不同的表数据信息使用全量同步策略与增量同步策略3、根据运营部门提出的需求形成面向实现的数据表嫄，并通过Sq。P把嫄导入公司Bl系统。4、针对数据倾斜问题,若小文件过多则则设置相应参数合并小文件，若文件过大，任务逻辑复杂，考虑增加M叩数项目名称：开卷有益实时数仓系统开发环境：IDEA+JDKL8+Scala2.12.1+Maven软件架构:NginX+Tomact+ZOokeePer+Kafka+Spark+Scala+Redies+E

6、asticsearch项目描述：公司APP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(NginX), 然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(TomCat),日志服务器会把不同的日志类型数据发送给kafka集群的不同的topic中。最后通过消费topic里的数据按业务需求分别发送到Redies 缓存服务器与ES报表数据库中，最后把ES中的数据发布出来。负责内容：1、参与讨论Redies缓存服务器与ES报表系统的字段设计与表设计。2、参与针对实时数据处理的需求讨论。处理运营部门提出的需求。如每日订单交易数与交易量的实时查寻、每日设备的活跃用户数

7、并分时统计，统计各类小说一小时内的阅读量，每天各地区各城市小说阅读量实时统计3、负责后台接口的开发，根据前端请求的报文，发布Easticsearch的查询结果，响应前台服务。技术要点：1、通过 Spark Streaming 消费不同 kafka TOPie,利用 SparkStream 配合 redies 去重处理。2、由于需要支持查询用户下单明细，需要使用IK分词器。并确认分词字段。3、由于运营需要用户实时的单日订量及收入，由于交易方式是调用的第三方支付接口，无法通过前端埋点实时获取，最后搭建了 Canal实时监控业务服务器的binlog日志。4、对于XtchDurationp批处理时

8、间的设定，如果设置过短，会产生数据不断堆积，导致SParkStreaming 发生阻塞。数据少时，反而会频繁的提交作业，需要合理设置,我们一般设置在l10S.6、Spark中的RDD和SparkStreaming中的Dstream ,如果被反复的使用，最好利用cache(),将该数据流缓存起来，防止过度的调度资源造成的网络开销。7、Task默认的并行度是由spark.default. parallelism参数决定的,可以通过设置task并行度提高性能。项目名称：开卷有益推荐系统开发环境:IDEA+JDKL8+Scala2.12.1+Maven软件架构:Zookeeper+Kafka+Spa

9、rk+ Redies+ES项目描述：根据公司APP应用的点击行为进行用户偏好数据采集，通过Flume经行日志采集，实时发送至 kafka集群，kafka作为流式数据的缓存组件，接收来自Flume的数据采集请求，并将数据推送至 sparkstream做实时推荐。通过从数仓系统处理过的数据导入Mysql业务DB的健做离线推荐。负责内容：1、负责数据的采集与数据的整理，为算法工程师提供数据支持。2、根据业务需求，参与技术选型与可行性分析，指标分析的讨论。3、参与统计推荐模块，离线推荐模块，实时推荐模块的开发。技术要点：L利用数仓中的用户评分数据，计算一些可以预先进行统计和计算的指标,为前端业务提供响

10、应的数据支撑。2、使用ALS算法对评分矩阵做矩阵分解，根据应用APP的隐语义特征计算APP应用与用户的特征，并将。相关度提取出来形成应用相关度矩阵，为实时推荐准备。3、利用应用相似度矩阵，根据用户最新的评分或点击行为做实时推荐。4、使用spark计算每个门类的平均评分最高的应用来解决冷启动。项目名称：开卷有益日志采集系统开发环境:IDEA+JDK1.8+Scala2.12.1+Maven软件架构:NginX+Tomcat+Flume+Kaka+Hadoop+Sqoop+Azkaban项目描述：公司APP日志通过埋点方式收集信息并把日志信息发送到Nginx负载均衡服务器,Nginx通过轮

11、询的方式发送数据到公司的日志采集系统,日志系统对接双层Flume ,做数据聚合与分流。最终数据落盘到HDFSo公司业务系统数据库的数据直接通过Sqoop导入HDFS0负责内容：1、日志数据的采集，通过双层Flume落盘至HDFSe2、通过FIUme采集的数据在第二层根据日志类型做拦截与分流。3、业务数据库数据通过Sqoop导入至HDFS ,并编写Job通过Azkaban定时导入数据到HDFSo4、利用HQL把HDFS的数据导入Hive中,并通生成shell脚本,通过Azkaban定时调用。技术要点：1、使用Flume Source使用taildir监控文件,记录处理过的OffSet,即使Fl

12、ume宕机文件也不会从头读取。2、负责FIUme拦截器编写，通过拦截器拦接收的日志字端判断日志类型，并在Event里的header(K,V) 里添加日志类型，并在根据选择器发送给不同的FIUme达到分流效果。3、TaiIdirSource重复获取数据问题。因为重命名后的文件名仍然符合正则表达。需要对源码经行修改， UpdateTaiIFiIes 方法修改 if (tf = null)TailFile 类的 UpdatePos 方法修改为 if (this.inode = inode) o4、当Flume监控的日志文件被移走或删除，flume仍然会继续雌，不会释放资源。最后查出的原因是 IdIeTimeout默认值为120000ms,类似默认等待时间。可以根据实际情况进行修改。5、Kafka性能参数配置可以通过BrOker里的work.threads设置broker处理消息的最大线程数。设置produce写入数据时刷写数据到磁盘的策略Iogfushjntervalmessages=IOOOO调整读取刷写大小。

展开阅读全文