《大数据研发工程师30求职简历模板.docx》由会员分享,可在线阅读,更多相关《大数据研发工程师30求职简历模板.docx(4页珍藏版)》请在第一文库网上搜索。
1、大数据开发工程师姓名:XXX年龄:XX毕业院校:XX大学手机:XXXXXE-Maikxxxxxx 籍贯:xxxx工作经历:XXXXXXX有限公司大数据开发工程师2016年1月-2019年2月工作技能:1、熟练掌握HDFSfYarnfMapReduce工作机制与运行原理,MR程序调优,HadOOP集群搭建,高可用 部署。2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。3、熟练掌握Hive数仓工具,熟练应用HQL操作数据仓库,自定义过UDF函数,熟练窗口函数,用户定 义表函数explode与其他类型函数,理解HQL运行流程与相应优化措施4、熟练使用Flume日志采集工具,熟悉F
2、lume的运行原理。有基于多层次Flume结构经验,自定义过 Flume拦截器。5、耨东掌握Kafka工作流程搭建过Kafka集群熟悉Kafka的高级与低级API的差异与SPark Streaming 对接时方案的选取。6、了解HBase基于分布式,高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。7、熟悉Sq。P数据的导入导出,并结合AZkaban任务调度工具使用。8、熟悉Scala编程语言,熟悉Scala的隐式转换,熟悉模式匹配和样例类的使用,以及常用算子的使用。9、熟悉Spark的Transformation算子与Action算子熟悉Spark的架构与提交流程启
3、定义过Spark Sqlo 的UDF函数,熟悉Spark Streaming对流的按批次处理,熟悉DStream的有状态与无状态的转换。10、瞬Java编程语言,熟悉JVM内存结构,了解JVM调优。11、熟悉 MySqL Rediesx EIasticSearch 的使用,熟悉 SQL012、熟悉Linux操作系统,熟练Linux常用命令,编写过ShelI脚本,使用过Crontabo项目经验:项目名称:开卷有益业务平台离线数仓开发环境:IDEA+JDK1.8+Scala2.12.1+Maven软件架构:Hadoop+Hive+Scala+SparkCore+SparkSql项目描述:针对公司A
4、PP日志采集系统收集的数据与公司APP业务数据库收集的数据落盘到Hive后,对 数据做分层处理。对原始数据层的数据做降维作,然后在数据服务层形成跨主题宽表。最后依据叫仓库 中的数据,形成各项数据报表辅助公司APP现状,指导决策,为产品的迭代提供支持。负责内容:1、对数据采集到Hive的原始数据做数据清洗(去空,脏数据,操过极限值范围的数据)。2、参与讨论数据仓库的分层设计与维度设计。3、参与需求分析与讨论,处理运营部门提出的业务需求。如每日,每周,每月活跃用户,用户留存,用户 复购,ToPN排名。4、使用Sqoop把Hive中提取的数据导入到公司BI系统,用于业务部门分析。技术要点:1、对OD
5、S层原始数据做数据清洗,并更改压缩格式与存储格式到DWD ,减少I/O,提高数据压缩效果。2、在数据服务层成形跨主题的宽表,存储大量数据,提高查询效率。3、针对不同的表数据信息使用全量同步策略与增量同步策略3、根据运营部门提出的需求形成面向实现的数据表嫄,并通过Sq。P把嫄导入公司Bl系统。4、针对数据倾斜问题,若小文件过多则则设置相应参数合并小文件,若文件过大,任务逻辑复杂,考虑增 加M叩数项目名称:开卷有益实时数仓系统开发环境:IDEA+JDKL8+Scala2.12.1+Maven软件架构:NginX+Tomact+ZOokeePer+Kafka+Spark+Scala+Redies+E
6、asticsearch项目描述:公司APP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(NginX), 然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(TomCat),日志服务器会把不同的日志类 型数据发送给kafka集群的不同的topic中。最后通过消费topic里的数据按业务需求分别发送到Redies 缓存服务器与ES报表数据库中,最后把ES中的数据发布出来。负责内容:1、参与讨论Redies缓存服务器与ES报表系统的字段设计与表设计。2、参与针对实时数据处理的需求讨论。处理运营部门提出的需求。如每日订单交易数与交易量的实时查寻、 每日设备的活跃用户数
7、并分时统计,统计各类小说一小时内的阅读量,每天各地区各城市小说阅读量实 时统计3、负责后台接口的开发,根据前端请求的报文,发布Easticsearch的查询结果,响应前台服务。技术要点:1、通过 Spark Streaming 消费不同 kafka TOPie,利用 SparkStream 配合 redies 去重处理。2、由于需要支持查询用户下单明细,需要使用IK分词器。并确认分词字段。3、由于运营需要用户实时的单日订量及收入,由于交易方式是调用的第三方支付接口,无法通过前端埋点 实时获取,最后搭建了 Canal实时监控业务服务器的binlog日志。4、对于XtchDurationp批处理时
8、间的设定,如果设置过短,会产生数据不断堆积,导致SParkStreaming 发生阻塞。数据少时,反而会频繁的提交作业,需要合理设置,我们一般设置在l10S.6、Spark中的RDD和SparkStreaming中的Dstream ,如果被反复的使用,最好利用cache(),将该数 据流缓存起来,防止过度的调度资源造成的网络开销。7、Task默认的并行度是由spark.default. parallelism参数决定的,可以通过设置task并行度提高性能。项目名称:开卷有益推荐系统开发环境:IDEA+JDKL8+Scala2.12.1+Maven软件架构:Zookeeper+Kafka+Spa
9、rk+ Redies+ES项目描述:根据公司APP应用的点击行为进行用户偏好数据采集,通过Flume经行日志采集,实时发送至 kafka集群,kafka作为流式数据的缓存组件,接收来自Flume的数据采集请求,并将数据推送至 sparkstream做实时推荐。通过从数仓系统处理过的数据导入Mysql业务DB的健做离线推荐。负责内容:1、负责数据的采集与数据的整理,为算法工程师提供数据支持。2、根据业务需求,参与技术选型与可行性分析,指标分析的讨论。3、参与统计推荐模块,离线推荐模块,实时推荐模块的开发。技术要点:L利用数仓中的用户评分数据,计算一些可以预先进行统计和计算的指标,为前端业务提供响
10、应的数据支 撑。2、使用ALS算法对评分矩阵做矩阵分解,根据应用APP的隐语义特征计算APP应用与用户的特征,并将。 相关度提取出来形成应用相关度矩阵,为实时推荐准备。3、利用应用相似度矩阵,根据用户最新的评分或点击行为做实时推荐。4、使用spark计算每个门类的平均评分最高的应用来解决冷启动。项目名称:开卷有益日志采集系统 开发环境:IDEA+JDK1.8+Scala2.12.1+Maven软件架构:NginX+Tomcat+Flume+Kaka+Hadoop+Sqoop+Azkaban项目描述:公司APP日志通过埋点方式收集信息并把日志信息发送到Nginx负载均衡服务器,Nginx通过 轮
11、询的方式发送数据到公司的日志采集系统,日志系统对接双层Flume ,做数据聚合与分流。最终数据落 盘到HDFSo公司业务系统数据库的数据直接通过Sqoop导入HDFS0负责内容:1、日志数据的采集,通过双层Flume落盘至HDFSe2、通过FIUme采集的数据在第二层根据日志类型做拦截与分流。3、业务数据库数据通过Sqoop导入至HDFS ,并编写Job通过Azkaban定时导入数据到HDFSo4、利用HQL把HDFS的数据导入Hive中,并通生成shell脚本,通过Azkaban定时调用。技术要点:1、使用Flume Source使用taildir监控文件,记录处理过的OffSet,即使Fl
12、ume宕机文件也不会从头读取。2、负责FIUme拦截器编写,通过拦截器拦接收的日志字端判断日志类型,并在Event里的header(K,V) 里添加日志类型,并在根据选择器发送给不同的FIUme达到分流效果。3、TaiIdirSource重复获取数据问题。因为重命名后的文件名仍然符合正则表达。需要对源码经行修改, UpdateTaiIFiIes 方法修改 if (tf = null)TailFile 类的 UpdatePos 方法修改为 if (this.inode = inode) o4、当Flume监控的日志文件被移走或删除,flume仍然会继续雌,不会释放资源。最后查出的原因是 IdIeTimeout默认值为120000ms,类似默认等待时间。可以根据实际情况进行修改。5、Kafka性能参数配置可以通过BrOker里的work.threads设置broker处理消息的最大线程数。 设置produce写入数据时刷写数据到磁盘的策略Iogfushjntervalmessages=IOOOO调整读取刷写大 小。