大数据研发工程师30求职简历模板.docx

上传人:lao****ou 文档编号:276425 上传时间:2023-07-13 格式:DOCX 页数:4 大小:22.75KB
下载 相关 举报
大数据研发工程师30求职简历模板.docx_第1页
第1页 / 共4页
大数据研发工程师30求职简历模板.docx_第2页
第2页 / 共4页
大数据研发工程师30求职简历模板.docx_第3页
第3页 / 共4页
大数据研发工程师30求职简历模板.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据研发工程师30求职简历模板.docx》由会员分享,可在线阅读,更多相关《大数据研发工程师30求职简历模板.docx(4页珍藏版)》请在第一文库网上搜索。

1、大数据开发工程师姓名:XXX年龄:XX毕业院校:XX大学手机:XXXXXE-Maikxxxxxx籍贯:xxxx工作经历:XXXXXXX有限公司大数据开发工程师2016年1月-2019年2月工作技能:1、熟练掌握HDFSfYarnfMapReduce工作机制与运行原理,MR程序调优,HadOOP集群搭建,高可用部署。2、熟悉Zookeeper集群搭建与Zookeeper内部选举机制。3、熟练掌握Hive数仓工具,熟练应用HQ1操作数据仓库,自定义过UDF函数,熟练窗口函数,用户定义表函数exp1ode与其他类型函数,理解HQ1运行流程与相应优化措施4、熟练使用F1ume日志采集工具,熟悉F1um

2、e的运行原理。有基于多层次F1ume结构经验,自定义过F1ume拦截器。5、耨东掌握Kafka工作流程搭建过Kafka集群熟悉Kafka的高级与低级API的差异与SParkStreaming对接时方案的选取。6、了解HBase基于分布式,高并发的列式存储。理解Hbase底层数据存储原理与HRegione热点问题。7、熟悉Sq。P数据的导入导出,并结合AZkaban任务调度工具使用。8、熟悉Sca1a编程语言,熟悉Sca1a的隐式转换,熟悉模式匹配和样例类的使用,以及常用算子的使用。9、熟悉Spark的Transformation算子与Action算子熟悉Spark的架构与提交流程启定义过Spa

3、rkSq1o的UDF函数,熟悉SparkStreaming对流的按批次处理,熟悉DStream的有状态与无状态的转换。10、瞬Java编程语言,熟悉JVM内存结构,了解JVM调优。11、熟悉MySq1RediesxEIasticSearch的使用,熟悉SQ1012、熟悉1inux操作系统,熟练1inux常用命令,编写过She1I脚本,使用过Crontabo项目经验:项目名称:开卷有益业务平台离线数仓开发环境:IDEA+JDK1.8+Sca1a2.12.1+Maven软件架构:Hadoop+Hive+Sca1a+SparkCore+SparkSq1项目描述:针对公司APP日志采集系统收集的数据与

4、公司APP业务数据库收集的数据落盘到Hive后,对数据做分层处理。对原始数据层的数据做降维作,然后在数据服务层形成跨主题宽表。最后依据叫仓库中的数据,形成各项数据报表辅助公司APP现状,指导决策,为产品的迭代提供支持。负责内容:1、对数据采集到Hive的原始数据做数据清洗(去空,脏数据,操过极限值范围的数据)。2、参与讨论数据仓库的分层设计与维度设计。3、参与需求分析与讨论,处理运营部门提出的业务需求。如每日,每周,每月活跃用户,用户留存,用户复购,ToPN排名。4、使用Sqoop把Hive中提取的数据导入到公司BI系统,用于业务部门分析。技术要点:1、对ODS层原始数据做数据清洗,并更改压缩

5、格式与存储格式到DWD,减少I/O,提高数据压缩效果。2、在数据服务层成形跨主题的宽表,存储大量数据,提高查询效率。3、针对不同的表数据信息使用全量同步策略与增量同步策略3、根据运营部门提出的需求形成面向实现的数据表嫄,并通过Sq。P把嫄导入公司B1系统。4、针对数据倾斜问题,若小文件过多则则设置相应参数合并小文件,若文件过大,任务逻辑复杂,考虑增加M叩数项目名称:开卷有益实时数仓系统开发环境:IDEA+JDK18+Sca1a2.12.1+Maven软件架构:NginX+Tomact+ZOokeePer+Kafka+Spark+Sca1a+Redies+Easticsearch项目描述:公司A

6、PP应用通过埋点方式收集用户信息,并把收集的日志信息发送到统计业务服务器(NginX),然后Nginx服务器轮询日志数据并把日志数据发送到日志服务器(TomCat),日志服务器会把不同的日志类型数据发送给kafka集群的不同的topic中。最后通过消费topic里的数据按业务需求分别发送到Redies缓存服务器与ES报表数据库中,最后把ES中的数据发布出来。负责内容:1、参与讨论Redies缓存服务器与ES报表系统的字段设计与表设计。2、参与针对实时数据处理的需求讨论。处理运营部门提出的需求。如每日订单交易数与交易量的实时查寻、每日设备的活跃用户数并分时统计,统计各类小说一小时内的阅读量,每天

7、各地区各城市小说阅读量实时统计3、负责后台接口的开发,根据前端请求的报文,发布Easticsearch的查询结果,响应前台服务。技术要点:1、通过SparkStreaming消费不同kafkaTOPie,利用SparkStream配合redies去重处理。2、由于需要支持查询用户下单明细,需要使用IK分词器。并确认分词字段。3、由于运营需要用户实时的单日订量及收入,由于交易方式是调用的第三方支付接口,无法通过前端埋点实时获取,最后搭建了Cana1实时监控业务服务器的bin1og日志。4、对于XtchDurationp批处理时间的设定,如果设置过短,会产生数据不断堆积,导致SParkStream

8、ing发生阻塞。数据少时,反而会频繁的提交作业,需要合理设置,我们一般设置在110S.6、Spark中的RDD和SparkStreaming中的Dstream,如果被反复的使用,最好利用cache(),将该数据流缓存起来,防止过度的调度资源造成的网络开销。7、Task默认的并行度是由spark.defau1t.para11e1ism参数决定的,可以通过设置task并行度提高性能。项目名称:开卷有益推荐系统开发环境:IDEA+JDK18+Sca1a2.12.1+Maven软件架构:Zookeeper+Kafka+Spark+Redies+ES项目描述:根据公司APP应用的点击行为进行用户偏好数据

9、采集,通过F1ume经行日志采集,实时发送至kafka集群,kafka作为流式数据的缓存组件,接收来自F1ume的数据采集请求,并将数据推送至sparkstream做实时推荐。通过从数仓系统处理过的数据导入Mysq1业务DB的健做离线推荐。负责内容:1、负责数据的采集与数据的整理,为算法工程师提供数据支持。2、根据业务需求,参与技术选型与可行性分析,指标分析的讨论。3、参与统计推荐模块,离线推荐模块,实时推荐模块的开发。技术要点:1利用数仓中的用户评分数据,计算一些可以预先进行统计和计算的指标,为前端业务提供响应的数据支撑。2、使用A1S算法对评分矩阵做矩阵分解,根据应用APP的隐语义特征计算

10、APP应用与用户的特征,并将。相关度提取出来形成应用相关度矩阵,为实时推荐准备。3、利用应用相似度矩阵,根据用户最新的评分或点击行为做实时推荐。4、使用spark计算每个门类的平均评分最高的应用来解决冷启动。项目名称:开卷有益日志采集系统开发环境:IDEA+JDK1.8+Sca1a2.12.1+Maven软件架构:NginX+Tomcat+F1ume+Kaka+Hadoop+Sqoop+Azkaban项目描述:公司APP日志通过埋点方式收集信息并把日志信息发送到Nginx负载均衡服务器,Nginx通过轮询的方式发送数据到公司的日志采集系统,日志系统对接双层F1ume,做数据聚合与分流。最终数据

11、落盘到HDFSo公司业务系统数据库的数据直接通过Sqoop导入HDFS0负责内容:1、日志数据的采集,通过双层F1ume落盘至HDFSe2、通过FIUme采集的数据在第二层根据日志类型做拦截与分流。3、业务数据库数据通过Sqoop导入至HDFS,并编写Job通过Azkaban定时导入数据到HDFSo4、利用HQ1把HDFS的数据导入Hive中,并通生成she11脚本,通过Azkaban定时调用。技术要点:1、使用F1umeSource使用tai1dir监控文件,记录处理过的OffSet,即使F1ume宕机文件也不会从头读取。2、负责FIUme拦截器编写,通过拦截器拦接收的日志字端判断日志类型,

12、并在Event里的header(K,V)里添加日志类型,并在根据选择器发送给不同的FIUme达到分流效果。3、TaiIdirSource重复获取数据问题。因为重命名后的文件名仍然符合正则表达。需要对源码经行修改,UpdateTaiIFiIes方法修改if(tf=nu11)Tai1Fi1e类的UpdatePos方法修改为if(this.inode=inode)o4、当F1ume监控的日志文件被移走或删除,f1ume仍然会继续雌,不会释放资源。最后查出的原因是IdIeTimeout默认值为120000ms,类似默认等待时间。可以根据实际情况进行修改。5、Kafka性能参数配置可以通过BrOker里的work.threads设置broker处理消息的最大线程数。设置produce写入数据时刷写数据到磁盘的策略Iogfushjnterva1messages=IOOOO调整读取刷写大小。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服