求职简历模板大数据研发工程师简历.docx

上传人:lao****ou 文档编号:340388 上传时间:2023-09-07 格式:DOCX 页数:4 大小:11.66KB
下载 相关 举报
求职简历模板大数据研发工程师简历.docx_第1页
第1页 / 共4页
求职简历模板大数据研发工程师简历.docx_第2页
第2页 / 共4页
求职简历模板大数据研发工程师简历.docx_第3页
第3页 / 共4页
求职简历模板大数据研发工程师简历.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《求职简历模板大数据研发工程师简历.docx》由会员分享,可在线阅读,更多相关《求职简历模板大数据研发工程师简历.docx(4页珍藏版)》请在第一文库网上搜索。

1、大数据研发工程师简历性另I:X年 龄:XX联系电话:XXXX薪资要求:面议姓 名:XX毕业院校:XX大学(一本)目前城市:北京E-mail: asy_huyue H应聘方向工作性质 全职应聘职位:大数据研发工程师求职地点:北京H工作经历单位名称XXXXXX商务有限公司职位名称大数据研发工程师工作时间2016.5-2019.2H职业技能1 .熟练掌握Hadoop Hdfs存储流程,Yarn调度机制,MapReduce工作原理,高可用部署, mr运行性能调优。2 .熟练掌握hive数仓结构,熟练HQL开窗及UDTF函数应用,熟悉HQL优化执行手段。、3 .熟练掌握flume,有使用多层FlUme搭

2、建高可用和容灾架构的经验。4 .熟练使用Sqoop将数据在Hdfs和关系型数据库之间转移。5 .熟练使用Kafka实现分布式,大吞吐集群,熟悉Kafka高低阶API差别,掌握Kafka 一致性机制以及一次性语意。6 .熟练使用 SParkCore, SparkSqI SParkStreaming 编码,涉及过 SParkMLlib 编程,熟 悉Spark任务提交执行流程及内存调优。7 .熟练使用Scala, Java8进行业务代码编写。8 .熟练使用LinLlX操作系统,能够编写SheIl脚本。9 .熟练使用Crontab, AZkaban进行任务调度。10 .理解HbaSe数据存储原理,有处

3、理过HRegiOn热点问题,ROWkey设计等开发设计经 验。11 .熟练使用Mysql数据库操作,以及使用RediS做缓存处理。12 . 了解日asticsearch搜索引擎及MongoDB数据库基本操作。 B项目经历项目一:猎趣电商分析系统软件架构:Nginx+Flume+ZookeeperSpark+Hadoop+Spingboot+Hive+Mysql 开发环境:IDEA+JDK1.8+Maven+Git项目描述:该项目通过对电商网站的用户行为数据进行埋点,根据平台统计数据,辅助PM 和后端人员分析现有的产品情况,并根据用户行为数据分析的结果来改善展示以及调整公司 的战略和业务。责任描

4、述:1 .参与项目需求分析,负责相关模块搭建。2 .采用双层FlUme架构构建日志采集模块。3 .通过对用户行为数据分析,统计相关指标。4 .活跃用户统计:以设备为单位作为单用户标识,通过脚本每日从dwd层中统计以前日为 基准的日活,周活,月活的设备明细存入dws层。然后通过脚本每日计算日活,周活, 月活的设备总数进入ads层存储。5 .用户沉默流失统计:通过对dws层用户行为宽表分析,计算出7日无点击行为的用户作 为沉默用户,30日内无点击行为的用户作为流失用户,存入ads层。技术要点:1 .为了方便对数据的管理与统计,将数据仓库分为ods,dwd,dws,ads四层。2 .通过CrOnta

5、b每日运行Shell脚本将hdfs中采集的数据读入HiVe,进入OdS层。3 .每日从OdS层读取相关业务数据进行简单的ETL清洗并存入dwd层。4 .根据表结构,数据量选用不同的数据同步策略,如对于每日订单明细,因考虑到数据量 较大以及后续不会变化,可以作成每日增量表,对于用户表,考虑到用户信息可能改变, 可以作成用户信息拉链表,以便查询具体某时间点的用户信息。5 .为实现数仓的数据冗余,方便进行查询,将维度表进行退化,贴近星型模型。6 .使用SParkRDD算子完成一些较难用HQL直接处理的业务,如计算页面转化率。项目二:猎趣app数据统计平台软件架构:Flume+Kafka+Zookee

6、per+Spark+MySQL+ElasticSearch+Springboot+Redis+Echarts开发环境:IDEA+JDK1.8+Maven+G计+Scala项目描述:该项目通过对用户明细数据进行处理,计算用户分时活跃和新增以及当日交易 额和订单数的分时趋势,最终由前端使用EChartS制成饼状图展示给用户。对广告点击量采 用流式处理实时分析,统计各区域热门广告,计算近一小时内广告点击量趋势。责任描述:1 .参与项目需求分析,负责相关模块搭建。2 .参与SParkStreaming实时计算模块,统计需求处理。3 .参与SPark系统调优。技术要点:1 .构建Kafka集群对Flum

7、e数据收容,对接SparkStreaming进行消费,使用Kafka低阶 API,手动对OffSet进行维护并保存至ZOOkeeper,采用EXaCtlyone精确一次性语意 实现数据传输的可靠性及速率保证。2 .将活跃用户数据先存放入RediS中进行缓存,并在SParkStreaming中对每条数据进行 过滤,去除RediS中已有的用户。3 .将最终结果放入EIasticSearch,保证容量的前提下,且能保证不错的交互性,并且可 以使用倒排索引进行全文检索。4 .使用Canal对MySQL订单表元数据进行实时监控,数据通过Kafka传输,采用 SparkStreaming对Kafka数据进

8、行实时消费,最终将结果数据放入ElaStiCSearChC5 . EIasticSearch采用max_word的IK分词器进行倒排索引。6 .优化SPark执行效率,将需要多次使用的RDD持久化处理,对于多节点需要的较大的 数据可以采用广播变量,加快数据计算。项目三:电商日志采集系统软件架构:Nginx+Flume+Hadoop开发环境:IDEA+J DK1.8+Maven+Git项目描述:用户行为数据是数据分析的主要指标,为了保证数据采集的可靠和高效,尽可能 减少数据传输过程中的丢包情况,采用双层Flume架构。责任描述:1 .参与项目讨论和搭建。2 .构建双层FlUme架构。技术要点:1

9、 . Nginx是一个高性能的Web和反向代理服务器,具有较强的并发处理能力,项目中采用 Nginx+Tomocat做H志数据采集。2 .使用双层Flume架构对日志数据采集和分流。3 .项目中一层FILIme选用TaildirSOUrce,用于实时监控日志文件变化,并记录偏移量可以 实现断点续传,选用SinkGroups的load_banlance策略实现高可用,,采用Avro Sink传入 数据到下一层Flumeo4 .二层FlIlme选用Avro Source,自定义拦截器将event中的内容根据类型进行筛选,配 合Channel选择器(MIlltPIeXing)进行分流,放入header中,。5 .最终的日志数据根据类型通过二层FIUme的hdfssink存入HadooP集群中,进行日志 落盘。B自我评价1 .积极乐观,能够在遇到困难时保持不急躁,冷静面对。2 .乐于沟通,善于同同事协商处理问题。3 .对新事物充满兴趣,享受攻克难题后的喜悦。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服