将 ETL 任务减少 30.docx

上传人:lao****ou 文档编号:83795 上传时间:2023-02-16 格式:DOCX 页数:16 大小:815.54KB
下载 相关 举报
将 ETL 任务减少 30.docx_第1页
第1页 / 共16页
将 ETL 任务减少 30.docx_第2页
第2页 / 共16页
将 ETL 任务减少 30.docx_第3页
第3页 / 共16页
将 ETL 任务减少 30.docx_第4页
第4页 / 共16页
将 ETL 任务减少 30.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《将 ETL 任务减少 30.docx》由会员分享,可在线阅读,更多相关《将 ETL 任务减少 30.docx(16页珍藏版)》请在第一文库网上搜索。

1、京东零售数据仓库演进之路导读:京东零售十年交易额快速增长的背后,不仅是京东零售高速发展的十年,也是数据仓库技术架构演进创新的十年,EB级数据如何进行资产化沉淀和治理?如何支撑业务高速发展、精细化运营、规模化创新的不同阶段?在未来更加复杂多变的环境下,将如何持续演进?作者:尹翔编辑:老鱼今天的分享主要分为以下三个部分。第一部分:首先回顾一下大数据在国内的发展历程第二部分:介绍随着京东的快速发展,大数据在内部经历的几个主要阶段第三部分:京东零售数仓核心能力和场景实践01大数据在国内的发展历程大数据的发展,大体来讲可以分为三个阶段:t DICC2CB1中国就鬣座技术大会I大数据演进历程中台资产依服务

2、化用件化.”帼化flUEBl套件大敌窜哈HadoopChMUnfl第一个阶段,2010年之前,是企业级数据仓库的时代,也叫EDW,以关系型数据库为主。当时Oracle、Teradata等传统软件厂商占据了大部分市场,基本上提供了数据仓库建设从硬件、软件到实施一体化的解决方案,建设成本非常高,当时主要集中在金融、电信、保险等行业,数据仓库的主要应用场景是提供报表,用于经营决策。第二个阶段,大概在2010年前后,随着移动互联网的高速发展、数据量暴增,很多互联网公司开始基于Hadoop生态搭建大数据平台,来应对大数据量的处理。数据应用的场景也更加丰富,比如互联网广告、精准营销、供应链管理、abtes

3、t等第三个阶段,大概从5年前,也就是15、16年前后,业界开始提出数据中台的概念,通过大中台、小前台的模式,驱动业务创新和提效。数据中台组件化、智能化的方式,将通用的数据开发场景和工具进行沉淀,来提升开发效率,再通过数据的资产化、服务化的方式提升业务数据使用效率,让业务更加聚焦在数据应用和业务创新卜.,而不是花费大量的精力进行数据能力的重复建设应用层服务层赢例 一:数嘱陀/j iHRwn J ( 裤能决雉 ):b唔.aad而平台层瞭费平彳f言初平.戴仓于台EH1(屣而嬴存储计菖层I多维分析F :RSpark StreamingStorm管理中心数据目录数据质量JHOPS Hbase/Allux

4、io)1KafkaScribeDauXFlume传输层H B5,造,朴东即席童闻 二多堆分析:至诿工 (元.壶熬从数仓的视角下,来看数据中台的技术架构,是伴随着数据的采集、存储、计算、管理、应用这些环节延展开的。从这里可以看到,数据中台的技术生态是非常复杂的,这里涉及到非常多元的技术和产品,而且这些技术也在高速发展阶段,每年基本都会涌现大量的新产品和技术,这些特点就给企业实施数据中台带来了很高的技术门槛,如果技术路线不清晰,很可能会造成很大的风险和隐患。02京东零售大数据的发展历程我们回顾京东零售大数据的发展历程,也经历了几个重要的阶段,从最开始的野蛮生长,到后来的精细化运营、以及现在的数据驱

5、动业务,从过去的大数据平台阶段也升级到了现在的数据中台阶段。百家争鸣平台*需求舞动解决编点-吻越场景化廊房*规楂化总绘数据驱动百花齐放中台I京东零售大数据发展的几分阶段c A PICC2C21中国数婚岑技本大告ChinaUmM bfJB第一阶段,在17年之前,是野蛮生长的阶段。当时的特点是烟囱式开发,业务发展很快,靠中心化的团队很难支撑所有业务需求,因此在大数据平台之上,每个业务线需求都是闭环的数据团队在支持。但到后来这种烟囱式开发,导致了数据不互通、重复造轮子、研发效率低的问题,光数据集市就卜.百个,相似的数据产品也有非常多,占用了大量的存储和计算资源,数据口径也无法对齐,内部沟通和管理成本

6、变得很高。于是就到了第二阶段,在17、18年开始精细化运营,建设数据中台,打通各集市间的数据,更加注重数据资产的沉淀,也开始围绕业务场景,去搭建场景化服务的能力,去支撑业务的精细化运营场景。第三阶段是数据驱动业务的阶段,也是现在我们所处的阶段,精细化运营可以看作是专家经验的沉淀,中台也在考虑怎么进一步释放产能,降低研发门槛,以智能化的方式进行数据生产、管理和应用。比如低代码的开发平台,以及像智能选品和用户增长这些应用。以上,我们简单回顾了一下京东大数据发展的几个阶段。DTCC2E21中国裁鬣鹿技术大会03京东零售数据仓库建设实践京东零售数据仓库建设京东零售全域数据资产体系:源于业务,沉淀资产,

7、创造价值全域数据资产全链第业务场最沉淀由用流Hi商品财务交易供应链经过这些年,目前在数据中介已经沉淀了覆盖京东全链路业务场景的全域数据资产。我们基于对零售业务的深度理解,将业务场景抽象成数据模型体系,来描绘业务之间的关系,同时也会考虑到如何存储、计算、管理这些数据,这些都非常考验数据中台团队的业务能力、技术能力和数据治理能力。最终我们将沉淀的数据资产,应用到全链路的业务场景中,比如用户增长、营销策略制定、供应链管理、仓储布局规划、配送路径规划等等,在这些场景中得到验证和反馈,形成正向的循环,不断地将数据资产体系建设得更加完善。I数仓面临的挑战DTCC2G81中OBUtlH度技术大会01烟0:开

8、发02数据今炸式增长03带来的业务困扰和资源浪费服务器增长的边际效应越来越低如何进行价值评估、言漫和高效应用04业务震杂度高05实时需求多06全渠道、多业态带来的数据灵活性和拓展新引破实时开发门磁高.网用长瘠数级数据增长下.永无止境的高时效性需求/7T!stfw .Chinaunif fTpUB(侬,造,禾,东在建设全域数据资产的过程中,数仓扮演了非常重要的角色,期间也面临了非常多的挑战。像烟囱式开发,资源重复浪费,而且因为数据缺少打通和合理架构的规划,业务需求的迭代变得越来越慢。数据量在京东这几年也是呈几何级、爆发式的增长,单纯地依靠增加服务器,也已经很难解决存储和计算的难题!随着数据资产建

9、设的日益丰富,对于那些已经存在了几十万张的数据模型,如何有效地进行管理,便捷地找到数据?另外,京东的业务复杂度也非常高,从最初的线上自营和第三方模式,全品类的商品,拓展到线下业务,以及全渠道、多个业态场景,组织变化也非常的快,带来数据资产的挑战。在实时方面。业务越来越来越极致,过去从天、到小时、再到分钟,以及现在秒级的数据,而实时开发的门槛相比离线也比较高,周期也很长。时效性方面。不管数据量和计算量怎么增长,业务对于时效性的追求确实越来越高。I 4个维度构建数仓核心能力Diccacei0102数仓架构_ 1F 数据建模0304数据资产管理数据质量保障中国就警席技术大会我们是从四个维度,构建核心

10、起来数仓的核心能力,来解决前面提到的这些问题。包括统一的数仓架构、规范化的数据建模、数据质量的保障,以及数据资产的管理,来建设统一、标准、高质量的数据资产体系,提升数据服务化的水平,支撑业务价值实现。我们是基于hive构建的数仓,架构上,我们从过去垂直烟囱式的开发,形成了现在统一的数仓分层架构。目前主耍分为6层,每一层的定位、目标以及建设方法都不相同:首先是BDM缓冲数据层,是用来缓存来自业务系统的数据库、消息、日志等临时数据,他的表结构与业务系统保持一致,并且只为FDM贴源数据层提供服务。接着是FDM贴源数据层,这一层主要是存储全量业务系统的数据,并且能够支持还原业务系统的数据快照,按照业务

11、系统数据变更的特性,一般会用拉链或者增量流水的方式存储,一般情况也不对外开放。再往上的GDM、ADM和DIM是数仓的核心层,会开始按照业务特性,搭建各主题模型,主要是基于维度建模理论,去搭建公共的维度、实时数据、以及相应的宽表。DIM维度层,主要是对通用的维度,进行统一标准化定义,进行维度复用。接下来是GDM和ADM,都会去按照业务划分主题,也都会做数据的清洗和整合,只不过一个面向生产一个面向业务,GDM是面向生产,去做技术口径的封装,对生产系统的数据,进行清洗、整合,屏蔽生产系统的干扰,保障基础数据的高可用,ADM则面向业务,做业务口径的封装,去形成统一的维度和指标,消除口径的二义性。ADM

12、公共数据层,会划分两层,adm d和s, adm-d主要负责统一的数据口径封装,提供最细颗粒度的维度和实时数据,同时封装各种口径的标识,adm-s会基于adm-d进行各种维度场景的聚合和指标汇总。最后是App应用数据层,它主要是面向业务场景,提供具体场景的数据加工,直接提供给数据应用。有了统一的数仓分层架构作为基础,我们也从过去开放式的数据开发,逐步形成了统一的数据建模方法论,来规范数据建模的过程,最后我们落地成了工具,来保证方法论和规范的落地。这张图就是我们内部数据建模工具,描绘了我们从业务板块的划分数据域、到一些规范的管理,再到规范化建模的过程。在模型体系设计上,我们构建了数据总线矩阵,划

13、分了业务域、主题和业务单元这三层,实现顶层设计的清洗完整。业务域是我们内部相对独立运营的的业务板块,比如线上零售、互联网医疗、B2B这些都是独立的业务域,在每一个业务域下,会根据业务特点,划分成多个主题。比如零售业务,会按用户的照购物旅程,拆分成流量、交易、客服等多个主题。每个主题下,会划分多个忆务单元,每个业务单元会对应一个或者多个业务事件。比如在交易主题下,会拆分成下单、支付这些业务单元,业务单元就等同于概念模型,它最终会被映射成逻辑模型和物理模型。在数据模型的构建上,我们主要是基于维度建模的思想去设计和开发模型。我们会定义统一的维度,并物化成维表,形成维度市场,供各个事实表去复用。业务单

14、元会基于事实和维度数据,设计成大宽表,便于下游应用。在指标管理和开发上,基于规范化的数据模型,我们可以进行指标的定义,我们将指标拆解成原子指标和派生指标,这样最大程度去复用原子指标的定义和逻辑,来消除指标口径的二义性。最终保障了,数据模型体系以及数据指标体系的规范性,也减少了重复建设。I数据资产管理:基于元数据的数据资产化服务油1篇数据资产规划.球设.盅点.DTCC 2021中国H据片技术大会从散据的可询可用,开皴到对质.安全.服务的全面贯通,市,琅 OYnaUnur治理、而2、应用等环节数据资产管理方面,我们的思路是,围绕数据的全生命周期,去构建丰富的元数据,基于元数据进行数据治理、并提供资产化的服务。整个过程链接了数据生产者和数据消费者两端,我们涵盖了从数据资产的规划、建设、采集、盘点、评估、应用、销毁等环节。元数据分类上,我们切分了两个维度,一方面包括了元数据的范围,比如模型元数据、指标元数据、标签元数据等,尽可能的丰富,另一方面从类型上,也划分成技术元数据、业务元数据、管理元数据等,从更丰富的分析数据资产情况。基于元数据的治理方面上,我们从数据生命周期管理、数据质量、数据安全共享、数据地图、数据百科、数据血缘这几个方面为数据治理提供更多的抓手,来保证数据资产的高质量,最后再将这些高质量的数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服