《数仓架构到大数据架构三个时代九种架构演进.docx》由会员分享,可在线阅读,更多相关《数仓架构到大数据架构三个时代九种架构演进.docx(19页珍藏版)》请在第一文库网上搜索。
1、数仓架构到大数据架构三个时代九种架构演进1 .数据平台的发展在悄然发生变化22 .一张图看清楚大数据架构发展23 .从数据到大数据的数据架构总结43.1 非互联网四代架构73.1.1 第一代edw架构73.1.2 第二代大集市架构83.1.3 1.3第三代汇总维度集市&CIF2.0数仓结构93.1.4 第四代OPDM操作实时数仓113.2 互联网的五代大数据处理架构113.2.1 第一代离线大数据统计分析技术架构123.2.2 第二代流式架构133.2.3 第三代1ambda大数据架构143.2.4 Kappa大数据架构153.2.5 Unified大数据架构173.2.6 IoTA架构173
2、.2.7 小结184 .大数据处理技术栈205 .DataMesh面向域的分散式数据架构211 .数据平台的发展在悄然发生变化从现在的企业发展来看,大家的诉求重点已经从经营与分析转为数据化的精细运营。在如何做好精细化运营过程中,企业也面临着来自创新、发展、内卷等的各方面压力。随着业务量、数据量增长,大家对数据粒度需求从之前的高汇总逐渐转为过程化的细粒度明细数据,以及从1的数据转为近乎实时的数据诉求。大量的数据需求、海量的临时需求,让分析师、数据开发疲惫不堪。这些职位也变成了企业资源的瓶颈,传统B1中的Report.O1AP等工具也都无法满足互联网行业个性化的数据需求。大家开始考虑如何把需求固定
3、为一个面向最终用户自助式、半自助的产品,来快速获取数据并分析得到结果,数据通过各类数据产品对外更有针对性的数据价值传递。(关于数据产品一个题外补充:当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时数据产品就此产生,随着数据中台&数据平台的建设逐渐的进入快速迭代期,数据产品、数据产品经理这两个词逐渐的升温并逐渐到今天各大公司对数产品经理岗位的旺盛诉求,目前这两方面的方法论也逐步的体系化、具象化)。在这十几年中,影响数据仓库、数据平台、数据中台、数据湖的演进变革的因素也很多,比如不断快速迭代的业务模式与膨胀的群体规模所带来的数据量的冲击,新的大数据处理技术的驱动。还有落地在数据中
4、台上各种数据产品的建设,比如工具化数据产品体系、各种自助式的数据产品、平台化各数据产品的建设。这些数据建设能力的泛化,也让更多的大众参与数据中台的建设中,比如一些懂SQ1的用户以及分析师参与数据平台直接建设比重增加。还有一些原本数据中台具备的能力也有一些逐步地被前置到业务系统进行处理。2 .一张图看清楚大数据架构发展数据仓库在国外发展多年,于大约在1998-1999年传入中国。进入中国以后,发展出了很多专有名词,比如数据仓库、数据中心、数据平台、数据中台、数据湖等,从大数据架构角度来看可用三个时代九种架构来做总结,其中前四代是传统数据仓库时代的架构,后面五代是大数据架构模式。其中有两个承前启后
5、的地方:一个特殊地方是,传统行业第三代架构与大数据第一代架构在架构形式上基本相似。传统行业的第三代架构可以算是用大数据处理技术重新实现了一遍。传统行业第四代的架构中实时部分在现代用大数据实时方式做了新的落地。如下图所示W1仓N-代兼用r,1w传求NJt仓房二代兼用HHSt仓属,三代*科构(Ut令序NV-/-左用大H1t事五代象内 04-PU-P1-P*-fi4,04-mp3Btw-ag.由出加s O-PUD-P1.ST(APfQ-友用三个时代:非互联网、互联网、移动互联网时代,每一种时代的业务特点、数据量、数据类型各不相同,自然数据架构也是有显著差异的。行业域非互联网互联网移动互联网数据来源结
6、构化各类数据库Web、自定义、系统的除了互联网那些外还(相对于数(DB系统)、结构化日志,各类结构化DB含有大量定位数据、据平台来文本、Exce1表格数据、长文本、视自动化传感器、嵌入讲)等,少量WOrd频主要是来自式设备、自动化设备网页等数据包含信CRM客户信息、事务除了传统企业数据除了传统互联网的数息性ERP/MRPII数信息外,还含有用户据外,还含有Gps、穿各类点击日志、社交戴设备、传感器各类据、资金账务数数据、多媒体、搜索、采集数据、自动化传据等。电邮数据等等感器采集数据等等数据结构特几乎都是结构化数非结构化数据居多非结构化数据居多性据数据存储/主要以DB结构化存文件形式、DB形式,
7、文件形式、流方式、DB数据量储为主,从几百兆到流方式、从TB到PB范式,非结构化从百G级别TB至IJPB产生周期慢,几天甚至周为单秒或更小为单位秒或更小为单位位对消费者行粒度粗粒度较细粒度非常细为采集与还原数据价值长期有效随着时间衰减随着时间快速衰减3.从数据到大数据的数据架构总结我自己对传统数据仓库的发展,简单抽象为为五个时代、四种架构(或许也不是那么严谨)。五个时代大概,按照两位数据仓库大师Ra1phkiImba1KBi11Innmon在数据仓库建设理念上碰撞阶段来作为小的分界线: 大概在1991年之前,数据仓库的实施基本采用全企业集成的模式。 大概在1992年企业在数据仓库实施基本采用E
8、DW的方式,Bi11Innmon博士出版了如何构建数据仓库,里面清晰的阐述了EDW架构与实施方式。 1994-1996年是数据集市时代,这个时代另外一种维度建模、数据集市的方式较为盛行起来,其主要代表之一Ra1phKimba11博士出版了他的第一本书“TheDataWarehouseToo1kit,(数据仓库工具箱),里面非常清晰的定义了数据集市、维度建模。大概在1996T997年左右的两个架构竞争时代。1998-2001年左右的合并年代。在主要历史事件中提到了两位经典代表人物:Bi11InnmonRa1phki1mba11o这两位在数据界可以算是元祖级别的人物。现在数据中台/平台的很多设计理
9、念依然受到他俩90年代所提出方法论为依据。经典的BI11Inmon和Ra1phkiImba11争论Bi11Inmon提出的遵循的是自上而下的建设原则,Ra1phkiImba11提出自下而上的建设原则,两种方法拥护者会在不同场合争论哪一种方法论更有优势。两位大师对于建设方法争论要点:1.其中BiI1InmOn的方法论:认为仅仅有数据集市是不够的,提倡先必须得从企业级的数据模型角度入手来构建。企业级模型就有较为完善的业务主题域划分、逻辑模型划分,在解决某个业务单元问题时可以很容易的选择不同数据路径来组成数据集市。后来数据仓库在千禧年传到中国后,几个大实施厂商都是遵守该原则的实施方法,也逐渐的演进成
10、了现在大家熟悉的数据架构中关于数据层次的划分: Ods-DW-ST-应用 Ods-DWD-DW-DM-应用 Ods-DWD-DWB-DWS应用 Ods-DWD-DW-ST(ADM)-应用上个10年的国内实施数据仓库以及数据平台企业,有几家专业的厂商:IBM、Teradatas埃森哲、菲奈特(被东南收购)、亚信等。这些厂商针对自己领域服务的客户,从方案特点等一系列角度出发,在实施中对ODS层、EDW.DM等不同数据层逐步地赋予了各种不同的功能与含义。现在大家熟知的数据模型层次划分,基本上也是传承原有的Bi11Inmon的方法论。2.数据集市年代的代表人物为Ra1phki1mba11,他的代表作是
11、TheDataWarehouseTooIkit。这本书就是大名鼎鼎的数据仓库工具箱。企业级数据的建设方法主张自下而上建立数据仓库,极力推崇创建数据集市,认为数据仓库是数据集市的集合,信息总是被存储在多维模型中。这种思想从业务或部门入手,设计面向业务或部门主题数据集市。随着更多的不同业务或部门数据集市实施落地,此时企业可以根据需要来合并不同的数据集市,并逐步形成企业级的数据仓库,这种方式被称为自下而上(BottOn-UP)方法。这个方法在当时刚好与Bi11Innmon的自上而下建设方法相反。类比Bi11Inmon提出的方法论RaIPhkiIInbaII提出的方法论建设周期需要花费大量时间建设周期
12、短、花费较少时间维护难易度容易维护维护成本高建设成本前期投入大,后期建设成本前期投入较少,后续迭代成本与低之前投入差不多建设周期周期长,见效慢短、平、快需要的团队专业团队搭建比较专业团队搭建,少量人参与类型数据集成需全企业生命周期数据集成企业垂直业务领域数据集成求面向用户群潜在的全企业用户业务需求部门体专业术语面向主题、随时间而变化、保面向具体业务部门的一份比较留历史、数据集成窄的数据快照,维度建模、雪花模型、星型模型数据模型准三范式设计原则星型结构、雪花结构随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要么一方妥协,要么新的结论出现。Bi11inmon与Ra1p
13、hki1mba11的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bi11Inmon提出的CIF(corporationinformationfactory)信息工厂的架构模式,这个架构模式将Ra1phki1mba11的数据集市包含了进来,有关两种数据仓库实施方法论的争吵才逐步地平息下来。3.1非互联网四代架构3.1.1第一代edw架构第一代*D1现在数据建设中使用到的“商业智能”、“信息仓库”等很多专业术语、方法论,基本上是在上世纪60年代至90年代出现的。比如“维度模型”这个词是个世纪60年代GM与DarmouthCo11ege大学第一次提出,“DatawareHouse、事实是在
14、上个世纪70年代BII1Inmon明确定义出来的,后来90年代Bi11Inmon出版如何构建数据仓库一书更加体系化的与明确定义了如何构建数据仓库,这套方法在落地上形成了第一代数据仓库架构。在第一代的数据仓库中,清晰地定义了数据仓库(DataWarehOUSe)是一个面向主题的(SUbjeCtOriented)、集成的(Integrate)、相对稳定的(NOn-Vo1ati1e)、反映历史变化(TinIeVariant)的数据集合,用于支持管理决策(DeCiSiOnMarkingSupport)。首先,数据仓库(DataWarehoUSe)是用来支持决策的、面向主题的用来支撑分析型数据处理的,这
15、里有别于企业使用的数据库。数据库、数据仓库小的区别:-数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。-数据仓库的设计目标是决策支持。历史的、摘要的、聚合的数据比原始的记录重要的多。查询负载主要集中在即席查询和包含连接,聚合等复杂查询操作上。 其次,数据仓库(DataWarehOUSe)是对多种异构数据源进行有效集成与处理,是按照主题的方式对数据进行重新整合,且包一般不怎么修改的历史数据,一句话总结面向主题、集成性、稳定性和时变性。数据仓库(DataWarehOUSe)从特点上来看: 数据仓库是面向主题的。 数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后