元数据管理在数据仓库的实践应用.docx

上传人:lao****ou 文档编号:137607 上传时间:2023-04-10 格式:DOCX 页数:10 大小:335.39KB
下载 相关 举报
元数据管理在数据仓库的实践应用.docx_第1页
第1页 / 共10页
元数据管理在数据仓库的实践应用.docx_第2页
第2页 / 共10页
元数据管理在数据仓库的实践应用.docx_第3页
第3页 / 共10页
元数据管理在数据仓库的实践应用.docx_第4页
第4页 / 共10页
元数据管理在数据仓库的实践应用.docx_第5页
第5页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《元数据管理在数据仓库的实践应用.docx》由会员分享,可在线阅读,更多相关《元数据管理在数据仓库的实践应用.docx(10页珍藏版)》请在第一文库网上搜索。

1、元数据管理在数据仓库的实践应用数仓宝贝库2021Tl-16 18:22收录于合集#数据仓库19个点击上方蓝字关注我们 数仓宝贝库,带你学数据!导读:元数据管理是企业数据治理的基础,是数据仓库的提升。作为一名数据人,首要任务就是理解元数据管理。本篇文章将为大家梳理元数据的概念,介绍元数据管理在数据仓库的地位、场景及工具。什么是数据仓库的元数据管理1、什么是元数据?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data)。抽象的描述:一组用于描述数据的数据组,该数据组的一切信息都描述了该数据的某方面特征,则该数据组即可被称为元数据。举几个简单例子:如果

2、一本书是一个数据”,那么它的书名、封面、出版社、作者、总页码就是它的元数据。如果一个电影是一个数据,那么它的总时长、制作人、总导演、演员列表就是它的元数据。如果数据库中某个表是一个数据,那么它的列名、列类型、列长度、表注释就是它的“元数据”。只要有一类事物,就可以定义它的“元数据”。大多数时候,元数据可以根据代表意义的不同分为业务元数据和技术元数据。2、什么是数据仓库?数据仓库,由数据仓库之父比尔恩门(Billlnmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法

3、如联机分析处理、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(日S)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(Bl) o3、什么是数据仓库的元数据管理?抽取方法映射、传输规则转换规则汇总规则效据仓库建模具数据定义数据仃效值数据仓庠模型数据清洗规则源数据内部数据外部数据源系统逻辑模型源系统物理模型源/外部数据结构定义元数据数据质量数据组织、位询定义数据导出属性映射相关人员元数据管理员元数据分析员数据仓库用户前端匚具查询工具报表工具OLAPLH数据挖掘数仓中的元数据,主要记录各

4、主题的定义、不同层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。为什么数据仓库要进行元数据管理1、建设数据仓库所必须数据仓库是由外部数据、业务数据以及文档资料通过某些ETL工具得到的,如果没有一个明确、清晰的规则,根本不可能实现这个过程。2、帮助快速理解数仓系统一方面,数据仓库本质上是一个部门甚至一个公司的重要项目,开发时间

5、冗长。中间不可避免的会产生人员流动,如果没有清楚的元数据,那会对整个系统乃和整个项目造成重大影响;另一方面,数据仓库做为整个部门、公司的分析数据出口,并不仅仅对数据人员服务。DM层对业务人员,DIM对其他开发人员都是不可避免的。如果有清楚的无数据来说明数仓系统,就会节约双方大量的沟通时间。3、高效精准沟通一方面,元数据中的管理元数据会记录不同用户、角色、部门的数据权限。如果有数据需要进行通知,则可以快速查询系统进行群发邮件等方式进行沟通,从而避免了造成沟通环节的缺人和多人情况发生。另一方面,在与产品沟通业务或是与研发沟通接口时,可以根据业务元数据,确认彼此沟通的指标、维度含义。从而在根源上避免

6、交流的歧义。进而提高沟通效率。4、保证数据质量理想的元数据做到了对数据仓库结构的描述,仓库模式试图,维,度量,层次结构,到处数据库的定义,以及数据集市的位置和内容。因此,我们可以很确定的判断哪些数据是肯定准确无误的、哪些数据是可能有问题的、哪些数据是肯定有问题的。简单的说就是每一个字段都应该有它的取值范围、业务定义等信息,元数据定义好了自然就可以应用到数据质量检测、评估等方面,进而通过数据质量管理流程真正提高企业的数据质量。5、降低数据系统建设成本假如元数据建设完备,所以取得信息会更准确快捷,使数据系统建设不返工或少返工,减少分析工作量,加强各方的统一理解以及沟通效率,进而使开发成本最小。6、

7、快速分析变更影响因元数据被集中维护并管理引用关系,当发生变更时,可以通过元数据管理系统以实时分析出其所影响的业务功能、应用系统、涉及人员、是否涉及监管等影响信息。7、为未来做好准备大数据、人工智能、数据湖、数据中台、商业智能等企业的战略级应用系统能够依赖良好的元数据管理而发挥出其应有的效果。数据仓库中元数据的组成元数据贯穿整个数据仓库,根据情况可以分为三种:业务元数据、技术元数据和管理元数据。业务元数据元数据知识库技术元数据1、业务元数=业务元数据主要描述“数据”背后的业务含义,从业务角度描述业务领域的相关概念、关系一一包括业务术语和业务规则。主题定义:每段ETL、表背后的归属业务主题。业务描

8、述:每段代码实现的具体业务逻辑。标准指标:类似于BI中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。业务元数据,在实际业务中,需要不断的进行维护且与业务方进行沟通确认。2、技术元数据指技术细节相关的概念、关系和规则,包括对数据结构、数据处理方面的描述。以及数据仓库、ETL、前端展现等技术细节的信息。数据仓库中的技术元数据一般包含以下4大系统:数据源元数据、ETL元数据、数据仓库元数据、BI元数据。(1)数据源元数据例如:数据源的IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及key指对应的值。(2)

9、 ETL元数据根据ETL目的的不同,可以分为两类:数据清洗元数据;数据处理元数据。数据清洗元数据:数据清洗,主要目的是为了解决掉脏数据及规范数据格式。因此此处元数据主要为:各表各列的”正确“数据规则;默认数据类型的”正确“规则。数据处理元数据:数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。(3)数据仓库元数据数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。(4) BI元数据汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题

10、领域、聚集、汇总、预定义的查询与报告。3、管理元数据管理领域相关,包括管理流程、人员组织、角色职责等。也有很多观点建议将管理元数据拆分融入业务元数据和技术元数据中。如何建设数据仓库元数据管理任何系统的元数据管理建设都是十分艰难的,数据仓库更是如此;但另一方面,这个建设过程又是非常重要的。我们暂以CWM标准作为数据仓库的元数据标准参考,在实际建设中进行借鉴,这样看起来更专业。CWM (CommonWarehouseMetamodel公共仓库元模型)是OMG组织在数据仓库系统中定义了一套完整的元模型体系结构,用于数据仓库构建和应用的元数据建模。公共仓库元模型指定的接口,可用于启用交换仓库之间元数据

11、仓库和业务智能工具、仓库平台、应用的元数据建模和仓库元数据存储在分布式异构环境CWM元模型由一系列子元模型构成。由于CWM制定时间是2001年,且过于细节深入,因此笔者认为其更适合作为开发参考而非开发标准。由于元数据包含极广,我们在建立元数据管理系统的时候,绝对不能盲目追求大而全、一步到位,要坚持目标驱动的原则,在实施的时候要采取增量式、渐进式的建设原则。具体的建设步骤如下:1. 在建设数据仓库系统的初期,只需确定源系统的元数据构成和数仓我们想要实现的元数据内容:比如,我们只想通过元数据来管理数据仓库中数据的转换过程,以及有关数据的抽取路线,以使数据仓库开发和使用人员明白仓库中数据的整个历史过

12、程。2. 确定源系统和元数据构成后,先将源系统的元数据整理并记录,可以用文档记录;也可以存入关系型数据库中。3. 随着数据仓库系统的建设,逐步将需要的元数据补充录入一一例如DM的语义层、ETL的同步规则。4. 数据仓库建设完成后,对元数据进行结构化、标准化储存。总之,建立元数据管理系统一定要坚持关注标准,又不被标准所束缚的原则,建立符合自身目标的元数据管理系统。元数据的应用场景1、影响分析在开发中,我们经常会遇到以下问题:如果我要改动某个表、ETL,会造成怎样的影响?如果没有无数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如果有成熟的元数据管理,那我们就可以直接得到答案,节省

13、大量时间。2、血缘分析血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系。在元数据管理系统成型后,我们便可以通过血缘分析来对数据仓库中的数据健康、数据分布、集中度、数据热度等进行分析。血缘分析是data science非常重要的应用,未来笔者会单独展开介绍。3、ETL自动化管理在数仓中,很大一部分ETL都是枯燥重复的步骤。例如源系统-ODS层的:表输入表输出。又比如ODS-DW: SQL输入一一数据清洗数据处理一一表输出。以上的规则其实就属于一部分元数据

14、。那理论上完全可以实现,写好固定脚本,然后通过前端选择一一或api接口。进而对重复的ETL实现自动化管理,降低ETL开发的时间成本。4、数据质量管理数据清洗的逻辑,简单的说可以分为不同的数据类型和指定的特殊处理列。我们只需指定不同数据类型的默认清洗规则,和部分特殊列的特殊处理逻辑,即可实现智能快捷的数据清洗。数据质量管理,属于 数据治理 与 元数据管理 交集,更偏向数据治理方面。未来也会展开更详细介绍。5、数据安全管理在阿里推崇的数据中台中,一切数据接口指标,都会从数据仓库中出口。因此理论上,我们只需在此处的元数据中对管理元数据的权限进行配置,即可实现全公司的数据安全管理。常见的元数据管理系统

15、1、apache atlasApache Atlas是Apache基金会的孵化项目,是Hadoop生态圈的数据治理和元数据框架。Atlas是一套核心基础治理服务的集合,有很好的伸缩性和可扩展性,能够满足企业对Hadoop生态系统的多样性需求,并能和企业的数据生态系统集成。它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。AppsAdmin UIRanger TagBased PoliciesBusinessTaxonomyMetadataStoreIndex StoreMetadata Sources但atlas的缺点是:只能对hadoop的元数据进行管理(虽然也是连的Mysql ),对传统数据库的支持力

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服