《企业级数据目录实战:从组织、方法、流程到平台.docx》由会员分享,可在线阅读,更多相关《企业级数据目录实战:从组织、方法、流程到平台.docx(11页珍藏版)》请在第一文库网上搜索。
1、企业级数据目录实战:从组织、方法、流程到平台一、设立企业数据责任人是第一要务大家都知道组织保障对于数据治理工作的重要性,但组织保障中最 重要的工作是什么呢?不是什么企业数据治理委员会,也不是什么数据治理办公室,而是企 业要明确设立企业数据责任人,因为任何组织、机制、流程都会僵化,只 有企业数据责任人才能灵活的应对变化。只要企业数据责任人在,就能够 持续的给予数据团队业务方向的指引和实际资源的的支持,没有企业数 据责任人,企业的数据治理工作就不可持续。公司设立了企业数据责任人后,第一件事情就是定期召开数据治理 跨部门联席会议,重点推进解决跨部门跨领域的数据痛点难点问题,当所 有部门的人能被组织在
2、一起就一个数据问题开展讨论,这就是巨大的成 功,很多数据问题并不难,难的是有人决策拍板。数据治理跨部门联席会议第一次会议的第一项任务,就是要求数据 管理部门牵头,协同公司各部门进行系统与数据资产的梳理工作,这是企 业级数据目录构建的起点。二、配备专门人员负责数据目录工作企业数据目录是非常专业性的工作,即使是小如数据目录梳理模板 制定,数据目录到底是按照主题分类,领域分类,或者是系统分类,都需 要仔细分析,因地制宜。因此,企业数据目录是不可能靠外人帮忙打造的,咨询公司也许可以 提供一些建议,但也仅此而已,公司一定是要有专业的数据团队人员来负 责企业数据目录的构建工作。那么这些人员从哪里来呢?从当
3、前各部门从事数据相关工作的人里抽调。我们可以少做点报表, 少做点取数,但一定要有人专项从事数据目录的构建工作。现在国家已经在考虑数据资产入表了,而企业如果连自己的数据资 产家底都搞不清楚,怎么可能入表?试点都不可能。想想一个公司财务部有多少人在搞现金、实物资产的管理,就应该能 想明白企业应该有人去专门从事企业的数据资产的管理工作,这是全公 司的事情,不是IT部门的事情。三、构建企业级三大数据目录的方法企业数据目录自底向上有三个层次,分别为数据资源目录、数据资产 目录和数据开放目录,对应于数据处理生命周期不同的阶段。数据资源目录用于纳管源端系统的所有资源,代表了一个企业的数 据全景视图。数据资产
4、目录是数据资源入湖后加工完的全景数据视图,能够称为 资产的数据一般要具备业务价值属性。数据开放目录是指在数据资产目录基础上删选后进行开放的全景数 据视图,一般要综合考虑数据安全性等因素确定,数据开放是数据价值进 一步发挥的基础。三大目录的关系如下图所示:赋能消费开放目录数据资产目录资源目录数据汇聚整晦源1、数据资源目录每个企业都应该设计自己的数据目录盘点方法,首先要确立盘点步 骤,以下是一个“五步法”的示例:现状调研面向业务人员开展需求调研,明确范围、内 容、质量等要求.制定模板制定盘点的标准化模板,以指导各领域开展 盘点工作。系统梳理由各领域数据责任人开展所辖IT系统的梳31审核确认由公司数
5、据责任人对领域梳理的蜘S资源进 行审核确认。资产发布经过审核确认之后在企业级数据资源目录上 发布.(1)现状调研:面向业务人员开展需求调研,明确范围、内容、质量 等要求(2)制定模板:制定盘点的标准化模板,以指导各领域开展盘点工作(3)系统梳理:由各领域数据责任人开展所辖IT系统的梳理(4)审核确认:由公司数据责任人对领域梳理的数据资源进行审核确 认(5)资产发布:经过审核确认之后在企业级数据资源目录上发布其次是建立数据资源目录的架构,以下是一个五级目录架构的示例:分层结构定义举例Ll业务域B域业务域以数据视角体现公司最高 层面关注的业务领域(1)业务域:业务域以数据视角体现公司最高层面关注的
6、业务领域(2)业务子域:业务子域是互不重叠数据的高层面的业务分类(3)业务系统:业务系统是信息架构的核心层,记录业务相关的人事物(4)数据实体:数据实体是具有一定逻辑关系的属性的集合(5)属性:属性是反映信息管理最小粒度,即表字段最后是设计标准属性,以下是40个标准属性示例:系统元数据标准表元数据标准系统名称系统缩写一/二级域归属系统业务含义资产数数据连接串系理部门/联系人系统建设部门/联系人管控方式实体表名表中文名表业务含义归属系统归属数据连接名字段数 记录数数据更新周期开放等级是否使用 使用量管理部门系人字段元班标准字段名称字段中文名字段业务含义枚举值含义归属表名归属表中文名字段类型字段长
7、度是否允许为空开放等级业务元雌技术元雌管理元数据有了数据盘点方法这种顶层设计,才能让企业各个领域按照统一的 标准完成自身领域数据资源资源的盘点,从而初步形成企业级数据资源 目录。在梳理的过程中,会涉及到填写不准确,不规范等大量问题,因此还 要因地制宜的制定操作规范,比如明确字段业务含义的描述方法。这种细化的规范不可能一开始就定义的很明确,往往是边做边细化, 逐步迭代。最关键的就是一定要先做起来,有些成果了,大家有信心了, 再继续完善。2、数据资产目录数据资产一般是基于业务需要进行数据仓库主题建模的结果,按照 数据的加工程度自底向上可以分为为基础模型、融合模型和挖掘模型。基础模型就是规范化后的数
8、据,融合模型就是跨业务域整合后的数 据,挖掘模型就是通过建模后获得的知识,比如标签等等。由这三类数据 形成分层级的数据资产目录的第一层,然后在基础模型、融合模型、挖掘 模型下还可以按需进行层级的进一步划分,具体如下所示:3、数据开放目录数据要素要充分流动起来才有价值,因此企业数据治理组织除了自己加工 数据,还需要对外去开放数据,但对外开放数据不是越多越好,而是要在确保 安全的条件下实现数据价值的最大化,这就需要在数据资产目录的基础上生成 第三个数据目录,即对外开放目录,下面是一个示例:基础模型融合模型挖掘模型B域O域M域SS快捷开放II可控开放严控开放不同的数据敏感程度不同,开放的对象和审批的
9、要求也不一样,因此对外 开放目录必须标识清楚每个数据的敏感等级,比如快捷开放、可控开放、严控 开放等等,针对每个敏感等级数据要制定不同的开放流程,比如数据上架流程, 数据等级标注流程等等。四、实施企业数据目录动态闭环管理完成了企业数据目录的制定只是第一步,最关键的还是要实现数据目录的 闭环运营,即确保数据目录的常态化动态更新。很多企业虽然建立了数据目录,但这些目录的构建往往是项目式的,一旦 项目完成,关注点转移,数据目录就基本停止更新或者很少更新,这样的数据 目录也就逐渐失去了价值。我们需要围绕数据目录建立一套保障机制和流程,下面以数据资源目录动 态更新为例说明,共分为四个步骤:建立数据资源自
10、动化盘点机制流程环节一、数据发现二、价值判断三、元数据录入四、审核发布系统责任人技术元数据:对系统 自动采集的技术元数 据进行检查完善领域级数据责任人价值评估:对数据资源 进行评估,确认有价值 的数据资源.业务&管理元数据:补充数据资源的业务 元数据和管理元数据企业级数据责任人数据资源 管理系统自动扫描:发现新增或 发生变更的 数据资源自动筛选:剔除表名和 一数据量非正常的表,筛选出新增资源清单自动对比:得到存量数 据资源的字段变更渭单资源审核:依据资源发布标准,对元数据质量 进行审核资源发布:发布到数据资源目录(I)数据自动发现第一、要实现源端系统的元数据的自动采集和管理,这是实现数据资 源
11、目录动态更新的前提,依赖于企业系统资产的全量梳理和系统资产变 更信息的及时同步,我们要能及时发现新增和变更的系统并获取连接的 方式,如下所示:第二、要实现针对源端数据资源的实时扫描,自动发现变更的数据资 源并同步相关元数据信息,从而触发后续后续一系列的数据资源目录的变更流程,比如我们每月发现的变更数据资源超过800项,因此会触发800个任务单去进行审核确认。自动扫描源端系统据信息(2)数据价值的判断扫描到的新增数据资源并不一定要入湖,因为很多领域的数据资源 没有现实的业务价值,采集进来并且维护这些数据的性价比非常低,这个 时候就要由领域数据责任人对数据价值进行判断并进行标识,标识为价 值数据资
12、源则启动入湖流程。点到据盘得数价值识别规则价值判断模型值据(3)元数据补充录入领域数据责任人需要基于数据标准对数据资源的元数据进行补录和 完善,公司数据责任人进行审核,共同确保元数据的质量。业务元数据技术元雌管理元数据(4)数据目录审核发布根据数据盘点结果,自动对数据资源目录进行动态更新,使得数据资 源目录保持在最新状态,确保数据资源找得到,看得懂。数据资源目录数据分层分类元数据信息数据资源动态目录一旦建立起来,就可以基于数据资源动态目录实现一键入湖的能力,省去了传统ETL复杂的系统对接、需求确认、开发流程三、汇聚任务执行-键入湖能力一、配置汇聚参数发起汇聚:人工配置汇聚条件信息,自动 填充字
13、段、数据库等信息.二、自动创建模型/程序/调度罚度任务 ,度图S,查- 旦L引擎自动填充字段、 数据库等信息配置、部署上线等系列工作,大幅提升ETL的效率,这也算是实现了真 正的数据编织能力,如下示例。数据目录的闭环运营是个复杂的过程,比如数据资源目录需要领域责任 人完善元数据,数据资产在上架到数据开放目录之前需要明确数据敏感等级, 这些都需要建立相关的制度和流程才能保障。因此,一个企业是否具备数据 编织能力,前提是管理到位,光吹技术是没有用的。五、打造企业级的数据目录管理平台系统是流程的保障,三大目录都要有相应的流程支撑平台,数据目录是 跟着生产流程走的,千万不要打造什么专有的数据目录管理平
14、台。以数据资源目录为例。 公司需要打造企业级的数据资源管理平台,实现数据资源目录的线 上化、自动化管理,确保数据资源能发现、能找到、能看懂,同时为数据入湖提供一站式支撑。数据资源管理平台的功能架构如下所示,共分为数据盘点线上化、数据 入湖配置化、数据资源可视化及后台管理配置化等功能。数据盘点线上化主要是对源端系统进行自动化扫描,通过对元数据 的采集形成数据资源目录。数据入湖配置化主要基于数据资源目录对源端数据进行入湖。后台管理配置化主要是实现对数据资源目录的配置管理及标准管理, 数据资源可视化主要面向运维管理人员和资源运营人员,提供数据资源 看板等功能。数据资产目录的管理一般集成在数据开发管理平台,数据开放目录 的管理则是在数据开放管理平台进行承载,这三大目录既相互联系,又分 别为不同的业务目标服务。数据目录往往是企业数据治理的起点,一个企业只有把数据当成账 本那么管理,为其建立一套保障机制和流程,才有资格说我真的把数据当 成了资产和资本,如果连这一点都做不到,就不要提什么重视数据诸如此 类的话了。