《数字化数据中台技术方案.docx》由会员分享,可在线阅读,更多相关《数字化数据中台技术方案.docx(22页珍藏版)》请在第一文库网上搜索。
1、数字化数据中台技术方案第一章数据中台概述1.1. 数据中台介绍数字经济时代,用户才是商业战场的中心,为了快速响应用户的需求,借助平台化的力量可以事半功倍。然而第一,之前在传统企业信息化建设中企业为了满足单一业务场景需求而搭建的传统技术架构,其底层技术选型大都无法支撑现有大数据应用场景。由此形成的技术壁垒,往往使得企业转型成本激增甚至无法实现转型;第二,在企业不断发展的过程中伴随着业务的多元化发展,企业信息部门单独建设或重建全新业务系统,逐渐形成了一个个相互独立的数据中心,从而导致大量系统、功能和应用的重复建设,更造成了计算存储资源和人力资源的浪费;第三,企业由于业务发展带来的组织壁垒而形成的数
2、据孤岛是数据壁垒最典型的场景。它使得企业数据难以被全局规划和定义,从而导致数据价值无法被充分挖掘。传统信息化建设往往以满足业务流程结果做为唯一标准,忽视了过程数据和关联数据。传统的数据平台和其所谓的三层技术架构:前端展示层、中间逻辑层、后端数据层,己经无法完善地解决上述三个问题并实现以用户为中心的业务提升的。当前企业数据的爆炸式增长以及价值的扩大化,数据将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服
3、务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。1.2. 数据中台价值中台从公司战略角度,将这些行为进行了规范化,公共的部分交给公共系统部门去做。中台实际上是通用业务的下沉,企业在一个行业耕耘多年之后,一般都会形成一些公用的业务,而这些业务是可以像中间件那样进行下沉共享的。政府企业机构等对内对外有了统一的业务系统、管理平台等等,就不会再有各种业务系统孤岛,不会有数据打通问题,不会有跨部门的数据墙。有了统一的中台,也就有了统一的触规范。对于大数据相关的需求,可以从相对唯一的数据出口进行业务迭代
4、,不需要为每一个部门进行定制开发,浪费人力。1.3. 数据中台设计原则1.3.1. 数据的一致性和标准性除遵循数据库设计的软件行业标准外,还要遵循国家、地方标准及行业的习惯性事实标准。此外,数据中台的建设中将充分考虑客户已建系统的数据,确保与客户现有数据的一致性和标准性。1.3.2. 数据的实用性和服务性数据中台设计充分考虑实际情况和应用特点,遵循服务性与实用性并重”的原则,通过数据整合与治理,数据高度可共享、和可根据实际需求不断灵活组合,为业务应用服务,数据质量高,保证数据的实用性。1.3.3. 数据的独立性与可扩展性设计时需要做到数据中台的数据具有独立性,独立于应用程序,使数据中心的设计及
5、结构的变化不影响程序,反之亦然。另外,数据库设计要考虑其扩展性能,使得系统增加新应用或新需求时,不至于引起整个数据中心结构的大变动。1.3.4. 数据的安全性通过设计合理和有效的备份和恢复策略,确保数据中心遭遇突发事故时,能在最短的时间内恢复。同时,通过做好对数据中台的访问授权设计,保证数据不被非法访问。1.3.5. 数据分级管理机制根据用户访问数据中台的角色,将用户分成决策分析用户、系统管理用户、运行浏览用户和运行调度用户等几个角色,分别赋予角色访问数据的权限和使用系统功能的权限,严格控制角色登录,实现数据的分级管理。1.4. 数据中台设计方法1.4.1. 基于面向服务的架构方法(SOA)基
6、于面向服务的架构方法(Service-OrientedArchitecture,SOA)采用基于面向服务的架构方法,构建智慧城市运营中心的业务流程和IT架构。SOA(面向服务的体系结构)将政府中各个系统应用程序的不同功能单元抽象为服务,通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的,它独立于实现服务的硬件平台、操作系统?编程语言。这使得构建在各种各样的系统中的服务能够通过统一和通用的方式进行交互。SOA架构由服务总线、服务目录、门户、流程管理等几个核心组件构成的。这些核心组件协同工作共同支撑服务的部署、运行与管理监控。1.4.2. 业务系统规划法(BSP)业务系统
7、规划法(BusinessSystemPIanning,BSP)的关键思想是将业务的长期战略目标转化为信息系统的战略目标,通过对业务战略的分析导出信息系统的规划。业务系统规划法(BSP)采用的基本方法是自顶而下”的识别业务目标、企业过程和数据自下而上”地分布设计系统,这样可以解决大型系统难以一次性设计完成的困难,也可以避免自下而上分散设计可能出现的数据不一致。业务系统规划法(BSP)的规划步骤:(1)准备工作;(2)调研;(3)定义业务过程;(4)业务过程重组;(5)定义数据类;(6)定义信息系统总体结构;(7)确定总体结构中的优先顺序;完成BSP研完报告,提出建议书和开发计划。1.4.3. 系
8、统工程理论系统工程方法将相关问题及情况分门别类,确定边界,侧重各门类之间内在联系,确保处理方法的完整性,采用全面和运动的观点、方法分析主要问题及整个过程。其具有综合性、科学性、实践性的特点。利用系统工程理论指导软件开发和维护,主要使用工程化概念、原理、技术及方法开展软件开发、维护的工作。采用系统工程方法用系统的原理、方法研究系统的对象,立足整体系统,制作出科学的工作计划及流程,有效地完成任务。系统工程方法依从系统全局观点,从系统与要素、系统与环境之间相互联系、相互作用出发研究相关对象,实现最佳处理问题的目标。其基本内容有:全面调查研完有关资料和数据,提取有效信息,系统了解相关问题信息,进一步确
9、定完成任务所需条件:提出相关方案,展开定性和定量的理论分析,进而进行实验研究,客观评价系统技术性能、经济指标,注重社会效果,为最终方案在理论和实践上做铺垫;经由系统分析与综合,比较和鉴别出最优系统设计方案进行实施;依据系统设计方案,指定有效计划,将开发研究出的系统投入使用,并对系统的性能、工作状态及社会反应做出相关评价和检验。系统工程方法在计算机软件方面应用广泛,同时起着重要作用。结合系统工程方法的特点,在计算机软件设计阶段可规范其流程,促使计算机软件设计进程加快,同时提高开发人员的工作效率,为软件系统研发速度的提局打下基础。第二章数据中台核心功能2.1. 技术架构目前各政府机构和企业的信息化
10、平台数据按结构类型主要三种,分别是:结构化数据、非结构化数据、半结构化数据三大类;结构化数据存储在关系型数据库中;非结构化数据主要包括音视频、图片、文档等,通过分布式文件系统在数据库进行统一管理;半结构化数据是结构化数据的一种形式,但它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,例如:日志文件、XM1文档、JSoN文档、Emai1等。建设数据中台的过程中,这三类数据都会做为数据源出现,因此数据中台要能够妥善地处理这三种类型的数据。数据中台基于数据资源多样性的特点和能够高效支持业务的目标,结合设计规划方法论、原则和规划思
11、路,统一数据资源系统规划建设大数据采集体系、数据资源融合体系、数据分析体系和数据共享服务体系,将数据安全和数据标准融入四大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和共享服务的能力,不断丰富和完善数据中台。数据中台主要包含:数据采集接入平台、数据加工处理平台、数据组织管理平台、数据综合治理平台、数据共享服务平台、数据挖掘分析平台、数据可视化平台和统一管理平台等多个支撑系统组成。2.1.1. 层次架构基于数据资源的需求分析和愿景目标,结合设计规划方法论、原则和规划思路,统一数据资源体系规划建设大数据采集体系、数据资源融合体系、数据分析体系和数据共享服务体系,将数据安全和数据标
12、准融入四大体系之中,通过智能演进不断提升数据接入、处理、组织、挖掘、治理和服务的能力,不断丰富和完善数据中台。数据资源总体架构图如下所示:2.1.2.2.1.3. 逻辑架构统一数据资源体系的规划建设是数据建设的核心,承载着高效使用底层平台能力进行海量数据的动态感知采集和接入、标准化和智能化处理、精细化组织、全维度融合、精准可控的共享服务、多手段集成安全等关键责任和重任。为实现上述目标,统一数据资源体系规划了三大体系:大数据感知采集体系、数据资源融合体系以及数据共享服务体系。系统功能设计上,主要包含:数据接入、数据处理、数据组织、数据挖掘和数据治理、数据共享服务。各个模块的功能构成如下:2.1.
13、4.2.1.5. 数据架构数据中台数据架构是针对多源异构的数据场景,在数据组织层面为数据的接入、融合及智能数据应用服务等提供稳定、高效的支撑。从数据的接入方式、存储方式、加工方式、使用方式等方面综合考虑,资源库是在原始库的基础上进行数据的规范化治理及基于数据主题的整合;主题库是以原始数据、资源数据为基础,构件实体关系模型,并在此基础上形成的知识图谱和事理图谱等;业务库是为了支撑不同业务场景所定义的相关数据结构。知识库是专业领域或与专业领域相关的特征知识数据和规则方法集合。此外还包括整合数据索引信息的统一索引库;记录了本平台及与平台相关的数据的属性、位置、数据量、权限等基本信息的数据资源目录;记
14、录了技术元数据、业务元数据、管理元数据的元数据库;以及为交互分析挖掘规划的数据实验空间和记录平台相关管理配置信息的管理信息库。数据架构图如下:2.2.2.3. 数据统一采集接入平台2.3.1. 平台架构采用统一的辘接入模式,以标准化、模块化的方式进行多源异构数据资源的接入;提供采集全面、动态可配的数据接入机制,实现数据的获取分发、策略配置、任务配置、任务调度、数据加密、断点续传等数据接入功能;当接入时,同时维护数据资源目录,以及数据血缘信息。2.3.2. 数据流程平台提供一站式的数据迁移接入功能,内部数据通过专用数据通道进入统一接入平台,可在接入过程中做初步的清洗加工,并提供可视化的任务调度运
15、行管理,并向数据智能管理和数据治理提供数据支撑。2.4. 数据加工处理平台数据加工处理是实现数据标准化的过程,包括了数据的提取、清洗、关联、比对、标识、对象化等操作,支持实时计算和离线计算,支持批量处理操作。数据传输过程支持分布式数据传输方式。在数据处理过程中,引入人工智能技术,实现结构化和非结构化数据的处理,采用图计算和内存计算技术,实现数据的价值提升。在数据处理过程中,引入模型体系和标签工程和知识图谱技术,进一步提升数据价值密度,为数据智能应用实现数据增值、数据准备、数据抽象。2.4.1. 平台架构数据处理遵循相关标准,通过对数据进行提取、清洗、关联、比对、标识、对象化、构建知识图谱等规范
16、化处理流程,实现异构数据的标准化及深度融合。数据处理采用开放式架构,能够以统一、标准、易于扩展的方式进行数据处理流程的动态编排。同时,在各环节引入了自然语言处理、多媒体信息处理和机器学习等技术,实现对数据的智能感知和认知。2.4.2. 数据流程2.5. 数据组织管理平台2.5.1. 平台架构数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。资源库是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。主题库通过归并