《数字化转型的数据基础设施.docx》由会员分享,可在线阅读,更多相关《数字化转型的数据基础设施.docx(10页珍藏版)》请在第一文库网上搜索。
1、数字化转型的数据基础设施1数字化转型背景下,企业数据平台面临多重挑战1.1数据平台是支撑企业数字化转型的核心基础设施数据平台是企业进行数据分析和数据应用,从而实现数字化转型的核心基础设施。通常,数据平台包含数据采集与接入、数据存储与计算、数据管理、数据分析与挖掘、数据服务等功能。从业务的角度,数据平台支撑了企业数字化转型的各项需求,企业因此能够实现精细化运营,从而降低运营成本、提高运营效率、提升创新能力。具体而言,通过数据平台的应用,企业可以在业务中实现数据驱动,从而达成以下目标:1)准确洞察用户画像和用户需求;2)及时感知市场趋势;3)降低管理和生产成本;4)设计和生产出更符合用户需求的产品
2、;5)更快地推出和迭代产品。1.2企业数据管理与应用正面临一系列挑战近年来,面对市场环境的快速变化,以及政府对发展数字经济的促进举措,企业对数字化的价值的理解愈加深刻。在各行业企业或政府部门纷纷加快数据基础设施的建设的同时,数据在企业经营管理中的应用广度和深度也随之极大地扩展,由此带来数据管理与应用的一系列问题和挑战。(1)数据规模持续膨胀,数据资产管理重要性提升随着企业业务的快速发展以及全面的数字化,企业内部业务和数据系统会变得众多,当这些数据汇聚之后,需要处理的各种结构化和非结构化数据的数据规模也因此急剧膨胀。这给企业的数据应用和数据资产管理带来了以下问题:1)不确定数据价值,企业用户往往
3、不能确定系统中有哪些数据,也不知道自己的业务问题可以使用哪些数据来解决。2)不能共享数据。企业缺少统一的数据管理标准,导致各业务部门之间难以对数据进行汇聚、共享和使用,从而无法发挥大数据的协同价值。3)难以获取所需数据,用户获取所需数据的过程太长和复杂,且缺乏有效的数据开发工具,导致用户获取和使用数据存在困难。(2)数据应用场景持续扩展,敏捷性、易用性、实时性、智能化要求提升为了充分发挥数据的价值,数据驱动的决策和业务应用正逐渐渗透进企业的各个部门和各个业务线。面对数据应用场景的持续扩展,企业对其底层数据平台也提出更高的技术和能力要求,包括了敏捷性、易用性、实时性、智能化四个方面的要求,具体如
4、下:敏捷性,企业存在大量数据分析,尤其是创新性的数据分析和应用需求。但传统竖井式建设的信息系统修改困难、集成混乱;企业缺乏自有的技术开发能力,无法快速响应业务需求。易用性。数据平台逐渐由赋能数据部门转向全面赋能业务部门,而使用传统数据平台需要的编程和数据分析能力是大部分业务人员所不具备的,因此需要新一代的数据平台具备低门槛的自助分析能力,适应不同能力的数据或业务人员。实时性。企业在生产和运营中存在越来越多的实时决策场景,如何快速查找、分析和获得数据洞察是当前数据平台面临的一大挑战,需要从平台的架构设计、计算和存储引擎,以及业务流程优化上满足数据分析的实时性需求。智能化。在数据应用越来越多的背景
5、下,企业相关的人力配备已不能满足需求,因此需要平台具备智能化的能力,一方面在数据分析环节引入自动化能力,减少人工操作,降低人力成本。另一方面,通过平台的智能预测能力,提高业务决策效率和能力。(2)数据安全合规要求趋严数字化时代,数据安全风险已经渗透在数据应用中的各个层面,例如数据采集、数据传输、数据存储、数据共享等,因此企业数据泄漏造成的损失和风险的可能在加大。与此同时,大众对数据隐私的关注,加上监管对数据安全要求的趋严,都促使企业在搭建新一代的数据平台时,需要在各个层级上都建立完善的安全机制防范数据泄漏的风险。表1数据安全重点法律法规主内&xoSAA“人f1KJC,PQ.m:,迎口ItM决万
6、3JRf1UIU,备,ms不1”以个人。口内办及0ein整*K:7tfWim1r.WBWr.h*iM,1而aamAr理m,.曾i.oMAX4QMtf温力KUaEMr殳生仆-禽虫9季IUra金力竺*Im(JB桃M公It美,to*角奥Q总化“dItWOiSiKtixeccfiC1r:化作文敛*灾金1ttM2曜安量&京津性力*;&,/金如/权X加位8IO公”E1(AA(WegWMD&伊E1死公RGA0息信:5力*t7个人、netr.2构建新一代数据基础设施:数据智能平台2.1 数据智能平台的定义要定义新一代的数据基础设施,我们首先需要阐明在之前的发展阶段中,不同阶段的数据基础设施产生的原因、应用场景
7、和面对新阶段的需求时的局限性。数据基础设施经过数十年的发展,已经依次经历了三个阶段:数据库、数据仓库、大数据平台。在数据库阶段,企业对数据的使用需求主要是面向管理层从宏观层面对公司的经营状况做描述性分析,处理的数据为有限的结构化数据。在数据仓库阶段,企业对数据的使用需求从面向管理层拓宽到面向业务人员,主要满足一些业务监测和洞察类的数据查询和分析需求,处理的数据依然以结构化数据为主。在大数据平台阶段,企业需要处理大规模、多源异构的数据,对业务的监测和洞察也更多地偏向诊断性和预测性分析。而到了2019年之后数字化转型的新阶段中,企业对数据应用的范围从之前的管理层和部分业务人员扩展到了跨部门、跨企业
8、的数据共享,需要进行大量面向业务,实时和智能决策的探索式、自助式分析,并且需要处理超大规模的多源异构和实时数据。如第一章节所述,这些变化对数据管理和应用带来了一系列挑战和需求,传统的数据平台已经无法满足,新一代的数据基础设施即是要解决这些问题。HWe电”2*为YE先IWQ啊讨,为即尸尸1力力:卜分总惠一0的融也食口.arur2K!iiftM力空更qv*,夕幡京EMe&、N或化大BSC.叫K叱大iEffP.*kWW1E现WFa.Fi1k!MKk*/人乂*也、必人三、HrtE见习,WN*Gb,益Mtf1a4144图2数据基础设施的演进历程因此,新一代的数据基础设施,数据智能平台,可以被定义为企业数
9、字化运营深入阶段的统一数据能力平台,能够对数据资产按统一标准进行管理以方便数据可用,并满足企业对数据应用的敏捷开发、实时响应、简单易用、智能分析等需求,同时具备完善的数据安全机制。2.2 数据智能平台的核心能力基于对数字化转型深入阶段,企业在数据管理和应用中需要面对和解决的问题的理解,以及对一些行业领先企业在搭建数据智能平台中的实践案例的调研和经验总结,正在兴起的新一代数据智能平台需要具备云原生、A1增强、敏捷开发与应用、实时数据处理与分析四大核心能力(如图3所示)。图3数据智能平台的四大核心能力(1)云原生云原生是指在应用的设计阶段就为了云的运行环境而设计,包含微服务、容器化、DevOps持
10、续交付等特征。云原生架构能够为数据平台带来以下主要能力优势:1)云原生架构下大数据组件都是以容器化的形式来部署,企业因此能够快速的开发、测试、迭代和上线大数据应用,并且方便了数据的共享和复用。2)快速集成新的开发工具。企业经常需要在数据平台中尝试新的功能组件,由于主流的开源软件基本都提供了容器化部署,因此能够快速集成到云原生架构的数据平台中。3)降低系统复杂性和运维成本。在云原生架构的数据平台中,Kubernetes、MeSOS等工具能够实现统一的资源管理和调度,这极大提高了系统复杂性,提高了运行效率,并且在数据平台中部署和运行分布式系统也更加便捷。4)轻松实现存算分离和弹性伸缩,降低使用成本
11、。云原生架构能够轻松实现计算和存储资源的分离,企业因此可以按照需求分别使用存储和计算资源,这降低了使用成本,也简化了多云和混合云部署。(2) A1增强A1增强是指利用机器学习和人工智能技术使数据清洗与准备、数据分析与可视化、机器学习等分析过程中实现部分环节的自动化,从而节省大量的人力成本。A1增强的自动化能力主要体现在数据智能平台运营过程中的以下环节:1)数据清洗与准备:自动匹配,联接,分析,标记和注释数据;推荐用于连接、丰富、清洗数据的最佳方法;自动执行重复的转换和集成;自动识别数据沿袭和元数据。2)数据分析与可视化:自动查找和描述数据中的相关性、异常、聚类、关键驱动因素和预测等;自动生成图
12、表或报表;可视化或对话界面(N1Q&N1G)查找和分析数据。3)机器学习:自动特征工程;自动模型选择和参数调整;自动模型部署和监控。(3)敏捷开发与应用数字化的核心目标之一是要能够支撑企业的商业创新,尤其是当数据和数据应用的规模和复杂性越来越大的时候,企业要去尝试各种新的数据应用,就需要数据平台具备相应的敏捷响应能力。数据智能平台的敏捷性主要包括了工具集成的敏捷性、数据开发的敏捷性、数据分析和应用的敏捷性。1)工具集成的敏捷性,当企业需要尝试新的数据应用时,经常需要用到一些新的分析框架,如前文提到,云原生架构能够为企业提供快速接入和部署新的工具或组件的敏捷化能力。2)数据开发的敏捷性,数据开发
13、的目的是使用各种工具,包括数据建模、数据探索、数据查询、机器学习、数据可视化等,来完成数据分析。要实现敏捷的数据开发,通常需要企业构建一站式的数据集成和开发平台,提供大数据的汇聚、加工、服务、资产管理等全流程能力,并降低其使用门槛。3)数据分析和应用的敏捷性。实现数据分析和应用的敏捷性数据平台在底层数据管理和数据分析工具上有相应的功能设计,比如,通过建立标签体系方便用户将数据快速应用于业务,通过提供可视化的分析工具灵活地满足用户的分析需求,通过A1增强能力自动识别有价值的数据并推送给用户等。(4)实时数据处理与分析为了应对企业越来愈多的实时性数据分析需求,数据平台需要在以下层面具备实时性的数据
14、处理能力:1)实时的数据接入和数据采集应用Kafka、RoCketMQ等工具实现数据的实时采集。同时,对于核心业务系统数据,进行被动采集;对于用户访问行为习惯等数据,则会进行主动采集。2)实时的数据计算与查询。基于FIink等实时计算引擎,以及指标计算、规则计算、模型计算等多种计算处理能力,构建数据平台的实时计算和查询能力。3)实时的数据分发。通过Kafka实现灵活的数据分发,以承载不同用户的实时业务。4)流批一体。由于企业在业务分析中使用的数据范围越来愈多地横跨历史数据和实时数据,需要数据平台具备流批一体的能力,用一套逻辑描述流与批业务,用一个引擎也能处理实时和离线数据。2.3 新一代数据智能平台的架构结合前文所述的当前企业在数据管理和应用中面临的挑战,以及对一些领先企业搭建的数据智能平台的架构进行归纳总结,如图4所示的数据智能平台的典型架构。NtT*,-MWA力,嗡图4数据智能平台的典型架构可以看到,新一代的数据智能平台的架构至少在五个层面具有区别于传统数据平台架构的特征。表2数据智能平台与传统数据平台的主要区别M:通分ifenxi图5数据智能平台建设的关键环节3.1 顶层战略规划数据智能平台是支撑企业数字化转型的新一代数据基础设施,是企业各部门各业务线共同的数据平台和数据服务体系,因此,数据智能平台的建设的核心目的是服务于企业的整体战略目标和业务目标。同时,数据智能平