大数据平台数字化运营探索与实践.docx

上传人:lao****ou 文档编号:1103129 上传时间:2024-11-05 格式:DOCX 页数:9 大小:73.59KB
下载 相关 举报
大数据平台数字化运营探索与实践.docx_第1页
第1页 / 共9页
大数据平台数字化运营探索与实践.docx_第2页
第2页 / 共9页
大数据平台数字化运营探索与实践.docx_第3页
第3页 / 共9页
大数据平台数字化运营探索与实践.docx_第4页
第4页 / 共9页
大数据平台数字化运营探索与实践.docx_第5页
第5页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《大数据平台数字化运营探索与实践.docx》由会员分享,可在线阅读,更多相关《大数据平台数字化运营探索与实践.docx(9页珍藏版)》请在第一文库网上搜索。

1、近年来,以大数据、区块链、云计算、人工智能等新兴技术为代表的金融科技如火如荼发展,创新应用层出不穷,深刻影响和重塑着银行的信息科技架构与数据资源运营模式,并促使银行内部管理和服务业态实现数字化转型。在此过程中,支持海量数据存储和高效计算的大数据技术作为其他应用的核心基础,为推动银行数字化转型提供了关键支撑,尤其在数据资源已成为金融行业重要生产要素的大背景下,数据规模以及大数据技术运用水平己然是银行核心竞争力的重要体现。一、数据服务质效提升面临的挑战现阶段,银行大数据服务平台建设大多借鉴国内外同业及互联网企业实践经验,通常是基于HadOoP生态技术组件(如HiVe、Spark、FIink等)以及

2、MPP-ShareNOthing技术架构平台(如Teradata、Greenp1umGaUSSDB等)构建,以支持PB级大规模海量数据的存储和计算。同时,银行内部业务数据与外部引入数据也被大规模汇集在大数据平台,以便于提供一站式融合数据服务,以及满足风险防控、客户管理、精准营销等各类决策分析和业务运营场景需要。在此基础上,业务场景以数据应用集市为体现形式,各类数据采集、加工处理以作业或任务为单位,数据作业调度系统依据海量作业之间的业务逻辑和先后依赖关系,最终形成了一个巨大的有向无环图(DAG)。然而,尽管大规模数据集成与共享带来了极大便利,但持续优化管理和质效提升仍面临巨大挑战。如今,随着银行

3、数字化转型深入推进,”业务数据化、数据业务化”及大规模数据集成与共享成为“新常态”,并促使大数据平台的总体数据量和数据分析类应用作业量迅猛增长,且接入系统和数据应用间关联耦合、盘根错节。在此背景下,大数据服务平台的重要性、数据集中运用的便利性口益凸显,而相应的问题和矛盾也逐渐显现。挑战1作业认知困境。随着作业量急剧增长,如何方便、快速、客观、全面地了解任意一个作业,包括运行属性、维护情况、业务场景、下游相关影响等内容,成为大数据平台在口常运维、故障处置等方面最为基础且迫切的需求。眺战2耦合关联困境。大数据平台汇集四面八方的数据,之后再进行集中贴源式存储或按主题模型整合,并会附带业务领域公共汇总

4、服务、数据应用间相互共享等机制,这一趋势推动数据分析类应用日渐丰富,却也极易造成系统和应用间深度耦合、故障异常产生关联影响以及数据加工处理链路过长等问题。对此,商业银行急需分析解耦、优化数据模型,并建立共享管理机制,但因缺乏常规、有力的工具和手段支撑,往往需要组织资深人员展开专项处置。眺战3时效提升困境。增强数据服务时效性既是引入大数据技术的初衷之一,也是其发展演进的必然要求,尤其当涉及某个具体业务的应用场景时,更需要确保上游整个数据加工处理链路端到端的时效优化和监控保障。但是,伴随系统应用间关联耦合、数据服务加工链路迅速增长,给数据应用的时效提升方案评估和监控保障带来极大困难。眺战4数据使用

5、困境。”找到想要的数据”是大数据分析建模、赋能业务的重要前提。特别是面对大数据平台中存在的海量数据表,如何快速透视一张表的数据血缘,了解其加工口径,是当前确认数据所需的关键环节。眺战5平台运营困境。面对数据应用众多且无法自主开展等难点问题,大数据平台面临巨大的运营压力,包括如何客观准确分析现状、减少对资深人员的经验依赖和主观判断、优化数据应用分布以及避免重复建设等,都已经成为急需解决的重要课题。在此背景下,常规的运营管理方式显然己无法满足大数据应用快速拓展和持续优化提升的需求,平台运营服务模式亟待改进。二、大数据平台数字化运营实践长期以来,大数据平台运维挑战的背景原因虽各不相同,但处理方式依然

6、有规律可循,即基于需求和问题,借助工具收集相关数据,经人工分析后再行解决。然而,随着银行数字化转型的深入推进,数据规模、作业数量、应用数量均迅猛增加,业务场景对数据服务质量和水平的要求也日益提高,传统的运维实践效率己无法有效应对新形势下的新挑战。对此,笔者团队借鉴客户经营领域的标签画像理念,创新提出了基于作业标签和应用画像的大数据平台数字化运营管理方案(如图1所示)。数据作业标签&画像设计方案(六类标签十五维评分)运行耗时衍生标签(量高、平均、方差)、链路圉及衍生标签(整体、内部、精简)、完成时间分布IO何斜率图1大数据平台数字化运营管理方案1数据应用画像框架结合实际运维及优化场景,笔者团队通

7、过对决策相关信息数据进行挖掘、筛选、归纳、整合,得出了一系列“语义化”和“短文本”标签,并最终形成了作业标签和应用画像。本文所述作业画像主要由六大类标签组成,包括基础属性、运行效率、业务影响、运行时效、数据血缘和资源消耗等,并就除基础属性外的五个方面进行了更高层次的量化评分。数据应用画像标签如图2所示。具体而言,数据应用画像是对应用集市级属性标签的归纳和集中展示,其从用户角度出发,力求直观反映基础属性、资源使用、应用能力、时效层级等情况,并透视数据应用间的关联耦合度。基于此,平台用户将可以通过画像对当前应用进行全方位了解,有效加快知识信息的交流、传播速度,并最大限度减少信息不对称问题。基本信息

8、应用名称、业务场景、作业分类、批次数量、上线日期资源使用成本计价:存储占用、CPU耗时、Ic)-使用、分摊占比、成本计价降本增效:空间利用、大表TOP10、倾斜ToPI0、高耗ToPIO等关联应用描述系统与其他系统耦合度的标签例如:亲和度T0P3相似度T0P3时效层级时效方面:各批次完成时间、作业完成时点分布层级方面:作业层级分布、重点关注作业图2数据应用画像标签示意2 .实践运用案例大数据平台在处理开发实施、作业调度和计算分析时,经常伴随产生大量的衍生数据,对此,笔者团队按照作业标签类型自下而上地全面收集数据,建立模块化、流程化、规范化的数据收集管理规则,将收集数据按照统一标准进行了整理,其

9、中数据来源包括但不限于作业基础配置信息、系统和调度运行数据、作业脚本运行日志、日常开发维护数据。例如,某作业A突发故障需要处理,值班人员可以通过移动端获取作业标签等信息了解该作业的基础属性和业务影响信息,进行快速决策。如需进一步分析,则值班人员可通过PeTyeb端作业画像功能页面进行深入分析。该页面不仅是作业标签及画像设计的完整实现,同时集成血缘解析、关键路径分析等运维工具可提供一体化服务,支持用户多种场景分析需求。3 .工具集成服务基于作业数字化标签构建作业画像和应用画像,大数据平台同时集成了平台自研穿透分析工具一一血缘分析工具和作业链路自助分析及时效提升工具,可面向总分行应用提供一体化的运

10、维、用数和开发服务。血缘分析工具结合基础平台技术元数据、作业运行数据、详细输出日志及视图定义等内容,实现了数据血缘分析全覆盖和应用服务支持。用户可快速了解一张表的上游接口和加工逻辑,以确认其是否为所需数据。通过上述分层解耦,将一个个作业逻辑如积木般拆散,可随时对数据加工流进行完整的血缘探查分析,进而支持业务应用敏捷化开发,快速应对业务需求的变化。作业链路自助分析及时效提升工具基于平台批量作业的前后依赖关系,依托DAG图关键路径(最长、最短等)等多种算法,可层层穿透解析作业加工链路及链路上的作业耗时、等待情况,并支持最长、次长、最短等迭代分析,透视作业时效不高的根因,进而确定提升数据时效的具体方

11、法。实践中,通过解析作业上游最长路径和耗时最长路径,可解决多个实际运维问题,如定位上游未启动作业、作业链路自助优化、大数据平台加工链路规范性检查等典型场景。举例来说,某应用开发人员想知道作业B尚未启动的原因,按照旧例需逐层查看,确认上游作业是否完成,而如今仅需通过工具即可定位上游未启动作业。同时,当作业完成后,开发人员还可自助完成作业分析,且系统可根据作业最长链路和耗时最长链路按照指定规则进行自主分析,为用户找出问题原因并提供参考建议,辅助用户进行有针对性的调整优化。简言之,通过集成血缘分析、关键路径分析等工具至作业标签与应用画像管理体系,如同为管理体系插上了翅膀,可高效支持平台运营工作由单点

12、向全链路优化。三、数字化开启平台服务新模式当前,为对应数据应用数量的急剧增长和业务场景的多样化演进,银行的大数据服务平台通常是“MPP集群+Hadoop集群+数据湖”模式,即一湖、多地、多集群、多活、多租户的融合架构,且在建设强大的数据存储能力和数据计算能力的同时,模块化、标准化数据应用作业开发以及跨集群统一的数据作业调度系统也会被同步推进。统一标准的数据作业系统给银行大数据加工处理赋以动能和活力,如同为企业搭载了“数据心脏”,催动标准的任务流和数据流将数据交付至各需求处,最终构成了大数据服务平台的数字化运营基础。顺应上述趋势,作业标签化管理和数据应用全方位画像开辟了大数据服务平台的数字化运营

13、新思路(如图3所示)。基于运行数据和作业日志的数字标签,将全面、清晰、一目了然的作业画像无缝集成到运营服务流程之中,实现了平台运营管理和持续优化提升的“数据驱动”,使决策更加客观、准确。同时,通过引入客户经营领域的标签和画像理念,开展基于作业标签和应用画像的平台运营优化探索和实践,也为海量数据和作业管理提供了一种全新的、行之有效的解决方案。图3大数据平台数字化运营体系具体而言,基于简明的逻辑架构与良性自循环的体系架构,正推动大数据平台运营服务逐步向实用化转变。一方面,大数据运行管理不再局限于传统的人工、分散式信息收集与个人经验判断,而是对全方位信息进行集中、实时、直观呈现,有效降低了大数据平台

14、的运维技术门槛。另一方面,基于血缘分析、关键路径分析的自助式分析工具,也有力增强了平台侧的服务能力,使知识资源的循环流通更加顺畅,从而有效减轻了平台运维支持压力。换言之,数字化智慧运营框架体系基于穿透式链路、血缘、能耗等分析支撑,服务于平台管理并可实现持续优化,最终以“画像”形式一体化集成数据应用服务,一站式自助解决数据应用的迫切需求。综上,坚持实用为先、不断创新是保持大数据平台活力的核心关键,而本文所述的探索和实践模式也并非一成不变,金融机构可根据实际情况和业务场景进行适配改造,并重点关注解决大数据平台运营管理过程中的瓶颈和痛点问题,以更好地实现数据要素的应用价值,加速达成高质量数字化转型。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服