《【市场报告】可观测性成熟度模型白皮书_市场营销策划_重点报告20230901_doc.docx》由会员分享,可在线阅读,更多相关《【市场报告】可观测性成熟度模型白皮书_市场营销策划_重点报告20230901_doc.docx(27页珍藏版)》请在第一文库网上搜索。
1、(2023年)可观测性成熟度模型白皮书版权声明本白皮书版权属于稳定性保障实验室、北京爱分析科技有限公司、龙蜥社区、国网上海电力信通公司、杭州乘云数字技术有限公司,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字、图片或者观点的,应注明“来源:可观测性成熟度模型白皮书”。违反上述声明者,将追究其相关法律责任.本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。免责声明报告中部分图表在标注有数据来源的情况下,版权归属原数据所有公司。本白皮书取得数据的途径来源于厂商调研、用户调研、第三方购买、国家机构、公开资料。如不同意引用,请作者来电或来函联系,我们协调
2、给予处理(或删除)。报告有偿提供给限定客户,应限于客户内部使用,仅供客户在开展相关工作过程中参考。如客户引用报告内容进行对外使用,所产生的误解和诉讼由客户自行负责,不承担责任。指导单位稳定性保障实验室编写单位北京爱分析科技有限公司龙蜥社区国网上海市电力公司信息通信公司杭州乘云数字技术有限公司目录一、引言04二、为什么需要可观测性成熟度模型05三、可观测性成熟度模型介绍071eve11:监控(Monitoring)091eve12:基础可观测性(BaSiCobSerVabiIity)111eve13:因果可观测性(Causa1Observabi1ity)141eve14:主动可观测性(PrOae
3、tiVeobSerVabi1ity)191eve15:业务可观测性(Bi1SineSSObSerVabiIity)2326四、总结引言莫听监控繁杂声何妨观测且徐行智能诊断快胜马一键运维定乾坤引用龙蜥社区品文(毛文安)的诗21世纪,以数字技术为代表的第四次工业革命正在加速改变世界,数字化浪潮对各行各业成席卷之势,网络化、信息化和智能化的深度融合引领着生产模式和组织方式的变革。数字化已经不是一个企业、一个行业的使命,而是全行业、全社会的共同发展趋势。如何用数据为企业赋能,如何利用数字技术实现企业业务的转型、创新和增长,已经成为当下全球企业所面临的重要课题。数字化正在重新定义企业的未来导向,这与企业
4、的业务模式、业务体系及客户体验息息相关,也为持续提升企业竞争力提供了核心动力。而云计算已经逐渐成为企业数字化转型的最佳选择,尤其是在2023年疫情爆发的背景之下,企业上云这一进程被按下了加速键。云计算时代下,企业的应用交付链路越来越复杂,云原生、微服务、大型分布式等新技术给企业带来竞争力的同时,也带来了全新的挑战,“云深不可见”难题突显。这些高度动态化、分布式的云原生技术与以往截然不同,这导致复杂性变得一发不可收拾。这些复杂性已经超出了现代IT团队的管理能力极限,并且还在不断扩大。若想解决这些复杂的挑战、并随时了解瞬息万变的环境中所发生的一切,需要全新的技术出现,“可观测性(ObSerVabi
5、1ity)”应运而生。可观测性是当今IT领域最热门的话题之一,Gartner将其列为“2023年度企业十大重要战略技术趋势”之一,并指出可观测性可以帮助企业实现数据价值最大化、加速企业数字化转型。尤其是近年来云计算的广泛普及,“可观测性”逐渐取代“监控”成为了企业IT建设与运营的不可或缺的核心能力。可观测性作为一种技术或方法,具有广阔的发展空间,除了在IT运维领域,还可以在许多其他领域发挥作用并取得突破,为社会发展带来积极影响。自2018年,云原生计算基金会(CIoUdNa1iVeeQmP1ningFOUndation,CNCF)正式将可观测性引入IT领域以来,可观测性市场迅猛发展,涌现出一大
6、批可观测性解决方案,企业也在寻求不同的方式打造可观测性能力。然而比较棘手的是,传统的监控厂商与新生的可观测性厂商,均使用了相同的术语与概念,这导致客户对于可观测性的定义变得模糊,甚至很难区分出哪些是真正的可观测性方案。可观测性能力的成长,并不是简单的工具堆砌随着软件系统的复杂性不断增加,以及对数字化体验的高质量需求日益增强,可观测性工具的增多成为了必然趋势。根据EnterpriseStrategyGroup(ESG)的一项调查,超过63%的企业组织拥有超过10种以上的工具,但即使拥有这么多工具、故障排查依然面临着困难。图1:EnterpriseStrategyGroup.echTargct1(
7、ESG)-Observabi1ityfromCodetoC1oud,2023年2月各不相同的点式工具或方案组合在一起,反而会放大孤岛效应,这些负面影响会芟延到每一个环节,使得团队被迫忙于处理各种局部问题或孤岛噪音。由于缺乏联系纽带,团队只能将截然不同的数据模型强行整合在一起,这不仅费时费力,还容易出错。在测试环境或生产环境采用孤岛式的可观测,会影响到DevOps或SRE团队“测试前移”工作的速度和质量。对基础设施和平台运营者而言,在多重云或混合云平台上使用多种工具会导致可观测能力存在盲区。一旦团队接收到未覆盖区域的警报和征兆,其他团队就可能会面临“翻墙而过”的问题和指责。因此可观测性能力的成长
8、,并不能简单的依赖工具堆砌。建立成熟度模型,帮助企业明确发展目标随着动态云、容器、微服务和无服务器架构的趋势发展,以及需要维护企业原有的遗留系统的需求,对可观测性更高级能力的需求日益增强。在这样的背景下,设计一套可观测性成熟度模型变得非常必要。基于对生产环境实际问题的丰富处理经验、与不同行业客户的深入交流、对最新技术的持续研究,以及与Gartner等领先机构的对话,我们共同创建了可观测性成熟度模型。我们希望通过制作这个可观测性成熟度模型,帮助企业确定在可观测性道路上的位置,并为前进方向提供指引。可观测性成熟度模型能够为企业提供一种系统性的方法来评估、改进和提升其可观测性体系建设。它可以帮助组织
9、更有针对性地发展可观测能力、优化资源分配并持续改进。通过合理应用该模型,企业可以更好地应对现代软件系统复杂性带来的挑战,实现更出色的用户体验,提高系统可靠性,并在竞争激烈的市场中取得优势。三可观测生度融介绍主动可观测性ProactiveObservabi1ity1eve11可靠性和用户满意度B业务可观测性BusinessObservabi1ity1eve121eve131eve14可观测性成熟度1eve15图2:可观测性成熟度模型图本次设计的可观测性成熟度模型,是一种用于衡量和评估企业软件系统内部可观测性的框架或方法,同时也是一种用于反馈企业可观测性体系建设成熟度水平的框架或方法。该模型设计了
10、五个级别,分别是:1eve11监控(Monitoring)1eve12基础可观测性(BasicObservabi1ity)1eve13因果可观测性(Causa1Observabi1ity)1eve14主动可观测性(ProactiveObservabi1ity)1eve15业务可观测性(BUSineSSObSerYa历Iity)可观测性成熟度模型的每个级别,都必须建立在前一级别已经建立的基础之上,不能凭空构建,每个级别新增的能力,都应该有助于实现更深度的可观测性能力。级别的提升不是渐进式的,而是明显的跨越式提升(类似量子跃迁)。尽管我们可以通过改进流程、修修补补,在一个级别之内稍微改善结果,但若
11、想实现级别的实质性提升,需要实质性地增强多项里程碑式能力,企业为了级别的提升甚至有可能要求重构现有的可观测架构。下面对可观测性成熟度模型各级别的目标与功能做简要概括:I级别目标功能1eve1侬控确定系统组件是否按f期正常工作 组件健康状态监控 触发警报 出现问题时发出通知,但无法提供有关问题确切性质的详细信息1eve12确定系统为什么不工作 采集可观测三大支柱数据 了解系统内部状态黑础可观测住界于三大支柱数据,手动根因分析,找到何处出错(定界,技术性问题根源)引入网络、拓扑数据,构建更全面的系统内部理解奥正实现跨越全栈的监控,搞清楚系统内部的关系脉络1eve13因果可观测性找到问If1的根本性
12、原因(RootCause),并确定它的影响面、避免再次发生 通过拓扑,为可观测数据提供铝点 构建空间级地图,自动捕捉铃制每一条水平雷区连接关系 爆踪实体在时间、空间轴上的变化,丰富上下文背景信息,构建因果关系 手动根因定位,找到为何出错(定位,根本性问题根源) 加速KnoMTriage.UnderStand”过程,极大压缩间IB发现与定位的时间引入现代性A1OPS分析引擎1eve14主动可观测住自动化的找到问IS根本性原因(AutomaticRCA),自动化的响应处置,智能化的黑测预防、阻止异常风险发展成问题故障 将AI/M1与1eVeI3数据相结合,构建面向全栈的运维分析大脑 自动化根因定位
13、,找到何处出18、为何出错(定界、定位) 自动化问题晌应,找到问题根源、并启动自动处置降低问题影晌面 自动化问题预警,提前发现异常、发出警告 设想:构建超模态现代A1OPS,综合预测A1、因果AI、生成式A1提供业务视角的端到端视图,深入洞察业务流程识别业务流程瓶颈构建业务指标体系,例如销售、转化率、用户留存等1eve15业务可观测性确定对业务的影响,如何降低成本、增加业务营收,提升转化率、辅助商业决m 收集分析业务数据,基于事实做出决策,更好地优化运营和故略 预测业务走向趋势,辅助业务决策 提供可能影喇成本(FinOPs)、财务收益和其他业务收益的决策信息 基于主动式可观测能力,自动化业务可
14、观测性的问速分析与处If表1:可观测性成熟度模型表1eve11:监控(Monitoring)目标:确定系统组件是否按预期正常工作监控(Monitoring),是指对系统、进程、活动或环境的持续观察、度量和记录,以便获取实时或定期的信息和数据。通常跟踪某个系统组件的特定参数,以确保系统组件的状态保持在可接受的范围内,一旦超出预设范围,监控器会触发告警。传统监控大多是专门的单向工具、聚焦在某一个性能领域,通常包括应用性能监控(APM)基础设施监控(ITTM)、网络性能监控(NPM)、AP1监控等。在可观测性成熟度模型中,监控是其中一个关键的层级,通常被认为是成熟度模型中的第一个阶段。在这个阶段,企
15、业开始建立基本的监控能力,监控级的目标之一是设置实时警报,以便在系统出现问题或达到预定阈值时能够及时通知运维人员,这有助于迅速采取行动以防止问题扩大。企业组织收集各种关键性能指标,将收集到的指标数据可视化也是一个重要目标。通过仪表板和图表,运维人员可以更容易地理解系统的状态和性能趋势。在1eVeI1阶段,被监控的各组件之间几乎没有任何的相关性,此级别的主要目标是了解系统组件是否正常工作。尽管在监控级不会进行深入的性能分析,但会开始对基本的性能问题进行分析,以确保系统在某些情况下不会受到显著影响。总之,监控级的主要目标是建立起最基本的监控能力,以确保系统的基本稳定性和可用性。汇总:下表概述了1ee1阶段的关键功能:1eve11:监控Monitoring了解系2超且件的可用性或关键指标的状态输出(Output):警报,通知,看板输入(Input):组件级指标,或事件获得:基本信息,例如组件的健康状况是否正常工作出现问题时发出警报、通知剧示监控看板表2:1eve11总结1eve11阶段的监控,通常为企业提供