云平台存储的全方位监控方案.docx

上传人:lao****ou 文档编号:412360 上传时间:2023-10-29 格式:DOCX 页数:20 大小:228.83KB
下载 相关 举报
云平台存储的全方位监控方案.docx_第1页
第1页 / 共20页
云平台存储的全方位监控方案.docx_第2页
第2页 / 共20页
云平台存储的全方位监控方案.docx_第3页
第3页 / 共20页
云平台存储的全方位监控方案.docx_第4页
第4页 / 共20页
云平台存储的全方位监控方案.docx_第5页
第5页 / 共20页
亲,该文档总共20页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《云平台存储的全方位监控方案.docx》由会员分享,可在线阅读,更多相关《云平台存储的全方位监控方案.docx(20页珍藏版)》请在第一文库网上搜索。

1、云平台存储的全方位监控方案云平台如何运维,这是企业信息系统考虑是否上云之前必不可少要决策的因素之一,云平台如何监控,又是云平台运维体系建设的重点问题。云监控服务作为云平台运维体系的重要服务,它可用于收集获取云资源的监控指标或用户自定义的监控指标,探测服务可用性以及针对指标设置警报。使用户全面了解云上的资源使用情况、业务的运行状况和健康度,并及时收到异常报警做出反应,保证信息系统顺畅运行。本议题站在云平台存储的角度,深入解读云监控服务中存储监控和传统环境的存储监控区别,以及由传统环境存储过渡到云平台存储需考虑解决哪些存储监控建设方面的问题。云平台存储如何实施全方位监控?社区专家主张I邓毓江西农信

2、运维技术经理:本议题由我本人、民生银行科技部工程师白东旭和王向虎、某股份制银行存储架构师曾祥满几位用户专家针对议题下的关键点进行主张,这些主张在经过某农商银行架构师胡海光、某金融科技公司资深集成工程师孙伟光、某金融公司架构师刘艳春几位专家的复议之后,最终形成一定的共识,希望对同行有所参考。邓毓江西农信运维技术经理:云监控作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业运维成本。本文中所指的云监控为云平台(公有云或私有云)的性能监视与检测,它能为用户提供一个针对云资源、云服务或者云产品的全方位监

3、控平台。云监控本身也作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。云平台存储是云平台基础设施的核心基础资源,包括块、文件和对象等一系列存储产品,对用户提供数据存储服务。其架构复杂性及技术难度较云下传统集中式存储有较大提升,因此,云上不同类别的存储产品的精细化监控也变得尤为重要。基于此,本文将以三大知名公有或专/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容。一、云平台存储全方位监控建设方向云平台存储全方位监控建

4、设方向应当包括至少以下四个方面:云平台存储基础底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,其架构如图1所示,下面将一一进行介绍:图1:云平台存储全方位监控图1 .云平台存储基础底座监控如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线性增长的“开放存储”,又有要求低时延的“弹性计算”。作为底层平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,

5、作为基础底座,完备的监控是必备的。主要包括两大类别,一是存储产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息。2 .云平台存储产品监控云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基础监控指标和存储产品监控指标数据的功能。能够为用户实时地了解所拥有的存储服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题。云平台存储服务监控通过监控面板支

6、持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配置告警,还能通过AP1拉取指标数据,进行进一步使用和分析。对用户而言,主要关注以下三类服务监控指标数据:1)用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐量、流入流出流量或吞吐量、带宽、请求数或K)PS等。2)服务性能数据监控:反映用户在使用服务时的体验感信息。主要是请求延时,它是衡量服务性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。3)服务水平数据

7、监控:反映存储服务的稳定性以及用户的使用健康状态信息。例如服务可用性、内部错误数、返回错误情况、日志告警等。3 .事件告警平台云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计算、存储和网络的基础底座及云产品监控。1)事件服务:提供了事件类型数据上报和查询功能。方便用户将云上的各类重要事件或对云资源(包括云底座和云产品)的操作事件收集到云监控服务,并在事件发生时进行告警。事件服务保存并监控着云资源的关键操作,可通过事件了解到谁在什么时间对系统哪些资源做了什么操作。2)告警服务:提供了监控指标、事件的告警功能。用户对云资源的核心监控指标设置告警规则,当监控指标

8、触发用户设置的告警条件时,支持以邮箱、短信、HnP、HnPS等方式通知用户,让用户在第一时间得知该云资源发生异常,迅速处理故障,避免因资源问题造成业务损失。另外,云监控告警服务使用消息通知服务向用户通知告警信息。首先,用户需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,需要开启消息通知服务并选择创建的主题,这样在云资源发生异常时,云监控告警服务可以实时的将告警信息以广播的方式通知这些订阅者。告警规则支持企业项目,当选择了告警规则到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该告警规则。4 .多维度图表展示及报表云监控需要支持用户通过丰富

9、的多样的个性化图表查看已有的监控数据,并支持自定义报表导出能力。统一适用于云上各类计算、存储和网络的基础底座及云产品监控。监控面板/大屏:能为用户提供自定义查看监控数据的功能。将用户关注的核心云资源监控指标集中呈现在一张监控面板里,为用户定制一个立体化的监控平台。1)用户可以在监控面板详情中便捷地查看和导出各个云资源的监控数据;2)用户可以在监控面板订阅重要的指标,个性化地定制不同指标的展现形式与运算规则,并通过列表与图表结合,对指标数据进行排序与对比展示,辅助异常排查与故障分析;3)用户可以查看和导出账号下所有云资源的监控数据与绑定的告警信息;4)监控面板支持在一个监控项内对不同资源、不同维

10、度的数据进行对比查看和导出,帮助用户实现不同云资源间性能数据对比查看的需求;5)监控面板支持结合云资源的健康状态与告警数据,为用户提供了快速定位异常资源的功能,并支持用户结合具体数据与异常信息排查问题;6)能够通过监控面板自定义需要定期导出成报表的监控指标和告警数据,形成日报、月报等。二、云平台存储全方位监控指标体系建设云平台存储监控指标体系建设的重要性不言而喻,通过对云平台存储基础底座以及块存储、文件存储和对象存储等三大主要存储产品进行精细化监控,关注这三类云存储服务的可用性、安全性、服务质量等指标,直观展示各类云存储资源配置信息、使用状况、性能状况及健康状况,准确及时的发现云存储系统中的故

11、障和问题所在,以智能多样化的方式进行报警、信息统计,及时响应、掌控以及处理系统突发故障,同时也可以进行问题预测。为了便于读者直观了解云平台存储监控指标体系建设内容,下面以阿里专有云存储基础底座-盘古(表1),以及三大知名公有或专/私有云平台存储产品监控体系为例,列举并对比三大云上存储产品各个方面监控重要指标(表2-表4):表1:阿里专有云存储基础底座监控指标注:盘古MaSter服务器:盘古文件系统的元数据存储服务器;盘古ChUnkServer(简称CS)服务器:盘古文件内容数据存储服务器。表2:块存储产品监控指标及对比表3:文件存储产品监控指标及对比表4:对象存储产品监控指标及对比J注1:包括

12、各类对象存储操作的请求,如:对象追加(APPendobjeCt)、对象拷贝(CopyObject)、对象删除(De1eteObject)、对象下载(GetObject)、对象存在和权限判断(HeadObject)、对象上传(PutObject)、对象HTM1表单上传(PostObject)、对象分块上传(Up1oadPart)、对象复制分块上传(Up1oadPartCopy),可以对不同操作建立精确的监控指标。注2:不同云厂商返回码和含义不同,常见返回错误包括:客户端授权错误、超时错误、网络错误请求、客户端资源不存在错误、服务端错误、用户层级客户端授权错误、用户层级客户端其他错误、客户端超时错

13、误、用户层级客户端超时、用户层级客户端资源不存在错误、用户层级服务端错误等,可以对不同返回错误建立精确的监控指标。注3:包括用户层级和非用户层级指标情况,未标注则未对此指标进行区分。注4:包括标准存储、低频存储、归档存储等不同类别对象存储,可以对不同类别建立精确的监控指标。注5:包括指定回源源站的正常请求、指定返回值和回源源站的正常请求两类。白东旭王向虎民生银行科技部工程师:未来存储监控平台可结合整体智能运维分层立体的监控体系,实现从基础设施到租户业务的端到端全覆盖的立体监控,提供基础监控、业务监控、链路监控等方面通用平台能力,将监控平台+云服务+一线运维等各云服务监控整合基于监控平台实现自己

14、特定业务监控。现有运维体系的建设现状随着银行数字化转型升级进程的加快,IT系统架构越来越复杂,软件更新迭代越来越快。银行信息化建设中的大量业务和数据需要依靠信息系统来完成,这使得构建稳定可用的IT系统成为业务发展的基础条件,而IT运维管理也随之成为银行信息化建设的重要环节。近年来,因为IT系统突然出现故障导致业务瘫痪甚至造成巨额损失的现象频出不穷。而银行大型数据中心由于对系统、数据的高度依赖,IT风险更大,对IT运维管理的重视也就更高。在银行IT基础架构层中最重要的就是存储设备,存储最基本的功能就是对外提供高可靠、高性能的数据存取能力。完善的存储运维不仅要对所有IT系统以数据容量超PB级别的快

15、速精准管理,更要面对年增长超20%的设备/容量增长,不仅包括SANNASIPSAN,更包括上千个SAN端口、异构设备的挑战,时刻面对呈指数级增长的应用的压力。就当前的现状来看,基于存储的复制,系统恢复仍然需要较长时间,高可用方案,包括存储层面的高可用,OS层的卷镜像,OraCIe的ASM,基于应用的复制方案等,管理上也更复杂。云平台下运维的变革随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,云数据中心运维需求应运而生。传统的运维直接接触硬件,如服务器、存储设备和网络设备;但是在云数据中心时代,运维已经从面向物理设备,转变为面向虚拟化、云的管理方式。因此,云

16、平台下的运维提出了新的能力要求一不仅要熟悉传统硬件设备,同时要掌握虚拟化、云系统的部署、监控和管理等运维能力。存储系统作为IT基础设施的主要部件,也在探索如何利用AI技术提升其各项能力。银行的业务千差万别,而不同的业务对可靠性、性能的需求也不尽相同。为满足这些需求,存储设备提供了不同的介质、缓存、特性选项。如何合理配置这些选项,实现存储设备的最大化利用,就成为了云平台存储运维复杂性的重要来源。云平台下存储运维实践1 .存储选型:针对云下存储,首先需要划定对接不同业务类型的存储服务。交易类服务器:裸机+FCSAN,适用于核心交易类、数据库类应用,要求极致高性能的传统关键应用;OPerIStaCk云平台:1)集中式块存储资源池:对接裸金属服务器和KVM云主机;2)分布式

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服