云平台存储运维的故障诊断及恢复.docx

资源描述

《云平台存储运维的故障诊断及恢复.docx》由会员分享，可在线阅读，更多相关《云平台存储运维的故障诊断及恢复.docx（8页珍藏版）》请在第一文库网上搜索。

1、云平台存储运维的故障诊断及恢复云平台存储是云基础设施的核心数据基石，包括块、文件和对象等一系列存储服务。由于云存储服务产品的技术复杂性以及与传统IT架构的不同，决定了云平台存储运维的难度高于传统IT环境存储的运维，尤其在面对复杂的生产运行故障时，能否准确快速进行故障诊断，找到问题的根因，并第一时间恢复业务正常运行，是云平台存储运维能力的重要体现。云平台存储运维中如何进行故障诊断及恢复？社区专家主张邓毓江西农信运维技术经理：本议题由北部湾银行技术经理哲哲蛙、江西裕民银行高级系统工程师李先科两位专家针对云平台存储运维中故障诊断与恢复的关键点进行了主张，两位专家的主张在经过我本人、某金融机构架构师李

2、威、民生银行科技部工程师白东旭专家的复议后，最终形成了一定的共识供大家参考。哲哲娃北部湾银行技术经理:在运维中，云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外，还需要额外关注云平台层的存储池内的容量告警。随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展，数据中心的扩容建设进入高峰期，针对金融行业互联网金融、云化、容器化、分布式改造等数字化转型在金融行业不断发展，金融业务向移动、普惠、敏捷和创新方向发展，需要新一代弹性基础设施、微服务平台、分布式中间件和海量数据分析系统提供有效支撑。存储作为关键基础设施依然承担着非常关键的作用，越来越多的存储资源逐渐由传统存储转化

3、为云平台存储。站在数据中心的生命周期来看，建设只是初期，运维阶段占整个生命周期的80%以上。虽然运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤，但也是最终保证生产稳定运行的最重要的环节。金融行业云平台存储运维人员以往接触的更多是硬件，在云数据中心时代对运维人员的要求则已经从面向物理设备，转变为软硬结合，除集中式硬件外还需面向存储型X86服务器以及分布式存储软件的复合管理方式。集中式、分布式存储并存的现状，对存储运维人员在运维和故障诊断恢复方式方面提出了新要求。传统存储环境与云平台存储环境进入云服务时代后，站在存储的角度，集中式存储和分布式存储并存的云平台存储池具备了更强的云化和

4、服务化特性。云平台存储中，无论是集中式存储还是分布式存储按照提供的存储服务类型都可以分为几大类：块存储、文件存储、对象存储。块存储是应用最广的存储，块存储一般采用FCSAN或者IPSAN的方式，通过驱动映射将存储层划分的11JN给物理机或者虚拟化使用，目前在金融环境中，由集中式存储提供数据库用的块存储更多；云存储组网同时包括SAN网络和IPSAN网络，用于数据库的集中式存储池采用SAN组网更多，使用方式上以OpenStack架构为例，通过Cinder组件映射存储池给上层主机，划分资源直接由云平台调用执行，对接好环境后无需在存储上进行过多操作，由于分布式存储主要采用服务器组成，便于横向扩展，近年

5、云内块存储在设备选型上越来越倾向于分布式存储。文件存储主要应用于文件共享、图片视频存储场景。传统的文件存储采用IP方式与客户端建立连接，在使用上主要采用IP方式，对于设备架构这块有NAS集中式存储，也有高密服务器组成的分布式存储集群。而云存储场景使用更加灵活，可以使用为备份存储和文件共享目录，以云服务的方式进行直接挂载给虚拟机，设备选型上与传统存储一致，针对不同的使用场景对兼容性的需求和网络可达性要求比较高。对象存储是一种基于对象的海量存储，使用起来更灵活。传统的对象存储主要以IP域名的方式进行连接，应用在影像和归档场景比较多，直接通过接口调用使用，如S3、SWift接口，负载和DNS主要用在

6、集群外。云内的对象存储主要用作备份归档、大数据分析PaaS层依赖这些场景，如作为业务存储使用一般需要使用1VS负载。两种场景采用的设备均是服务器。整体运维以及故障诊断恢复传统存储与云平台存储存在使用、组网、选型、周边配套上的差异，对整体运维与故障诊断恢复上也有不同的需求。在运维中，云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外，还需要关注云平台层的存储池内的容量告警。在云平台存储主机性能故障诊断在问题定界上由于云平台存储影响关联的虚拟机范围广，一般需要从问题虚拟机范围开始排查，检查整体平台告警情况，明确是部分虚拟机问题还是整体平台问题，针对主机使用的存储进行初步判断，

7、是否整个云平台虚拟机都有性能问题，还是部分使用某个特定存储池的虚拟机存在性能问题。如果是整个平台的问题，则需要排查是否云平台存储服务故障，是否是在云平台存储与底层的集中式或分布式存储接口出现问题，云平台管理云存储的服务是否存在问题；如果只是部分虚拟机的性能问题，则再分析着是来自于云平台存储中的集中式存储池还是分布式存储池。根据问题的现象和范围，先初步定界，然后再到具体的存储池以及存储设备上进行相应的排障处理。如果经过分析，问题都难以指向云平台存储性能的情况下，则同样需要完整的分析OS、主机、网络、平台各层面，这也需要运维工程师熟练掌握整体业务逻辑、了解现网架构、对云产品需要有较深的技术水平。集

8、中式存储池的性能瓶颈诊断，一般关注服务器、网络、存储层即可，问题定界相对简单，可以优先从集中式存储系统开始排查，检查集中存储原生运维系统上，是否存在端口流量、端口延迟、CPU资源、IOPS等明显的告警，再排查对应的SAN网络，检查是否存在SAN交换机上的端口拥塞和错误数明显增高等告警，以及主机端的IO端口故障导致的IO响应时间超长等问题，最终定位到问题根因。而分布式存储性能瓶颈的诊断，则在了解分布式存储的部署架构基础下，通过分布式存储的原生运维平台，查看分布式存储运维平台检查是否有告警，或者检查运行日志，分析是否存在节点故障、磁盘故障、端口故障、网络拥塞、分布式存储服务异常等故障，以便进行相应

9、的故障解决和问题恢复。分布式存储因为采用X86服务器组网，X86服务器因架构设计存在一定的故障率，在单节点故障时，需要优先保障分布式存储集群的快速恢复能力，生产环境建议采用3副本以上的设计，当单节点故障时不影响业务运行，并且对于单台存储设备故障离线时间和数据重分布流量进行合理的设置，避免因大量数据重分布导致整个存储池性能的急剧衰减。由此可见，云平台存储运维过程中需要更多地与云平台联动。云平台存储除了处理性能瓶颈分析这类复杂运维事件之外，日常运维中主要涉及：资源发放维护、巡检、资源告警监控、存储池扩容、磁盘扩容和缩容、故障处理、重大问题快速恢复等。整体运维内容与传统运维模式无异，但相对更多可以通

10、过便捷易读的界面进行运维和配置。针对整体运维操作场景和云存储的故障特点，要保障好整体运维的稳定需要既要有合理的运维流程也需要有一个稳定的技术团队做到以下关键动作：1）提前识别风险：提前将磁盘大小、节点规划等关键参数进行识别、对关键磁盘进行工具化的性能监控、平台告警及时清理；2）落实关键维护动作：按运维要求执行日常巡检、定期进行深度巡检、存储性能基线评估、做好存储业务分析网络梳理做到懂存储懂网络、梳理场景问题处理与应急手册；3）问题快速响应：产生问题明确业务范围、通过梳理的业务情况快速定界、以恢复业务为先。将运维动作主动化，将问题闭环在萌芽期，并通过例行运维动作，不断提升运维团队能力，才能保障好

11、网络的稳定运行。李先科江西裕民银行高级系统工程师：实际生产环境故障问题千奇百怪，掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速地处理问题、解决问题，保证业务系统的连续性。随着云计算、大数据等新兴技术体系的快速发展，云数据中心运维需求应运而生，传统的运维人员，以往接触最多的是硬件，如服务器、集中式存储、网络设备、空调、UPS等。但是在云数据中心时代，运维人员已经从面向物理设备，逐步转变为面向虚拟化、SDS（软件定义存储）、云的管理方式。从云计算概念和实践中延伸出了一种新的存储模式一一云平台存储，我们可以从两方面理解云平台存储的定义：第一，在面向用户的服务形态方面，它是一种提供按需服务的

12、应用模式，用户可以通过公/私网络连接云端存储资源，在公/私有云端随时随地存储数据；第二，在平台云存储服务特性方面，它是通过分布式、虚拟化、智能配置等技术，实现海量、可弹性扩展、低成本、低能耗的共享存储资源。那么云平台存储运维如何进行故障诊断呢？首先，在传统集中式存储故障诊断过程中，我们一般按照先定位外部，后定位内部的原则。在进行系统的故障定位时，应该首先排除外部设备的问题，外部设备问题包括光纤、光缆、客户设备和断电等问题，内部问题包括硬盘、控制器、接口模块等故障问题。具体的发生故障收集信息诊断过程包括但不限于：1）检查主机端信息。如检查多路径是否安装正确，查看物理路径状态、虚拟磁盘信息、逻辑路

13、径状态、多路径配置是否正常。2）收集文件系统故障信息。如收集NTFS/EXT3/EXT4/JFS2等文件系统的故障信息日志等。3）收集卷管理故障信息。收集1VM配置及1V/PV/VG等相关信息，是否有损坏或告警。4）收集数据库故障信息。查看存储磁盘的相关报错代码。5）收集HBA信息。查看HBA卡的生产厂商和型号，收集HBA卡驱动的版本号信息是否存在兼容性问题。6）收集交换机信息。查看端口、SFP信息，分析链路质量、SFP发光功率是否存在问题。7）收集传统集中式存储信息。查看告警日志，导出SUPPort日志，与厂商共同分析日志报错，查明原因。传统集中式存储可以通过收集上述信息并联合存储厂商进行诊

14、断，基本能够在短时间内快速的排除故障。由此可见传统存储呈现给用户更多的像一个黑盒子，通过自带的告警日志能够较快速的定位、解决问题，而云平台存储在故障诊断方面会略显复杂，从某种程度上讲，云平台存储故障率跟前期的规划设计存在较大关系。因此，云平台存储的故障更多会来源于前期规划的不合理及软件BUG等。下面就以CePh开源云存储为例探讨一下故障诊断和恢复，包括但不限于如下几个方面：1）架构问题诊断。选型初期，需严格按照CePh（SDS存储）官方硬件兼容列表进行硬件选型，根据不同场景（IOPS优先、吞吐量优先、存储优先）配置相应性能和与分布式存储软件认证兼容的CPU、内存、硬盘，避免部分硬件配置的选型性

15、能瓶颈、驱动兼容等导致不可预见故障，如常见的SDS集群进程DOWN、读写延时大、读写IO异常等。2）NTP时间校准问题诊断。时间同步在众多集群系统中是非常重要的一个基础服务，集群内时间不一致很容易造成集群内节点服务异常、认证失败，建议部署私有专网或者互联网的NTP服务器。比如当CePh集群中，有节点出现时间不一致时，将会出现OSD数据同步问题、MoN选举问题、创建云主机失败或宕机问题、分布式存储数据分布不均衡或者脑裂等问题，在故障节点上重新进行NTP时间校准同步，一般就能解决上述问题。3）性能问题诊断。在CePh分布式存储中，整个集群的性能很大程度上取决于存储介质的有效选择，应该在选择存储介质

16、之前了解到集群的工作负载和性能需求。从最佳实践看，首先，网络层面存储网和业务网做分离，服务器选用万兆网卡，存储流量的网卡、对应交换机开启巨型帧等。其次，磁盘介质优化。比如OSDJoa1等文件优先存放在SSD硬盘上，数据盘采用JBOD,提高元数据、日志数据、业务数据的存储效率。再次，数据存储的文件系统选择。BTRFS对于生产环境来说不是很稳定，但有能力记录J。UrnaI和并行的写入数据，相对而言XFS和EXT4效果会更好。另外，以CePh为代表的分布式云存储的参数调优还有非常多，依据不同使用场景，参数优化更为复杂，所以从日常运维故障诊断角度看，分布式云存储比传统集中式存储运维更复杂、更需具有整体技术架构的把握度。从扩展性角度看，传统集中式存储盒式交付，通过增加磁盘来获得容量，但性能受制于控制器；而分布式云存储完全可以由用户自行定制，容量可以横向扩展、性能也能够线性增加。以上简单描述了分布式云存储（以C

展开阅读全文