《大型医院容灾备份平台建设与应用实践.docx》由会员分享,可在线阅读,更多相关《大型医院容灾备份平台建设与应用实践.docx(19页珍藏版)》请在第一文库网上搜索。
1、大型医院容灾备份平台建设与应用实践【导读】本文从需求分析、架构设计、实施到运维方案,全面介绍了大型医院容灾备份平台建设中的重点并分享了经验,供广大同行参考。1、医疗行业业务系统特点与存在的痛点随着医疗行业信息化的进程的加深,对医疗数据进行高效地存储和管理,以便提供安全有效地数据与信息的快速访问和利用成为医疗行业数据存储的主要发展趋势,在医院众多的信息化系统中,HIS作为最重要的医院信息系统,贯穿了业务流程的各个环节,起着核心支撑作用,包含财务、人事、住院、门诊、挂号、医技、收费、分诊、药品管理等多个子系统,是医疗服务和医院管理的核心。现在医院对信息系统的依赖性越来越大,除了HIS系统,医院其他
2、关键业务还包括PACS、EMR.11S和CIS等应用系统。这些业务系统包含了大量的医疗影像信息、病人电子病历信息、临床信息和检验信息等。但随着医院的不断发展,庞大的数据量和后台服务器的软硬件保护成为医院信息化建设面临的一大难题。任何的系统停机或数据丢失轻则降低患者的满意度,重则损害医院信誉。如何避免数据丢失,当遇到数据灾难时如何快速地恢复数据,保障医院业务开展的连续性,已成为影响医院业务发展的关键因素。经过多次对医院的相关技术人员的访谈,总结出以下急需解决的问题:1、HIS.PACS、EMR、11S和CIS等应用系统虽然实现了本地的数据级备份通过备份软件定期把数据备份到磁盘阵列或是带库上,但无
3、法应对设备的硬件故障,生产机房火灾、漏水等突发情况,存在数据安全的隐患,需要建立同城容灾中心保障数据安全提升业务连续性。2、建设同城容灾中心后有条件需要建设异地容灾中心,可以避免水灾、地震等其它的大范围的自然灾害,使得数据和应用的安全等级得到进一步的提升。3、现有的备份系统没有建立相应的运维方案和管理制度,没有相应的备份恢复演练计划,备份后的数据是否可用无法得到保障。2、医疗行业业务系统容灾备份需求分析在确定医院关于业务系统容灾备份需求之前先明确几个后文会经常用到的关键词:容灾备份系统,也称灾难备份系统,就是通过建立和维护与原系统完全相同或相似的一个或多个冗余系统,利用地理上分散性或数据系统的
4、冗余性来保证数据抵御灾难的能力。它保证数据完整性和安全性,并且,当面临大范围的突发性灾难,如地震、火灾、水灾时,能迅速恢复应用系统的数据和服务。RTO恢复时间目标(recoverytimeobjective):指灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。RPO恢复点目标(recoverypointobjective):指灾难发生后,系统和数据必须恢复到的时间点要求。随着医院各个信息系统的建设,相关的数据量不断增加,当遇到灾难时使用传统的备份、恢复会导致耗时过长,严重影响业务的开展,已经不能满足医院的需求。医院HIS核心系统有超过一次非计划停机,其中服务器硬件故障是核心系统非计划
5、停机主要原因,非计划停机排在前三位的是服务器硬件故障、网络故障和数据库故障。硬件故障、软件故障、人为错误,自然灾害等很多主观和客观的原因都会影响到医院业务系统数据的安全,为了保障数据的安全和业务的连续性,经过多次对医院的相关技术人员、操作人员和管理人员的访谈,结合医院业务系统存在的痛点与业务系统的关键程度形成的医院容灾备份需求如下:医院的HIS信息管理系统实现应用级备份,其他关键业务系统PACS、EMR.11S和CIS等系统实现数据级备份。3、医疗行业容灾备份系统架构设计根据医院当前业务系统的特点和实际的灾备建设需求,实现业务系统容灾备份架构设计主要包括以下几个方面的内容:1、重要信息系统灾难
6、恢复指南根据上级主管部门的相关文件要求,医院业务系统的容灾备份按照五级标准进行建设,容灾备份恢复能力达到五级标准指国务院信息化工作办公室发布的重要信息系统灾难恢复指南中的第五级,该标准要求如下:2、容灾备份系统设计标准医院业务系统容灾备份系统建设需要遵循以下标准:1 .中华人民共和国网络安全法2 .重要信息系统灾难恢复规划指南国信办3 .信息系统灾难恢复规范(GB/T20988-2007)4 .信息技术设备的安全(GB4943-2011)5 .电子计算机机房设计规范(2018)6 .遵循电子与电气工程师协会制定的计算机和电子工业参考标准7 .遵循国际参考标准化组织制定的各种国际技术参考标准3、
7、容灾备份系统设计方案医院建设容灾备份系统方案时,依据技术先进性、可扩充性、高可靠性、高可用性、成熟性、可管理性等原则进行建设。按照容灾系统对应用系统的保护程度可以分为数据级容灾和应用级容灾,数据级容灾系统只保证数据的完整性、可靠性和安全性,但提供实时服务的请求在灾难中会中断。应用级容灾系统能够提供不间断的应用服务,让服务请求能够透明(在灾难发生时毫无觉察)地继续运行,保证数据中心提供的服务完整、可靠、安全。因此对服务中断不太敏感的部分可以选择数据级容灾,以便节省成本,在数据级容灾的基础上构建应用级容灾系统,保证实时服务不间断运行,为用户提供更好的服务。下表是几种灾备技术的对比:数据级容灾实现的
8、方式,Orac1eGOIder1Gate是基于日志实时更改数据库捕获和交付,它抽取在线日志中的数据变化,转换为GGS自定义的数据格式存放在本地队列或远端队列中。两端数据库是活动的,备份端可以提供实时的数据查询及报表业务等,从而提高系统整体的业务处理能力,充分利用备份端的计算能力,提升系统整体业务处理性能。数据备份软件可以选择TSM或是NBU,他们都是成熟的备份软件,在市场上有很高的占有率,支持Wi11dOws、1inux、UniX等操作系统和OraC1e、SQ1ServerDB2、Informix、SybaSe等数据库,可以采用1AN备份或是1AN-Free备份,能够为医院提供企业级的存储数据
9、管理解决方案,包括备份、归档、空间管理以及灾难恢复管理等功能实现同城数据级容灾。还可以选用其它的商用灾备软件,云灾备软件或是备份一体机实现同城应用级容灾,相对来讲比在同城灾备中心部署一套与生产中心相同的硬件设备投入的成本能少一些。采用存储同步镜像的方式实现同城应用级容灾,采用存储异步镜像的方式实现异地数据级容灾,容灾备份系统架构图如下:对于H1S系统要实现应用级容灾,需要在同城灾备中心增加一套与生产中心相同的服务器和存储设备,两台服务器做集群,分别连接两台存储设备,两台存储之间做同步镜像,当任何一台存储故障时,另一台存储上的镜像数据能保证业务起来,一点建议:异地容灾的配置可以参考同城灾备中心或
10、可适当的降低配置。存储同步镜像的方式,可以做到生产(主)和容灾(备)中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入CaChe中),主磁盘阵列将利用自身的机制(如MetroMirror或SRDF/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。存储异步镜像的方式,是在应用系统的I/O写入主磁盘阵列后(写入CaChe中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如GIoba1MirrOr或SRDF/A)将写I/O写入后备磁盘阵列,实现数据保护
11、。采用存储同步镜像的方式实现同城应用级容灾的优势是同城范围镜像数据不会丢失;异地镜像数据根据灾难情形,可以采用F1aShCoPy技术尽可能降低数数据丢失机率;镜像网络中断恢复正常后,任意两地之间可以通过增量方式实现数据同步,无需全部数据重传;建设同城灾备中心后可以应对设备的硬件故障,生产机房火灾、漏水等突发情况,建设异地容灾中心,可以避免水灾、地震等其它的大范围的自然灾害,使得数据和应用的安全等级得到进一步的提升,保障了数据安全提升业务连续性。下面是容灾备份建设需要关注的几个点:线路的选择:生产中心到同城备份中心的数据传输采用裸光纤,同城备份中心到异地备份中心采用专线方式,生产中心到异地备份中
12、心采用专线方式,该线路做为备用线路使用,正常情况下数据通过同城灾备中心采用异步传输方式复制到异地灾备中心,当同城到异地的专线中断后启用生产中心到异地的线路,从而保障数据的正常备份。应用的切换:当生产中心服务器出现故障后,生产中心的集群功能将应用切换到同城灾备服务器上,同时灾备中心的数据库服务器接管灾备中心的存储,进而恢复数据的访问及业务的连续性。实现应用切换的前条件是:1)数据已经从生产中心同步到灾备中心,如果数据复制采用的是异步的方式,在网络故障的情况下,就有可能造成数据不一致的问题,导致数据不可用或无法访问。2)灾备中心配置与生产中心对应的应用服务器、数据库服务器和中间件服务器等,且运行正
13、常。3)灾备中心网络运行正常或能够实现正常切换。数据级容灾:PACS、EMR、11S和CIS等应用系统做数据级容灾,当生产中心数据损坏后,同城和异地生产中心还有一份可用数据的副本,同城的存储与生产中心的存储采用数据同步复制技术,与异地灾备中心的存储采用数据异步复制技术。4、医疗行业容灾备份系统实施经验医院采用存储同步镜像的方式实现同城应用级容灾,如果生产中心存储发生意外故障,灾备中心存储上的应用与数据是否能够正常启动,数据是否一致是摆在施工人员面前的一个问题同时也是检验项目是否成功的一个依据。按以下步骤进行测试:1,通过MetroMirror将存储1上的数据复制到存储2,在存储1不断添加新的数
14、据。2,断开两台存储之间FCSW的光纤,此时在主机端在存储1存放新数据。3,接通两台存储之间FCSW的光纤,手工启动一致性群组可以看到很快一致性群组又回到同步状态。4,此时将存储2重新映射给主机,发现数据与存储1映射卷上的数据一致。测试结果说明主备站点的链路中断不影响主站点数据的应用;链路恢复后,重新同步采用增量方式,可以快速达到重新同步。切换演练在容灾建设工作中必不可少,通过演练可以帮助管理人员提高操作水平,提高应急恢复速度;演练工作同时需要控制风险,降低对生产系统的影响。演练实现方式有两种,一是定期或随时利用容灾中心所提供的多点快照,加载快照到容灾主机,同时启动容灾数据库和应用进行演练和验
15、证;二是切断复制链路,直接提取容灾中心的数据盘,启动容灾中心应用,业务演练验证后既可以将生产端数据同步灾备端数据,消除灾备端由于演练产生的垃圾数据,又可以将灾备端数据同步生产端数据,保留由于演练产生的真实数据。通过切换演练,模拟真实故障恢复场景,制定应急恢复预案,检验容灾方案的适用性、有效性。当真实故障发生时,通过预案快速恢复,提高业务连续性。切换演练参考步歌:1,停止业务2,操作系统删盘,varyoff、rmdev3,通过暂挂HbH2之间的MM关系cmdsess-quiet-actionsuspendTest_ZB_MM4,112接管,可以看到这个H2变成targetavai1ab1ecmd
16、sess-quiet-actionrecoverTestZBMM5,主存储移除hostconnect关系chvo1grp-dev75SK65-actionremove-vo1ume3E01,3E02,3EBBV147chvo1grp-dev75SK65-actionremove-vo1ume3E01,3E02,3EBBV1486,备存储添加hostconnect关系chvo1grp-dev75NK36-actionadd-vo1ume3E01,3E02,3EBBV147chvo1grp-dev75NK36-actionadd-vo1ume3E01,3E02,3EBBV1487,操作系统认盘,varyon8,启动本业务此时业务已经在备存储上运行,运行一段时间后,主存