《分布式存储资源池架构规划设计.docx》由会员分享,可在线阅读,更多相关《分布式存储资源池架构规划设计.docx(18页珍藏版)》请在第一文库网上搜索。
1、分布式存储资源池架构规划设计随着互联网业务迅猛的发展,企业的数据规模呈指数级上升,在现在的云计算时代,海量数据使存储的性价比有所降低。人工智能、大数据、云计算等新兴技术奠定了大规模分布式存储的应用前提。和传统存储相比,分布式存储更可靠,能够统一管理,具有可扩展性,系统容量大,可以通过横向的扩展去提升其单机性能。分布式存储是将数据分散存储于网络中的多个数据节点上,其元数据库中的元数据实时更新,并存放于所有参与记录的区块链网络节点中,形成一个大规模的存储资源池。在分布式存储方式下,可实现超大集群规模的部署。每一个存储节点都可以提供独立的性能支撑,在高并发的数据处理中,可以实现更高的存储性能,有效解
2、决海量数据高扩展和高性能的存储需求。分布式存储通过将数据统一存放在云存储资源池中,利用存储管理系统,可根据用户指令实现数据的调动与共享。另一方面,存储系统内置数据治理,数据分析等与数据强相关的数据应用系统,可实现便捷的数据处理,并将处理好的完整数据对接到大数据平台实现大数据的分析与应用,实现数据价值的挖掘。由于分布式存储采用了去中心化设计,所有存储节点都可以承载业务系统,在遭遇故障时,系统多节点并发恢复,可以大幅缩短故障窗口,这些基础特性都进一步提升了系统的可靠性。鉴于分布式存储具备的以上优势,企业向分布式存储架构转型,建设分布式存储资源池已经成为趋势,而如何建设分布式存储资源池则需要企业实际
3、需求进行综合考虑。为了能更好的帮助架构师、运维工程师们解决这方面的困难,社区特别邀请了江西农信、前海财险架构师、北京现代、晋城商行、江西裕民银行、江苏金农、本钢矿业、中国民生银行信用卡中心、中国银行等企业的同行,同时也特别邀请了SmartX和XSKY的专家们一同参与交流分享。大家的交流重点围绕:分布式存储的应用趋势及必要性、分布式存储资源池硬件架构规划、分布式存储资源池网络架构规划、分布式存储资源池容灾规划。以下是活动探讨内容的整理总结,希望给同行们在分布式存储资源池项目建设规划上提供一定的参考和帮助。更多交流内容可以点击文末查看。1、目前分布式存储是否适用大多数行业和应用?【问题描述】随着X
4、86性能的提升和万兆10万兆网络的发展,分布式存储的瓶颈似乎也越来越少,除了特殊行业如金融等对IO有特殊要求的行业。分布式存储是否适用在大多数行业和应用中呢?以我目前接触过两个例子来说。一个用的超融合运行大数据分析业务,另一个用的VSan运行虚拟化,上面分布数据库,中间件等,由于业务没有那么大的压力。所以目前看分布式存储是可以胜任这样的环境的。在实际更多的行业中,还有哪些除了对IO有很高要求的行业以外,不适用分布式存储的应用呢?刘东东软集团技术咨询顾问:首先,随着X86服务器性能的提高,10GE/100GE网络的性能提升、固态硬盘的普及和大容量硬盘的出现,分布式存储确实越来越突显出其优势,性价
5、比高,规模化部署成本低,性能线性增长,这些特性让越来越多的行业正在将业务更多的部署在分布式存储上。从前几年的试探性部署,到现在的规模化部署,分布式存储的市场增长率,在大容量存储市场,已经显著的超过了传统架构的集中式存储。其次,我们需要看到,各个行业虽然都在大规模的部署分布式存储,但是传统的集中架构式存储仍有市场空间,目前据我了解,还没有任何一个行业的存储市场完全被分布式存储替代,仍然是混合架构,而非专有架构。最后,我们从两个不同的行业进行分析,看一下具体的应用场景。1、医疗行业,最适合分布式存储部署的场景就是PACS文件系统,这类系统的应用特点是对文件存储有大容量的存储需求,同时又要求高性能。
6、平均每个大型医院每年的数据增长量有几十TB,所以传统集中存储架构已经不适合这种大规模的数据量增长需求。最不适合分布式存储部署的是核心H1S系统,这类系统数据量不大,通常只有最多只有几个TB,每年数据增长几十GB,但是对I/O非常敏感,而且涉及到财务,对数据一致性要求也比较高,不太适用分布式存储。2、政府行业,最适合分布式存储部署的场景是大数据平台、电子公文系统等,类似公文这类系统通常需要存储大量的邮件附件等文件,对数据量要求比较高,但是性能要求一般,使用大容量低成本硬盘组件分布式存储是非常合适的,不但可以降低政府部门投资,灵活的扩展能力也可以将系统投资按年进行扩容,合理分配预算。最不适合的是电
7、子政务的数据库系统,通常这类系统存储民生等关键业务数据,特别是在做全国数据集中核算过程中,对I/O和数据一致性要求都比较高,不太适用分布式存储架构。赵海技术经理:首先,分布式存储这个概念不是一个唯一的产品,很多产品都可以归为分布式存储的范畴。例如有分布式对象存储,分布式文件系统存储。不同的产品由于其数据存取及组织方式的差异,必然有自己最适合和擅长的场景,当然也会存在自己的短板。所以,分析分布式存储适合什么样的行业和应用,如能聚焦到某一类产品上来,会更有针对性。再有我们分析这个产品适不适合这个行业和应用,需要从应用所处的场景特点来分析。就通用分析而言,无论是分布式对象还是分布式文件系统类的产品,
8、目前应用的大多数场景还是企业的一些非结构化及半结构化的数据存储及分析场景。一方面是数据量级的问题,另外一方面是数据本身的结构特点,再有一个就是扩展性的问题。但是对于传统的关系型数据库类的应用,由于其数据量级、数据并发控制的严格性以及稳定性等方面要求,大多数还是在传统集中式存储上。对于一些分析类的应用,由于互联网的融入,数据特点及量级方面都有了质的变化,因此大家都是根据具体应用特点采用NOSQ1+分布式存储+定向开发等形成一套具有自己独特应用特点的数据中后台。潘延晟系统工程师:目前看这两种架构的应用的确是具有一定的特征性。分布式存储倾向于非结构化数据,海量数据,可扩展。而传统的SarI存储更加倾
9、向应用在数据库等核心结构化数据业务中,高IOPS,稳定。好像很多行业信息化发展到一定规模时也都可以清晰的划分出这两种类型的数据来对应相应的存储方式。不过对于一些中小企业,我觉得有些尴尬,对于这样的企业来说。结构化和非结构化数据都有。但又都没有达到一定体量,从技术也好,资金投入也好,可能都没办法选择两套存储架构。最后只能不得不纠结的选择一套架构。以我目前接触的一个例子来说,最后选择了超融合,相比传统的san架构可能在使用上更简便一些。不过下面一位大神的回复也的确让我深有体会。1. “软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了:看着三副本选项后容量的缩减,简直是在割肉一样,即便是
10、纠删码,这种容量的损耗还是比raid5+热备要高。2. “软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了:传统的Sar1存储和x86的架构相互都是独立的。虽然连接维护要复杂有些,但好在结构清晰,只要对整体架构了解了。线路标识清晰,就好维护,但超融合和分布式存储这玩意高度整合,用起来是很方便,但一旦出问题的时候也的确难找到头绪,真是轻易不出问题。一出问题就找不到问题。在我的实际使用感受中上述两点算是分布式存储让我觉得硬伤的地方,其他在应用方面,因为业务体量没有那么大,处理的数据也没有那么多。另外业务在应用上的效率也并不完全靠硬件拉起来的,好的程序和数据库优化也可以弥补一部分硬件的不
11、足。所以还很难对比出传统san存储和分布式存储性能上的差异。enguinhe成方金融信息技术服务有限公司项目经理:分布式存储应用在应用服务器、中间件服务器等对IO没有极致要求和高可用方面有较高要求的分区上,结合应用、中间件和系统层面自身的双活及高可用设计,基本可以满足需求。whistwuSmartX解决方案经理:我的答案是肯定的,分布式存储将适用大多数行业和应用。在此之前,我们来了解大多数行业和应用对存储的诉求是什么?刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络共享的SAN存储
12、满足了需求;同时,SAN存储的快速发展还受益于IOE的架构体系,这中间的“0”就是数据库体系,因为数据库对IO性能的要求苛刻,SAN存储的IO性能和响应时间能够满足要求。因此“高性能”是大多数行业对存储的诉求之一,同时也是对分布式存储的诉求。刚开始的时候,因为分布式架构和产品成熟的因素,性能确实是考验分布式存储的一个难关,记得2017年中国移动组织了第一次分布式存储集采,结果包括华为在内的17家送测厂商无一例外失败了,其中最主要的原因就是性能不达标。行业里第一个想到的办法是超融合,计算虚拟化+分布式存储融合在一起,将数据更加靠近计算,没有存储网络的延迟影响,能发挥设备的极致性能。有意思的是ID
13、C报告里把HC1超融合和分布式块存储的市场放在一起来统计,是有一些道理的,因为超融合主要面对的是生产核心系统的领域,而这正好也是分布式块存储的目标市场之一。但是企业里还是有很多应用没有用虚拟机的,这部分怎么办呢,所以存算分离的场景是分布式存储重点的方向之一。影响分布式存储性能有很多方面,最重要的主要是两点,介质和传输网络,对于分布式存储系统来说,介质可以选择高性能的全闪磁盘,甚至全NVMe的SSD磁盘,能达到较高的IO性能,对于网络来说,分布式存储选用iSCSI连接方式比较多,但我们知道,iSCSI作为存储接口使用走的是TCP/IP网络,TCP/IP网络为非无损网络,意味着一旦有丢包,存储性能
14、会下降非常快,最新的方式是采用NVMe-oF作为传输协议,通过NVMeoverFabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位,同时这也非常适合分布式存储架构,NVMe-OF配合ROCEv2,能够使得分布式存储的响应时间达到了微秒级别。其次,需要企业对存储的另一诉求是“可靠性”。传统的SAN存储可靠性主要是采用了部件冗余和RATD技术,因为系统的工业化集成程度高,耦合性好,所以故障报修的问题少,而现在的分布式存储中,更多的考虑是通用型号的X86服务器设备作为平台,适用性较好,通过纠删码和副本技术来保护数据不会因为硬件故障而丢失,同时,考虑冗余的角度变成
15、了防止硬盘故障、节点故障、网络故障和集群故障等,用通俗的话来说,一个是按法拉利F1方程式来设计的,一个是按方便实用特斯拉电动车型设计的,当然这里说的是高端的磁盘阵列,普通的双控传统存储可能还远远达不到F1方程式级别。从企业应用角度还要考察的第三项是“稳定性”。正常情况下,分布式存储平稳运行是基础,需要考虑的系统是出现问题的时候,处在非健康状态下是否也能平稳运行,比如磁盘故障恢复时、部分节点故障后、网络亚健康时、存储容量达到80%的时候,这都是考验各分布式厂商技术功底,特别是在数据库环境下,更考验分布式存储厂商是否有长时间的技术积累,相信随着技术发展和分布式存储软件的迭代,分布式存储的稳定性会更
16、好。如果阅读中国IDC2023年上半年的报告,你会发现分布式存储和超融合已经不声不响的占了快一半的市场份额,比去年同期还高了5.8%,从市场表现上来看未来的分布式存储毫无疑问是适用大多数行业和应用的。荣重实XSKY技术总监:依照H)C的中国市场分析,分布式存储在国内占比已经超过40%,可以说是普适了大量的行业和场景;从场景看:1、私有云和混合云,本身就是分布式存储的主战场,在各个行业内广泛采用,其中政府、互联网、金融、运营商、教育、医疗等等行业已经稳定运行多年。2、各种类型影像系统,比如金融的ECM和双录,医疗的PACS和病理分析,高科的基因和电镜及AI,制造业的封测和MES,教育的精品课录播,自动驾驶的大量分析类数据,交通的卡口、ETC信息3、大规模监控云,如政府和运营商的各类视频收集平台4、海量的备份归档数据5、两地三中心容灾分布式比较难适配的场景,除了对IO延迟及其敏感的场景,其他场景几乎