分布式存储在行业和应用分析.docx

上传人:lao****ou 文档编号:370149 上传时间:2023-10-03 格式:DOCX 页数:12 大小:50.83KB
下载 相关 举报
分布式存储在行业和应用分析.docx_第1页
第1页 / 共12页
分布式存储在行业和应用分析.docx_第2页
第2页 / 共12页
分布式存储在行业和应用分析.docx_第3页
第3页 / 共12页
分布式存储在行业和应用分析.docx_第4页
第4页 / 共12页
分布式存储在行业和应用分析.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《分布式存储在行业和应用分析.docx》由会员分享,可在线阅读,更多相关《分布式存储在行业和应用分析.docx(12页珍藏版)》请在第一文库网上搜索。

1、分布式存储在行业和应用分析来自twt社区同行交流,欢迎更多同行参与交流目前分布式存储是否适用大多数行业和应用?随着X86性能的提升和万兆、10万兆网络的发展,分布式存储的瓶颈似乎也越来越少,除了如金融等对IO有特殊要求的行业,分布式存储是否适用在大多数行业和应用中呢?以我目前接触过两个例子来说,一个用的超融合运行大数据分析业务,另一个用的VSAN运行虚拟化,上面分布数据库、中间件等,由于业务没有那么大的压力,所以目前看分布式存储是可以胜任这样的环境的。在实际更多的行业中,还有哪些除了对IO有很高要求的行业以外,不适用分布式存储的应用呢?问题来自社区活动,由会员潘延晟系统工程师提出,来自twt社

2、区众多同行的分享,欢迎大家参与交流,各抒己见。*“争议”栏目内容来自同行分享的一手体验和观察,仅代表个人观点TB洪雪技术总监:摘一段某金融行业工程师的话,应该也是出自twt的话题:1,分布式存储没有大量使用,其中一个最大的原因是“软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了,我们金融企业真心用不起。2,高可用方面,分布式存储高可用方面对比传统SAN存储有明显差距,无论是单节点重启影响,微码升级影响等各方面在IO静默时间IO跌落幅度和长度方面差距太明显了。3,集中式架构决定性能可做得更好更极致更低时延。分布式架构天然上性能低时延不如集中式。4,经历者曾经有几十PB几十套软件定义分

3、布式存储(厂商产品)的运维经验:对比传统集中式存储软件定义的设备故障时的影响持续时间和修复难度要高得多。最怕遇到的是软件bug或是某个软件模块服务异常,这种情况一般很难快速修复,甚至要等几天到周的时间等厂商写hotfix然后打上修复。wwwdp西安未来国际项目经理:分布式存储目前在公安和交通的视频监控应用和视频图像分析、卡口图像(人脸/车辆识别)、大数据分析后端都有广泛的应用。有些厂家的分布式存储可提供集文件存储、对象存储、块存储、大数据四种存储服务于一身的分布式存储架构,通过横向扩展基础架构实现单系统存储节点扩展至数千个,形成EB级海量存储空间、百亿数据文件管理、千万级IoPS和百GB带宽,

4、并凭借其高效可靠的数据自动修复和自动运维机制,显著降低了存储管理的负担。分布式存储采用全对称、去中心化分布式架构,将系统的数据和元数据平均的分布到各个节点上,打破了传统系统的元数据集中式存储和管理这一限制,对系统的目录实行分而治之,实现负荷分担、负载均衡;即使系统中出现节点故障,系统也能够通过数据冗余规则以及故障修复迅速进行响应,恢复故障节点存储的数据及元数据信息,提供比传统存储系统更高的可靠性。分布式存储系统完成系统中各个节点存储资源的组织,对外提供统一API、支持不同协议的存储服务。分布式存储通过iSCSI协议对外界提供块级别设备接口,采用分布式系统技术、高可用系统技术将大量的存储设备进行

5、集中管理,并支持快照、克隆、卷QoS,精简配置等功能,提高资源利用率,保证关键业务的性能。分布式存储系统通过UDFSAPI提供大数据服务,使用HDFS可以将存储系统强大的分布式存储能力与IIadoop中MapReduce强大的并行任务处理能力相融合,并结合HDFS相关组件,将数据直接存储,从架构上解决数据爆炸性增长、非结构化数据分析速度缓慢等问题;通过数据共享访问能力的提升与接口的开放,可实现跨平台的数据共享访问,满足不同应用的需求。分布式存储系统可以根据客户业务需求,灵活的添加或者移除存储节点,从而将数据和应用程序从硬件抽象出来。当向系统中添加节点时,每个节点或者机箱都将聚合增加CPU、内存

6、、缓存、网络等资源,使系统整体性能高于各部分总和,提高吞吐量、容量和I0PS。分布式存储采用了元数据集群和基于一致性哈希算法的去中心化技术,支持节点动态扩展,不存在性能瓶颈。随着节点数的增加,存储容量和计算能力线性增加,最终给用户提供呈线性递增的吞吐及并发能力。客户为保证存储空间利用率,分布式存储提供清空回收站与定时删除功能。分布式文件系统回收站和分布式块存储系统回收站数据存储位置及方式不同,因此清空和清理时限的设置要分别进行。清空回收站操作需要慎重处理,在清除数据之前,需要查看回收站,确认没有需要的数据,再进行此项操作。而定时删除功能降低了用户的管理负担,用户可以自由设定定期扫描时间和文件目

7、录/逻辑卷超时时间,系统每隔一段时间在后台运行扫描一次,遍历回收站目录下所有日期目录或卷回收站内卷删除时间,获取当前时间,与日期目录或卷删除时间进行比较,对小于文件目录超时时间的文件/目录/逻辑卷不允许删除,反之,则进行自动删除操作。分布式存储将零散的存储资源集合起来,提供一个统一命名空间给用户,使用户可通过任何节点接入系统并处理客户端连接请求。为均衡分发客户端的连接请求并确保业务可靠性,提供“轮询机制”、“连接数机制”、“CPU机制、“memory机制、bandwidth机制”的负载均衡策略供用户自主选择,系统根据选定的策略将多客户端连接到系统各节点,使得不同存储节点业务、硬盘压力相对均衡,

8、优化系统资源的使用。荣重实XSKY技术总监:依照IDC的中国市场分析,分布式存储在国内占比已经超过40%,可以说是普适了大量的行业和场景。从场景看:1、私有云和混合云,本身就是分布式存储的主战场,在各个行业内广泛采用,其中政府、互联网、金融、运营商、教育、医疗等等行业已经稳定运行多年。2、各种类型影像系统,比如金融的ECM和双录,医疗的PACS和病理分析,高科的基因和电镜及AI,制造业的封测和MES,教育的精品课录播,自动驾驶的大量分析类数据,交通的卡口、ETC信息。3、大规模监控云,如政府和运营商的各类视频收集平台4、海量的备份归档数据5、两地三中心容灾分布式比较难适配的场景,除了对IO延迟

9、及其敏感的场景,其他场景几乎都涉及了分布式存储,近期很多金融机构已经开始尝试利用国产化硬件配合全闪介质进行跑批测试,简单的说就是客户对于双模架构的理解已经非常深刻,不会盲目的进行站队,而是在充分理解自己应用和IO模型的情况下,选择最适合自己的数据存放方法。随着SSD和网络技术的继续发展,我们有理由推断,分布式存储在市场中占有的场景和行业会继续增加,慢慢成为主流的数据存放方式,结合数据湖以及数据流动的概念,更快更稳定更长久的保存数据,充分发挥数据本身的价值。enguinhe成方金融项目经理:分布式存储应用在应用服务器、中间件服务器等对IO没有极致要求和高可用方面有较高要求的分区上,结合应用、中间

10、件和系统层面自身的双活及高可用设计,基本可以满足需求。一只红松鼠华为:从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用X86服务器+分布式软件是否适用大多数行业(VSAN的例子)。所以分别回答一下这几种情况。首先以我的经历,IT业务场景的差异是非常巨大的。几年前一个项目招了几个DBA,干了几天发现他工作方法效率非常低,不像有几年的经验的样子。后来明白了,他以前搞的数据库IT就很大了,而我们的业务抄起来就是几T甚至十几T,他原来效率很高的方法就变成了很低效的方法。具体到提问,第一,分布式存储,仅讨论使用分布式架构的存储

11、的话,那么大部分场景都是适用的(参见另一话题回复:https:/www.ta1kwiIhtrend,comzQuestion4433413013459)o例外之处反而可能不是高10,而是一些小场景。因为分布式架构需要一定规模才能发挥性能、成本优势,小场景反而是磁盘队列的优势。那么我们来看看“采用通用X86服务器的分布式存储是否适用大多数行业我借用下AwS的实践来回答,因为AWS能看到场景应该比我们能遇到的丰富得多。AWS的存储绝对是分布式的,早期也是用通用服务器的,网络是IOGEo很符合题主描述的情况。但从去年发布的EBS102Express,开始使用专有硬件、专有网络协议。网络带宽没有看到,

12、但因为估计要承载ROCE,25GE是大概率。从AWS上抓了不同卷类型的特点、场景对比表,应该比较符合题主的问题方向,但也不可能完美解答。比如OraCIe,虚拟桌面等等在多种类型的存储中都出现过,应该用哪种,恐怕AWS也说不太清。这就像我找的DBA,他理解的最不过这张表还是能看出很多信息,简单解读一下:1对存储的选择除了性能还有可靠性,对应题主的问题,除了金融等特殊行业,要求可靠性高的场景也很多;2.而从存储能力方面,高性能和高可靠往往是相伴而生的,即使性能要求不高,有很高可靠性需求也要使用比较高端的存储,只能全都要,不能二选一;3.高性能、高可靠的需求大量存在,否则AWS也不必花那么大投入,还

13、收购了一家公司来补齐这部分能力;4.高性能高可靠是很难实现的,AWS只是实现了个预览版,而且通用硬件已经搞不定了。至于像VSAN这样完全分离的方案,要考虑的因素还有软件的能力。VSAN是很强大的软件,运维也比较容易。如果使用其它产品,可靠性,运维能力也是需要考虑的。补充说明,表中的信息记忆中是从英文网站扒的,但时间长了,找不到链接To而且用的机器翻译,各位凑合看吧。赵海技术经理:首先,分布式存储这个概念不是一个唯一的产品,很多产品都可以归为分布式存储的范畴。例如有分布式对象存储,分布式文件系统存储。不同的产品由于其数据存取及组织方式的差异,必然有自己最适合和擅长的场景,当然也会存在自己的短板。

14、所以,分析分布式存储适合什么样的行业和应用,如能聚焦到某一类产品上来,会更有针对性。再有我们分析这个产品适不适合这个行业和应用,需要从应用所处的场景特点来分析。就通用分析而言,无论是分布式对象还是分布式文件系统类的产品,目前应用的大多数场景还是企业的一些非结构化及半结构化的数据存储及分析场景。一方面是数据量级的问题,另外一方面是数据本身的结构特点,再有一个就是扩展性的问题。但是对于传统的关系型数据库类的应用,由于其数据量级、数据并发控制的严格性以及稳定性等方面要求,大多数还是在传统集中式存储上。对于一些分析类的应用,由于互联网的融入,数据特点及量级方面都有了质的变化,因此大家都是根据具体应用特

15、点采用NoSQ1+分布式存储+定向开发等形成一套具有自己独特应用特点的数据中后台。whistwuSmartX解决方案经理:我的答案是肯定的,分布式存储将适用大多数行业和应用。在此之前,我们来了解大多数行业和应用对存储的诉求是什么?刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络共享的SAN存储满足了需求;同时,SAN存储的快速发展还受益于K)E的架构体系,这中间的“0”就是数据库体系,因为数据库对IO性能的要求苛刻,SAN存储的IO性能和响应时间能够满足要求。因此“高性能”是大多数

16、行业对存储的诉求之一,同时也是对分布式存储的诉求。刚开始的时候,因为分布式架构和产品成熟的因素,性能确实是考验分布式存储的一个难关,记得2017年中国移动组织了第一次分布式存储集采,结果17家送测厂商无一例外失败了,其中最主要的原因就是性能不达标。行业里第一个想到的办法是超融合,计算虚拟化十分布式存储融合在一起,将数据更加靠近计算,没有存储网络的延迟影响,能发挥设备的极致性能。有意思的是IDC报告里把HCI超融合和分布式块存储的市场放在一起来统计,是有一些道理的,因为超融合主要面对的是生产核心系统的领域,而这正好也是分布式块存储的目标市场之一。但是企业里还是有很多应用没有用虚拟机的,这部分怎么办呢,所以存算分离的场景是分布式存储重点的方向之一。影响分布式存储性能有很多方面,最重要的主要是两点,介质和传输网络,对于分布式存储系统来说,介质可以选择高性能的全闪磁

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服