《大型集团企业海量非结构化数据存储解决方案.docx》由会员分享,可在线阅读,更多相关《大型集团企业海量非结构化数据存储解决方案.docx(33页珍藏版)》请在第一文库网上搜索。
1、大型集企业海量非结构化数据存储解决方案目录1 .项目背景41.1 Y集团概述41.2 建立大容量存储所遇到的问题42 .需求分析63 .解决方案设计思路83.1 存痴殳备的艇83.2 整体架构的建设84 .总体设计94.1 方案说明94.2 数据调用方案104.3 数据的粉备份方案114.3.1. 磁带备份.114.4 归档存储系统架构设计124.5 数据调用方案134.6 离线备份方案144.7 容灾方案144.8 今后扩容方案154.9 存储容灾备份策略164.10 同步后数据调阅流程174.11 对于可能损坏数据的自动修复184.12 数据的误删除保护194.13 对于大容量文件的处理1
2、95 .存储系统实施规划206 .使用CAS存储方案的优势226.1 高安全性226.2 高访问效率2263.在线备份226.4. 灵活的扩充能力236.5. 对于文件的自我修复237.CAS存储产品将237.2. ICAS内部架构介绍257.3. 产品组成与功能介绍267.3.1 心模块277.3.2 基于WEB的监控管理界面277.3.3 自我管理模块287.3.4 节点间的通讯、管理模块297.3.5 数据复制.297.3.6 开放AP1297.4. 节点内部架构297.5. 安全可靠的硬件架构307.6. 节点间的架构307.7. 报警监控机制317.8. 设备性能指标327.9. 与
3、业务系统整合321 .项目背景1.1 Y集团概述Y集团正在研发中国最大的艺术品图片数据库,将填补中国文化艺术领域的空白在数据库中,Y集团高精度扫描后的艺术图片分三个等级:网络级(几百K1出版级(大部分小于50M,个别达到200M复制级(大至5G),现已超过IOO万份。16年底存储容量达5T,17年底达IOT,18年10月已到25To现有存储设备为:HPMSA1500一套,使用磁带作为离线备份设备。19年计划北京新增50TB存储,深圳新增20TB,上海新增5TBo今后根据实际情况进行三地容量的扩充,满足异地两份文件在线备份的安全性要求。公司到2023年存储容量预计达到170TB。1.2 建立大容
4、量存储所遇到的问题1)容量可能成为瓶颈由于局限于很多类型存储设备的设计,可能单个存储无法支持到实际的海量需求,如果使用多台存储设备则备份、同步等都会出现问题。2)读写效率对于海量存储的读写效率不同于普通容量的存储,由于计算机运算和存储位的限制,可能面临海量读写瘫痪的隐患问题,而目前对于这种高精度艺术图片的读写性能是非常需要看重的。3)备份和恢复能力的挑战对于海量数据的备份和恢复不同于传统的,关键在于大容量备份和恢复的时间周期,需要将备份和恢复的时间接受程度进行评估,因而目前使用的磁带备份方式会存在海量数据的备份问题,按1T02的实际测试速度计算(IOM/S),30TB的数据备份一次需要36天,
5、这是在实际应用中无法接受的。4)存储的高可用性存储设备作为海量数据的保存的平台,由于备份恢复的成本和时间,需要有一个非常安全的高可用性方案,设备应该充分考虑到比如硬盘等硬件损坏的情况对整个系统的影响降至1最氐。5)管理成本管理成本也是一个海量存储设备需要考量的问题,由于对安全性要求很高,如何实时来跟踪设备使用的情况和及时做出对策是非常重要的。6)大容量文件的展示问题需要管理的文件的容量远远要大于计算机所能在线打开的容量极限时的对策。7)文件损坏问题存储设备缺少主动监测功能。只能单纯的存入数据,但是并不能检测文件的完整性。往往由于磁头写入时的位错造成文件无法正常读取。8)确保整个存储系统的稳定需
6、要一个由一家厂商提供的整体存储方案。便于整个存储的维护与管理。9)全在线性能力保证数据的全在线能力,最快的寻找到数据。提高系统反应速度与等级。10)部署与实施充分利用现有的网络和服务器资源,在不影响网络通讯和不间断重要的关键业务应用的情况下,可以快速的部署实施。设备开机就能使用。2 .需求分析针对Y集团文化目前所用存储遇到扩容瓶颈的问题,我们认为Y集团文化需要一套整体的海量数据存储解决方案,具体需求为:1)需要海量可扩充的存储设备不仅可以满足对于日常文件的存储和读取,还要适应Y集团文化对于单个大容量文件(几百MB甚至GB级别的文件)的高速读写,随着Y集团文化存储容量的飞速发展,整个存储系统需要
7、有扩充灵活与无限制。扩容不能影响整个系统的性能。2)需要高读写性能由于1)文件的存储总容量非常大2)单个文件的容量演E常大,需要在这两个特性的前提下有很好的读写性能。3)备份和恢复能力存储设备要支持在海量情况下高速的在线备份和恢复解决方案。4)设备管理希望购买的存储是一个智能的可自动报警的设备5)存储的高可用性和性价比需要存储支持高可用性方案,比如双机热备,在线容灾等,在确保安全性的情况下希望有一个比较好的价格。6)与应用系统的整合能力目前现有的管理系统中可以在线查看网络级图片文件,对于出版级和复制级文件提供目录的链接,而希望通过存储扩容提供所有文件的在线查看解决方案7)消除重复存储对于相同的
8、图片如果有多次存储的话只希望在后台保留T分,对于前端应用完全透明,节省了存储空间8)消除错误删除存储系统需要有先进的机制,确保文件不被误删除。9)数据完整性与自动修复由于一直遇到图像文件打开后,出现色差,黑线,一些区域黑块等等影响图片质量的问题。希望存储内部提供对于数据进行检测完整性并自动修复的功能。10)将来的上徐-深圳一北京三地备份和容灾全国的分支机构以上海、北京和深圳作为区域中心,考虑将来建立三地容灾来保证系统的安全性和高可用性。3 .解决方案设计思路我们在设计存储方案的时候我们进行了以下考虑3.1 存储设备的选型目前主流的存储架构有SANxNAS和CAS,Y集团文化所存储的均为非结构化
9、数据,我们选择了最适合存储非结构化数据的存储架构CAS来进行方案建议。3.2 整体架构的建设我们不仅仅把Y集团的需求作为一个简单的存储扩容而是理解成一个系统解决方案,因而对于整体的架构的建议非常重要,主要包含:1)高安全和价格投入2)如何更好的利用现有资源来节省成本3)逐步扩大容量,4 .总体设计随着信息化的飞速发展,存储技术在近年发生了巨大的变化,存储成本降低、新的技术在取代旧技术的同时也能无缝为旧系统进行升级和扩充,从最早基于磁盘的存储变成以NAS和SAN的网络存储,到目前最先进的智能内容地址存储(CAS),归档存储设备已经成为了趋势。结合目前Y集团文化存储建设现状和扩容需求,我们提供了基
10、于CAS架构的归档存储在线扩容、在线热备和离线磁带备份相结合的方案,为用户提供一个更加完善的系统解决方案。因而本次存储项目的设计上我们考虑分为以下三个方面:1) 系统的兼容性,由于我们建议的存储架构CAS和现有SAN架构不同,但是基于对原系统的了解,可以做到扩容的无缝整合。2) 使用在线备份,为海量数据的备份和恢复带来可行性。3) )保留原有磁带备份。4.1. 方案说明我们认真研究了Y集团文化数据存储情况而制定了专业的解决方案。具体设备需求如下:设备类型融说明CAS存储13CAS存储,非结构化数据的存储设备。基于CAS架构的网络设备。可用容量5T。磁带库现有用于离线备份建设的架构如下图:在北京
11、部署9节点CAS存储设备。单台iCAS有效容量为5TB。总容量为45TBo在深圳使用3个节点CAS存储,总有效容量为15T,在上海使用1台CAS存储,有效容量为5To并通过iCAS的标准VeritaS接口进行磁带库的离线备份,保证文件在整个系统中最少保留2份,满足系统的安全性可靠性。iCAS具有的文件完整性检查、在线无缝扩容、重复数据删除等技术能很好的满足Y集团现在与将来的需求。4.2. 数据调用方案使用用户ip规划的方式,保证了系统传输效率。使用户最快的调阅本地数据。具体流程见下图43.数据的异构备份方案CAS存储存储系统支持异构平台备份,根据Y集团文化现有设备状况和应用使用情况提供磁带备份
12、与磁盘备份方案。4.3.1.磁带备份通过VeritasBackupExecforiCAS磁带同步软件,根据用户需要定时备份数据。在备份时可选择文件或文件加密两种方式43.2.磁盘备份通过同步软件,定时把增量数据存入用户指定磁盘存储设备。4.4.归档存储系统架构设计结合目前Y集团文化存储建设现状和扩容需求,我们提供了基于CAS架构的归档存储在线扩容和在线热备相结合方案并整合用户离线备份的需求,为用户提供一个更加完善的系统解决方案。因而本次存储项目的设计上我们考虑分为以下几个方面:1)系统的兼容性,由于我们建议的存储和虽然现有的不同,但是可以做到对原系统的兼容。2 )用在线热备系统并整合离线磁带备
13、份对系统的使用无影响,由于加入在线热备系统,因而需要原系统无影响,同时增加了存储方案的高可用性。3 )根据Y集团的需求,网络级图片是出版级和复制级图片的网上直接查看的缩小图,本次存储除了考虑海量存储容量支持之外还需要考虑对于单个大文件(经过了解最大的文件有5GB左右)的存储读取性能。中国艺术品数据库系统iCAS存储平台(系统存储逻辑结构图)iCAS作为一个存储平台提供Y集团文化非结构化数据存储,对于系统(中国艺术品数据库系统),只需要完成存储和读取的接口即可。iCAS不同于SAN的架构在于iCAS是基于网络的访问,提供对外基于ip的tcp/ip访问,因而无需SAN的复杂架构部署,直接接入网线即
14、可使用,可以提供灵活的对外服务架构。4.5.4.6. 数据调用方案对于海量数据的直询调用也是非常重要的,如果没有一个很好的架构会使得单次响应的速度无法保障,并且在一定并发量的情况下系统崩溃。我们提供高效的三角架构方案,特别适合Y集团文化这样的有大量单个大容量文件的应用,三角架构如下:使用传统的存储的调使用CAS架构的调用方式用方式4.7. 离线备份方案CAS存储不仅支持在线备份,还支持离线备份,备份介质可以为光盘或者磁带,考虑到目前Y集团的现有模式,我们建议采用磁带介质来进行离线备份,通过iCAS的Veritas接口进行数据的备份。备份到磁带上是经过压缩和加密的影像数据,今后可以通过自带的恢复
15、软件对影像进行恢复,具体恢复时间根据带库驱动器的格式和速度而定4.8. 容灾方案对于Y集团文化艺术品数字资产2010年规划近170T这么大容量的数据,必须建立一套在线容灾存储以确保数据的安全性和实时恢复能力,我们提供的CAS设备可以设置策略将两套异地的存储互为备份,在确保存储数据安全性的同时,降低了系统建设成本。4.9. (iCAS主备架构图)4.10. 今后扩容方案基于上面几个章节对于CAS存储结构的存储的介绍,结合Y集团文化在未来3年内的发展和要求。我们建议将来的存储部署架构如下图:(三地分布式存储架构图)最终在北京、深圳和上海建立三个存储区域中心,所有数据容灾备份,当系统正常运转时自动判断查询客户端所在的区域比如深圳的客户最终查看?吓载图像直接四维到深圳的存储设备上,这样确保了系统的高效率。整个系统通过简单的备份策略配置,保证了一份