《曙光基于刀片服务器的CAE高性能计算平台解决方案.docx》由会员分享,可在线阅读,更多相关《曙光基于刀片服务器的CAE高性能计算平台解决方案.docx(24页珍藏版)》请在第一文库网上搜索。
1、曙光基于刀片服务器的CAE高性能计算平台解决方案CAE即计算机辅助工程设计,自二十世纪六十年代以来CAE技术得到飞速发展,其原动力是不断增长的工业需求,其中航天航空、能源动力等领域是其发展的强大的推动力。目前在航空、航天、能源动力等工业领域,利用CAE进行反复设计、分析、优化已成为标准的必经步骤和手段。如大型复杂飞行器结构的流-固耦合计算,涉及计算空气动力学、计算燃烧学、计算传热学、计算结构力学等众多学科。CAE背景知识CAE主要分为建模,求解和后处理三个步骤,其中建模和后处理通常是在工作站中进行的,而CAE的核心即求解过程,需要占用大量的CPU、内存资源以及存储空间,通常要在高性能计算机上完
2、成。常用的CAE软件主要有:F1Uent,CFX,CFD-FastranZACE+,Ansys,Abaqus,MSCNastran,1S-Dyna等。CAE应用程序基本可以分成两大类,一类是以AnSys,Abaqus以及NaStran等结构分析软件为代表的共享内存应用程序,这类应用程序的单个作业时对内存和存储I/O的需求量非常大,并且通常在计算过程中,会产生大量临时存放但对性能需求很高的本地交换文件(Scratch),对于这一块的性能优化,可以起到事半功倍的效果,否则,用户所购买的昂贵的cpu内存的效能也会大打折扣;另一类则是以FkIent、CFX.CFD-Fastran.ACE+等CFD软件
3、和1s-Dyna、Pam-CraSh等显示结构分析软件为代表的分布式内存应用程序,该类应用程序并行效果好,对内存的需求没有共享内存类型的应用程序大,而且对本地交换硬盘性能要求不高。曙光公司CAE领域的专业工程师针对这两大类应用程序详细分析了其特点,并且和国内知名ISV进行了大量的联合测试,结合广大曙光用户反馈的宝贵使用经验,推出了CAE高性能计算平台解决方案。TC2600刀片+A950SMP完美组合,满足各类应用程序需求曙光公司提出了基于刀片服务器的CAE高性能计算平台设计方案,该方案总共包括6个部分:50节点的TC2600刀片机群、2台A950r-FSMP小型机服务器、2台A620r-FIO
4、节点、SAN存储网络、IPSAN存储网络以及管理节点和图形工作站区域等。曜光CAE高性能计算平台方案示意图曙光CAE高性能计算平台方案将TC2600刀片和A950r-FSMP完美组合,可同时满足各类应用程序需求。曙光刀片式服务器TC2600是为了突破计算机系统规模增加而效能降低的计算机发展瓶颈而设计推出的。它采用超高密的刀片式服务器架构,内置高效网络交换系统,减少网络延迟;超强的系统处理器扩充能力,最大可支持20颗AMDoPterOn双核处理器;优秀的散热设计,突破IU机架服务器空间设计极限,实现了7U10片的超高密系统设计;通过系统的整体设计,减少不必要的功耗,有效降低整体系统功耗;同时引入
5、了人性化的设计理念,处处体现以人为本的设计思想,是易管理、易维护、高可用的新一代服务器产品。TC2600是曙光人在服务器领域长期致力计算机技术研究的又一成功技术结晶。整合高速网络系统设计:曙光TC2600刀片式服务器内部集成20Gbs高速Infiniband交换网络,整合了全线速以太网交换机。同时可选的IOE扩展系统可以使用户将工业标准部件如HBA卡、Raid卡以及InEniband网络等集成到刀片服务器系统中,而不必像购买其他品牌刀片服务器时遇到的需要花费高额费用去购买硬件厂商的专用部件。整合KVMOver-On-IP系统:为减少键盘、鼠标和显示器缆线管理的困扰,曙光将KVMSWitCh技术
6、整合进TC2600服务器系统,可使10个子系统共享一套设备,而系统与系统间可透过单一缆线连接,可使多套TC2600服务器仅以一条缆线共享一套KVM装置,并可以通过远程管理服务器系统。高可靠的产品设计:曙光TC2600刀片式服务器采用全冗余结构设计,可以极大的保障电源系统、散热系统、存储系统等的高可用性,提高了整体系统的稳定性。同时TC2600还提供对所有部件监控的系统管理机制,如组件的状态是否正常,操作电压是否正常,系统散热是否正常,温度是否偏高等等。优秀的管理软件:曙光TC2600配备了强大的管理软件系统,并支持基于IPM1的远程管理,用户可以通过RJ45网络管理端口连接到曙光TC2600刀
7、片服务器系统。如下图所示,界面显示了每个TC2600刀片机箱的主要部件状态情况,通过点击图标便可以查询每个部件的详细信息。曙光TC2600刀片管理界面曙光A950r-FSMP小型机是基于X86结构的服务器,在继承传统小型机优势的同时,有效地解决了传统小型机无法克服的如价格昂贵,可购买CPU数量有限,无法用于大规模优化设计任务,与X86结构集群服务器操作系统、应用软件无法兼容等弊端。曙光TC2600刀片服务器特别适合运行Fh1ent、CFX、1s-Dyna.Pam-CraSh等分布式内存应用程序,曙光A950r-FSMP小型机则特别适合运行Ansys,AbaqUs、Nastran等共享内存应用程
8、序,且两者均采用X86-64平台,属同构系统,可共享软件资源和数据存储空间,资源调度简单,节点配比可灵活调整,二者有机结合,几乎可以适用各种应用需求,能够有效降低用户总体拥有成本。曙光CAE:成功突破系统IO瓶颈曙光针对分布式机群环境和SMP计算环境设计了一整套SAN存储网络和IPSAN存储网络解决方案。IO节点采用2台A620r-F,配置2颗2000系列双核AMD处理器和16GBDDR2内存,通过配置4Gbs的光纤HBA卡连接到SAN存储网络提高IO性能。对于TC2600刀片机群系统,每个计算节点通过NFSoVerSDP方式挂载(mount)两个K)节点的存储空间;对于两个管理登陆节点,同样
9、通过NFSoverSDP方式挂载(mount)两个IO节点的磁盘分区,并将用户分成两类后把主目录放在共享分区中以减轻文件系统压力,同样的,应用软件也分成两类安装到两个共享分区中。对于SMP计算节点,由于对存储性能要求较高,最好不要采用NFS文件系统,而是采用直接接入SAN网络的方式。NaStran等结构类计算程序安装在两台SMP节点上,计算中间数据和结果数据存放在本地挂载的SAN空间,实际作业调度时应避免跨节点执行应用程序。此外,SMP节点还需要挂载IO节点NFS数据继承用户主目录信息。优化的网络系统设计,高速计算的有力保障根据上面的分析,我们建议高性能计算平台采用20Gbs的Infiniba
10、nd网络来构建,并将管理IO节点连入高速网络,通过采用NFSoverInfiniband实现全部计算节点的数据共享。曙光公司与中科院某研究所对最新版F1Uent的性能进行了测试,算例网格单元为90万左右,采用湍流双方程模型和PDF燃烧模型,测试硬件为8个双路AMD双核的节点,网络为千兆网和Infiniband网络。测试结果表明千兆网环境下16CPU核心内可以保持较好的性能加速,而32CPU核心时由于传递的消息量剧增至上万个每秒,千兆网络己经无法继续提升性能,而此时Infiniband网络则可以继续保持线性加速。曙光公司和Q1ogic公司进行了相关性能测试,测试结果表明基于Infiniband的
11、NFS可以大幅提高IO能力,尤其是并发的IO能力,进而可以提高计算效率。DCAS界面友好,功能强大的管理系统DCAS是曙光专为百万亿次高性能计算机系统开发集群管理套件,用于对集群系统进行统一管理,包含了新一代的作业调度系统一一DCJM。它采用基于IE浏览器的图形化方式来实现对集群的统一管理,包括系统安装部署、网络配置、作业管理、安全配置、用户管理、进程以及服务管理和交互式并行命令执行系统等,配置简单、使用方便。除了同样具有较高的可用性和可管理性,可以满足绝大部分应用场合的需要外,DCJM还具有中英文两种语言可选,更符合国人的使用习惯,以及高性价比的特点。ibii以上为曙光CAE高性能计算平台的
12、一个参考解决方案。针对每一个用户,曙光公司将具体分析用户的实际需求,包括计算规模、用户数量、算例大小、模型特点以及上文提到的两类程序所占的比例等等信息,在该方案的基础上进行合理修改,并进行相关细节的设计,制定出最适合用户的优化方案。附录资料:不需要的可以自行删除电脑故障集错误与非法篇电脑故障集1(114)错误及非法篇一、注册错误信息ERROR:Bad1oginNameformatERRORbc:Bad1ogin0这表示你的用户名错误或不存在。在客户端你看到的提示是:EithertheAccountnameorPasswordyouprovidedwereincorrect.Ifthisisan
13、ewaccount,youraccountmaynotbeactiveyet.p1easetryagainshort1y(如果客户端没有输入名字或密码,会得到同样的提示)ERRORbc:Bad1ogin。1这表示你的用户名正在被使用,比如已经有人用该用户名登录或者非正常断线的用户没有被服务器释放ERRORbc:Bad1ogin2 .此信息表示该用户名已经被系统管理员封锁(b1ocked),通常是在游戏中GM使用了/KICK命令造成的。用户可以写邮件给管理员查询ERRORbc:Bad1ogin03 .次信息表示你输入的密码错误(注意:服务器控制窗口将显示错误和正确的密码)。客户端将得到如下信息:
14、“YoUraCCoUntCredentiaISareinva1id.CheckyouruserIDandpasswordandtryagain.ERRORcO:Bad1ogino4 .通常这个信息表示服务器端与客户端的版本不匹配,升级客户端版本可以解决此问题。客户端得到的信息提示为:Thereissomeprob1emcommunicatingwithOrigin.P1easerestartU1timaOn1ineandtryagainGenera1ErrorMessages二、基本错误信息BadSpawnpointuid=040006380,id=0此信息指示了一个错误的重生点设置,UID指
15、物品创建的定义标识符,ID#则表示该物品的对应描述小节。你可以参照U1D的代码(#)使用/GOUIDUID#命令找到该物件并移除它。注意并非立即生效ERROR:Improper1yscripteditem#ERROR:CreateBaseinva1iditem0#这表示服务器试图使某些物品重生时未能在脚本文件中找到它的相关描述小节。你可以从TUSdefsscp中找出#对应的对象并且校正它们。ERRORNewWa1kCount1!=65535上面所表示的数字可能有所不同,但表示的是同一个意思。这表示服务器和客户端未能保持及时地同步,你完全可以忽略这一诬害信息。ERRORa4:Unrequeste
16、dtargetinfo?此错误发生于多种下,在正常状态下发生于鼠标点击对象的错误动作,比方说对这门施法术;另外一些情况发生于在错误的时间里取消鼠标的指向动作。在/INFO窗口中的一些物品会导致此错误的发生。ERROR:CWor1d.C1ockEndofWor1dtime.Recyc1e这种情况会在服务器运行了50天后发生一次。Whatisunsureisifthetimerresetsonaservershutdownorifitho1dsit'stimersetting(maybeinthewor1dfi1e)andrestartsfromthereonnextstartupERROR:101ostitemsde1eted在服务器储存期间,如果某件物品与一个不存在的容器相关联,服务器会标识并删除它们。ERROR:Profai1ERRORbc:BadMs