《算力和调度系统解析.docx》由会员分享,可在线阅读,更多相关《算力和调度系统解析.docx(20页珍藏版)》请在第一文库网上搜索。
1、算力和调度系统解析1引言当前,算力服务确实到了一个爆发的阶段,它的商业模式已经逐渐形成,并且已经有一些企业在产业链里面加大投入,抓住这次机会了。展望算力服务的发展。在一百多年前,爱迪生刚发明电灯的时候,最早也有一个争议:到底向广大用户卖电力设备还是卖电力?爱迪生虽然是一位发明家,但他同时也是一个商人。那时,爱迪生犯了一个错误,他执着于卖直流发电设备,而他的一个同事一一尼古拉特斯拉,则希望卖电,用交流电为大家提供更便宜的用电服务。爱辿生不同意如此。为了阻止特斯拉卖电,甚至用交流电电死一匹马来恐吓人们。但是,天下大势浩浩荡荡,历史证明特斯拉是对的。这提醒我们,一定要顺势而为。一百年以后我们也面临类
2、似的选择:是继续卖计算设备还是卖计算设备产生的算力服务?现在来看,随着云计算的发展,“计算服务化”越来越多,现在算力服务的趋势也是浩浩荡荡,似乎是很难阻挡。其实早在2018年就看到了这个趋势:算力经济时代一定会到来,但在那时讲这个还有点早。但是现在随着“东数西算”的启动,大家慢慢地达成共识了,都观察到了这个趋势,共同推进算力服务产业发展,感到由衷的欣慰。展望未来,如果我们按照电力一百年来的发展来看,算力服务产业发展应该类似于电力服务的发展。其中,首先我们会有类似国家电网的“国家算网”。随之而来,有了国家算力网络,就像电力服务有发电厂,我们就要有“算力厂”。我们相信,“东数西算”将来会在西部地区
3、布局很大的算力工厂一一它们主要用新能源驱动,更加绿色环保,为东部地区提供经济实惠的算力供应。当然这里还涉及一些算力的定价问题。但怎么来评价算力的单位,比如怎么定义“一度算”,这背后还有一系列的工作要做。此外,为了让算力能够普及成为为广大用户可用的服务,未来可能还会有“算力插座”。当下,算力的应用是很复杂的:需要工程师和很复杂的技术、各类标准等等。因此,我们是不是需要“算力插座”?当然,算力插座不会只是物理的硬件组合,肯定还要有一些智能软件标准等。还有消耗电力的不是人本身,而是电器设备。同样消耗算力的也不是人本身,而是各类应用软件一算力界的“电器设备”。目前,算力服务的原生系统已经出现了,有待于
4、业界同仁一起推动标准的进化,让算力服务“傻瓜化”一一到底是哪儿的算力、什么样精度的算力等等问题,这些全部都要屏蔽掉,用户只要买个套餐,“即插即用”就行了。2算力自从有了计算机,我们就有了“ComputingPoWer这个英文词组。这应该是最早出现英文版算力概念的时候,以后随着超级计算机的出现,ComputingPower”一词被用来衡量超级计算机能力大小。那么算力究竟是一种什么能力呢?或者说算力的定义是什么?通过解剖一台计算机如图1给出了一台冯诺依曼计算机体系架构I1Ts数总15指令挖M图1冯诺依曼计算机体系架构其中中央处理器(CPU)包含了运算器和指令控制器,而运算器主要用来运算数值的。所谓
5、算力,狭义定义就是计算机或设备每秒浮点数的运算次数F1OPSo传统的超级计算机一般坐落在计算中心或超算中心,以前人们使用超级计算机是需要人跑到计算机中心去运算的,随着互联网和城市宽带的兴起,人们可以通过网络远程的来使用超级计算机了。那么有人就想超级计算这种计算能力能否像我们城市管道资源如水,电,气一样成为一种泛在的,便宜的,随时可用的资源呢?其实有这种想法的不是近几年的事,早在1961年,美国麻省理工学院(MIT)约翰麦卡锡教授,在麻省理工学院一百周年纪念庆典上,首次提出了Uti1ityComputing(公共计算服务)的概念,他也是ArtifiCia1InteI1igenCe(AI)概念的提
6、出者,世界公认的人工智能之父。到了1984年,SUN公司联合创始人约翰盖奇(JohnGage)提出了TheNetworkistheComputer,网络就是计算机的论断。所以要让算力成为社会共享资源,我们智慧的前辈们早在几十年前就预见了这个趋势和发展。广义上来说所谓算力就是计算机每秒处理信息的能力(或者条数),也有人定义为是硬件和软件配合共同执行某种计算需求的能力。但是这些定义还是太模糊,无论信息处理的条数还是某种计算能力都和被处理的信息类型有关。比如在高性能计算中,我们用每秒双精度的浮点计算条数(F1OPS)来定义高性能计算的算力;人工智能和机器学习算法中,我们用单精度或半精度的整数计算来衡
7、量人工智能的算力;在比特币挖矿算法中,我们用计算机随机的挖矿机每秒钟能做多少次hash碰撞,来表示其“算力”,挖矿算力即计算机计算哈希函数输出的速度;而在高通量的一些计算中,可能衡量算力的标准是每秒处理的字节数。有意思的是,尽管我们都知道“算力”是什么?但是我们没法像电力“一度电”来标准化电力一样来标准化算力,图2展示了算力可能像电力一样成为社会的一种标准资源。一力务图2电力由电厂产生,电网输送算力由计算机产生,网络连接终端设备如果算力要像电力一样成为社会共享资源,那么关键的事情就是我们需要一张类似国家电网一样的算力网络。2023年国内三大运营商相继召开了年度产业合作大会,其中一条重要信息就是
8、宣布各自的未来发展计划都提到了一个关键词“算力网络”。中国移动发布的中国移动算力网络白皮书,对算力网络的愿景描绘是“与水电一样一点接入、即取即用的社会级服务,最终达成网络无所不达、算力无所不在、智能无所不及”。如果我们把大数据中心比作发电厂的话,那么数据中心提供的“算力”就相当于发电厂的“电能”,为了输送“算力”,我们需要传输通道或线路,组成一个算力的网络相当于国家电网,这就是对“算力网络”的直观理解。图1直观地把算力和电力做了类比,我们就不难理解“算力网络”要解决的问题:1大容量数据传输能力:一般数据中心会建在资源低洼地区比如西部地区,土地和电力资源具有优势,我们需要把产生的大量数据传输到这
9、些数据中心去,这要求算力网络有大容量数据传输的能力。2 .泛在化接入能力:由于有了5G,各种电子设备、物联网(IOT)设备都能通过这个算力网络连接到远方的数据中心,完成传送数据、下载数据、进行实时计算、图像识别等工作。最终使用户可以随处连接、随时使用IT资源和数据。3 .全网统筹算力和调度能力:由于各个数据中心的资源类型、规模、距离等不尽相同。加上各地区发展不平衡,因此电力价格存在差异,也意味着使用成本不同。所以“算力网络”的一个重要挑战就是调度算法。调度系统是全网的指挥中心和大脑,既要保证网络使用和传输的效率,又要兼顾用户各种差异化的需求。比如,有些用户是成本敏感型,需要找到便宜的算力为其服
10、务;有些用户是关键业务型,对价格不敏感,而对服务质量、时间、速度有要求。这时候调度系统应该把高性能的、容量充足的资源分配给他。4 .网络低延迟能力:随着汽车自动驾驶、人工智能在现实场景中的应用,许多应用需要低延迟的实时响应,因为延迟可能带来的后果是不能接受的。5G技术和边缘计算可能是个不错的解决方案,但是具体效果仍待验证。人类在解决大带宽方面取得了长足的进步,在网络的低延迟方面因受制于传输距离和光速极限而存在天花板。有了强大的“算力网络”加持和调度能力,我们可以将社会上的超级计算机资源连接起来,提供统一的标准的算力输出服务,我们离“算力插座”不远了!图3展示了未来算力网络的泛在化,插座化的一种
11、趋势。当下,算力的应用是很复杂的:需要工程师和很复杂的技术、各类标准等等。因此,算力插座不会只是物理的硬件组合,肯定还要有一些智能软件标准等。图3“算力网络”和“算力插座”在我们描述了算力和算力网络的美好前景时,回到我们前面话题,为什么我们现在还无法像电力一样来定义算力的标准,比如“一度算”?该如何定义?看似简单的问题可就难倒我们了,我们没有看清楚电力和算力有本质的不同。下面我们就来谈谈,算力和电力的“同”与“不同先说相同点:1都是管道“资源”,无论是电力还是算力,我们都有电网和算力网络把这些资源连接起来。让人们可以远程的,而不用关心资源的所处位置使用它。2 .都有资源生产“厂”,电力的资源生
12、产厂就是发电厂,而算力的“发电厂”,就是计算机,就是存放大量计算机的计算中心或数据中心。3 .都是资源服务提供方,无论是电力运营商还是算力运营商都是资源提供和服务方。4 .都是共享社会资源,电力和算力都是社会可共享的资源。不同之处:1电网流动的是真的电力,而算力网络里流动的字节byte,不是算力。严格意义上说算力网络不是算力的“管道”资源。5 .电网电力是单向流动,而算力网络是双向流动的“byte”。6 .电网的输出是有标准的,在中国是220V,60HZo而算力很难形成标准,这是因为应用的多样性和复杂性决定的。7 .电网定位在运营和服务提供方,几乎处于垄断地位,即“发电厂们”只是资源提供者,没
13、有运营能力一切靠电网帮他卖资源。而算力网络地位很难像电网那样的强势,各大算力“发电厂们”计算中心都有自己的运营能力和团队。8 .电力网络的电力资源是“流”出来的,电力是“流”到了电器设备,被设备消耗掉的。而算力网络的算力是不“流动”的,就在计算中心的服务里,等待请求启动应用软件而开始消费“算力”,所以“算力”没有在算力网络里“流动”一丝一毫!图4显示了算力资源的使用过程,1)先把应用软件安装部署在计算中心;2)上传数据,发出运算指令;3)启动在计算中心部署好的应用软件,进行运算并消耗算力;4)运算完成后把计算结果下载于客户端,整个过程完成。图4算力资源的使用过程所以我们意识到算力和电力在实际应
14、用过程中有很大不同,作为一种新型的社会资源,我们对算力寄予了很大的希望,这是因为当今世界已经全面进入了数字时代和智能时代,这些进步对算力提出了几乎无止境的需求,那么算力会不会是下一个风口呢?1算力已然成为数字化和智能化的“能源”基础,将成为新一代的社会共享资源。算力的普适性和有价值已经没有疑问了,倘若挖矿就能让人每月挣几十万元,那么算力将会比电力还值钱。9 .算力的获取的门槛会越来越低,我们需要做的是使其标准化,批量化生产。10 随着公有云服务的深入人心,企业放弃自建算力,改用公共算力资源越来越普遍,我们更有理由相信,算力更容易让企业接受公共服务。11 应用场景不断拓展,如人工智能深度机器学习
15、,物联网将会产生海量数据,汽车自动驾驶等应用都会大幅度推高对计算机资源的极大需求。12 人们在挑战人工智能的同时,也在挑战着人工智的智慧,尽管人工智能下围棋打败了人类,但其在智慧方面只相当于5岁的孩子。如今GPT3预训练大模型到超级人工智能这是人工智能的终极梦想,实现智慧上的突破,而其最大的挑战就是算力瓶颈,它将耗费我们巨大的算力资源。算力将成为时代的必需资源没有什么悬念,早在2018年中科院计算所张云泉研究员提出了算力经济这个概念。当前发展趋势已充分表明,随着超算与云计算、大数据、A1的融合创新,算力已成为当前整个数字经济社会发展的关键。而算力经济是指以计算为核心的算力将成为衡量一个地区数字
16、经济发展程度的代表性指标和新旧动能转换的主要手段。从行业应用领域来看,2023年TOPIoO最大的变化是增加了算力服务。何谓“算力服务”?算力服务是指我们把算力这种资源以服务的方式提供给消费者的行为称之为“算力服务(CAAS,ComputingAsAService)o它是提供算力的一种商业模式,是包括算力生产者、算力调度者、算力服务商以及算力消费者在内的算力产业链上算力经济模式的统称。以算力的主力军高性能计算来说,原来为少数人服务的情况依然大不相同,尤其是在中国,HPC的算力需求持续增长,从而推动了HPC算力上云,成为一种社会共享资源,主要有以下几个原因:1.0和1的问题。以工业产品的设计制造为例,以前我们主要采用逆向设计制造。随着时代的变化,产品需要不断创新、提高质量和经济效益,因此越来越依赖正