《【市场报告】中移智库+在网计算(NACA)技术白皮书(2023年)_市场营销策划_重点报告20230.docx》由会员分享,可在线阅读,更多相关《【市场报告】中移智库+在网计算(NACA)技术白皮书(2023年)_市场营销策划_重点报告20230.docx(30页珍藏版)》请在第一文库网上搜索。
1、中稿智库在网计算(NACA)技术白皮书(2023年)中移智库国移动研究院2023年8月编制人员发布单位:中移智库编制单位:中国移动研究院、华为技术有限公司、清华大学、北京大学、北京邮电大学、香港科技大学(广州)、中国科学技术大学、新华三技术有限公司、博通公司、英特尔(中国)有限公司、中兴通讯股份有限公司、苏州盛科通信股份有限公司编制人员:陆璐、孙滔、李志强、刘鹏、姚柯翰、徐世萍、牟彦、刘畅、王巧灵、厉益舟、张翠敏、吴文斐、刘斌、潘恬、徐文侄、DirkKutscher徐宏力、王伟锋、陈艳庆、张玺、李和松、王力前言人工智能和大数据等新兴科技产业正深刻影响我国经济社会发展,推动各行各业数字化转型升级
2、。大数据处理、高性能计算以及人工智能大模型背后需要庞大的算力资源,对算力的高效稳定供给提出挑战。为推动国家新基建战略的落实和“东数西算工程走向纵深,中国移动充分发挥中央企业“网络强国、数字中国、智慧社会,主力军作用,系统打造以5G、算力网络、智慧中台为重点的新型信息基础设施,创新构建“连接+算力+能力”新型信息服务体系。2023年,中国移动发布算力网络白皮书,制定了算力网络总体发展策略,明确了核心理念、场景展望、发展路径以及技术体系,提出了“泛在协同”、“融合统一”和“一体共生”的三个发展阶段,随后发布算力网络技术白皮书及算网一体网络架构及技术体系展望白皮书,持续打造算力网络技术体系,推动算力
3、网络原创技术攻关,助力我国数字经济的健康发展。在网计算是算网一体原创技术体系中的核心技术之一。面向大规模高算力需求的分布式应用,在网计算使用网络设备进行近数据计算,可以在高速转发过程完成应用数据处理,同时缩短数据传输路径,是解决分布式应用通信瓶颈问题的重要技术。在网计算是计算、网络双学科交叉融合的创新方向,赋能通用计算、智能计算以及超算等多样化业务场景,最大化提升业务计算服务能力,为用户提供高效、安全、可靠的算力增强服务,助推算力网络走向纵深,以及数字中国、东数西算等国家战略的实施。本白皮书详细描述了在网计算产生的背景及需求以及典型应用场景,通过总结现有技术存在的问题,提出在网计算新架构,分析
4、关键技术和挑战,并对在网计算未来发展提出倡议。本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本白皮书之部分或全部内容。目录编制人员前言1背景和需求22应用场景42.1 在网计算赋能先进计算中心42.2 在网计算加速边缘万物智联63在网计算(NACA)技术架构93.1概念与架构93.2 NACA核心特征113.3 功能视图154关键技术及挑战184.1 计算语义映射184.2 计算正确性保障194.3 计算程序网内编排194.4 网内资源池化205推进展望23参考文献24缩略语列表251背景和需求高性能计算(HPC)和人工智能(A1)等技术的发展正不断推动生物医药、航空航天
5、、地质勘探等领域取得重大突破,随之也带来了不断激增的计算量,必须通过大规模集群算力才能充分发挥优势。例如,ChatGPT模型参数总量已经达到千亿级别,高性能计算也己经迈向百亿亿级计算时代。同时,5G、工业互联网等新技术的应用正推动现代网络向万物智联不断演进,推动生产力迈向新台阶。大规模传感器、智能终端产生的海量数据需要高效、实时、便捷、稳定地进行处理,也需要大量泛在算力的支持。在这样的需求下,分布式应用的系统性能提升却面临以下两点挑战:算力能力方面,随着摩尔定律逐渐失效,单一节点算力增长速度逐渐放缓,己无法满足不同应用场景的性能诉求。多元化的算力承载和以业务为中心的融合方案是演进的必然趋势。必
6、须以融合的视角重新审视计算体系结构和网络体系架构,对CPUGPUASICFPGANPU等各种计算资源进行整合。分布式系统内部通信方面,随着系统规模的不断扩大,计算节点数量己经达到数万甚至数十万,计算节点间的通信量不断增加,且通信模式更加复杂,为分布式系统设计带来巨大挑战。高性能分布式数据处理对实时性、可靠性、安全性、一致性等提出更高要求,通信已经成为成为瓶颈问题,主要来源于以下三点。一是网络负载均衡策略无法适应智能计算、HPC等场景下差异化流量模式;二是大规模分布式系统接收端而临的incast多打一问题,造成任务完成时间过长;三是分布式应用中普遍存在的一对多、多对一、多对多的逻辑通信模式与物理
7、网络中点到点的通信实现不匹配,网络中存在大量冗余信息,影响系统性能。在网计算使用网络设备进行近数据计算,可以在线速处理的同时完成流量压缩,同时缩短数据传输路径,很大程度上解决了上述痛点问题。目前,在网计算技术在智能计算及超算领域已有部分研究成果和产业应用。例如基于在网计算实现分布式机器学习模型训练加速以及基于Infiniband技术提出的SharP技术可以加速HPC等大规模计算密集型任务。但是在网计算当前仍面临应用场景竖井式、协议实现封闭化、编程范式不友好等挑战。基于以上考量,本白皮书提出了在网计算新架构NACA(NetworkAssistedComputingAcce1eration),系统
8、化推进在网计算设计和实现。在网计算NACA是一种与应用深度融合,实现网络辅助计算加速的新模式,通过重塑应用处理和开发模式,实现系统加速,提升算网资源利用率。白皮书第二章全面分析了在网计算的应用场景,第三章给出在网计算NACA的概念、技术架构以及核心特征,第四章分析了NACA关键技术和挑战,最后提出倡议,希望联合产学研持续攻关,推进在网计算技术应用和发展。2应用场景2.1在网计算赋能先进计算中心高性能计算高性能计算通过发挥规模集群算力,实现复杂任务处理,广泛应用于气象、地震、生物、材料等多个领域。高性能计算网络提供了高带宽、低延迟的互联解决方案,支持各种计算密集型和数据密集型应用的运行。自201
9、3年起,高性能计算TOP500性能上升速率明显变缓,依靠硬件堆叠单个超算中心计算能力面临技术瓶颈限制,难以满足超大复杂任务的计算需求。传统聚合通信过程中的计算在服务器侧完成,网络只负责转发。当采用参数服务器的方式实现数据并行时,多个工作节点在自己的数据集上进行参数训练,然后将训练结果发送到参数服务器完成参数聚合,再将结果广播给各个工作节点。在这种通信模式下,参数服务器的输入链路往往成为整个系统的性能瓶颈。随着服务器规模和计算量的不断提升,服务器数据交互的次数会显著增加,转发时延不断增大,其对网络性能的压力也越来越大。在网计算功能采用交换设备卸载参数聚合过程,可以有效地提高聚合通信的效率,降低总
10、的任务完成时间。以典型的MP1聚合算子AnRedUCe为例,其通信交互复杂度为O(IogN)(N表示服务器节点规模)。如图1(a)所示,传统聚合通信方式,8个节点(N=8)进行AI1RedUCe计算总共需要3个批次的通信,复杂度为0。OgN);图1(b)为采用了在网计算加速的聚合通信方式,8个节点进行AHRedIICe计算,由接入Ieaf进行第一次汇聚,由SPine交换机进行第二次汇聚,总的通信批次只与网络的层次数量有关,交互复杂度变为常量O(C),C表示网络的层级数,与服务器节点规模无关,极大地减少了服务器集群间的通信交互过程,降低了HPC小字节报文场景下的网络时延,提升了计算效率。图1(a
11、)端侧实现AHRedUCe1(b)在网计算实现AnRedi1Ce聚合通信在分布式机器学习系统中也广泛使用,随着大模型训练的发展,在网聚合操作成为在网计算的典型基础功能,能够有效提升分布式机器学习系统的应用处理效率。高性能存储分布式系统的一致性是分布式处理领域最为基础也最为重要的问题。在分布式高性能存储系统中,对于一组服务器,给定一组操作,需要使得最后服务器的执行结果达成一致。具体来说,当其中某个服务器收到客户端的一组指令时,它需要与其它服务器交流,以保证所有的服务器都是以同样的顺序收到同样的指令,从而保证所有的服务器产生一致的结果。现有的分布式数据库、分布式存储系统中,存在大量的并发读、写操作
12、。这些操作对同一对象的并发读取或修改可能造成数据的不一致。为了保证数据的一致性,分布式锁得以广泛应用。当一个进程需要对某个对象进行读、写操作前需要首先获取对应的读、写锁,基于锁的统一管理,进程中的内容可以有序访问,文件内容的修改也可以保证全局唯一性。在网计算可以将保障分布式系统一致性的功能卸载到交换机。其一是交换机位于网络中,请求无需转发到对应的服务器,从而减少传输路径时延;其二交换机具有强大的数据包处理能力,数据包可以线速通过交换机,因而可以降低处理时延。在分布式数据库、分布式存储等场景应用在网计算,可以加速分布式系统的共识,仅需SUb-RTT的响应时间,并有效提高端侧的吞吐量。大数据流式处
13、理在各个业务领域,对于海量数据的收集和分析可以为业务提供决策依据。传统的大数据分析系统还是采用传算分离的体系结构,即端侧服务器进行数据的计算,Shuff1eManager和网络在服务器间进行数据通信。(ShUfne是SParkWI作业中对数据进行重新分区的过程,Shuff1eManager是Spark中负责管理Shuff1e过程的组件。)在网计算可以把部分算子和网络传输联合设计,提升系统效率。大数据典型编程范式M叩RedUCe1中,一个RedUCer会从多个MaPPer中拉取数据,进行规约操作。例如,词频统计应用WordCOUnt需要对分散在多机的单词计数进行汇总;SQ1应用中,先分类(gro
14、upby)再汇总(SUm、CoUnt)也是常见的计算模式。在在网计算体系结构中,规约操作可以在数据流经交换机时随路完成,不占用额外的计算时间和服务器资源。另外,过滤(fi1ter)和过滤重复项(distinct)算子也可以卸载到交换机进行。比较两种体系结构,大数据算子在端侧执行时,会涉及到多次内存、磁盘数据读写(例如,外排序),而在网计算可以对数据进行流式处理,减少此类开销,提升系统效率。2. 2在网计算加速边缘万物智联车联网车联网需要人、车、路、网、云高度协同,在网计算技术可以与车载计算平台、路侧计算设备以及边缘计算云进行深度融合,构成多级混合分布式计算系统,以协助压缩数据流量,缩短通信时延
15、,提高处理的实时性。路侧设备的部分数据需要上传云端做处理,由于路侧设备、车辆、行人数量庞大,因此产生的数据也是海量的。利用在网计算做数据处理和聚合,可以减少传输负载,简化云端处理流程,降低时延。同时,对于车联网中需要实时数据识别、推理的业务,利用在网计算技术在路侧边缘设备做数据识别和推理,可以大大减少需要回传云端数据量。图2在网计算车联网用例文献给出了进一步的方案,基于网络推理解决方案,在转发良性流量时,提取流量特征,发现可疑流量时将立即丢弃并记录到控制平面。基于这些流量特征数据,控制平面重新训练当前模型,以从新的流量模式中学习并生成一组新规则来映射新模型的参数,然后将更新的规则插入数据平面并
16、删除过时的规则。通过这个更新的设置,能够从新到达的流量中学习并持续消除异常流量。(2) XR扩展现实(EXtendedRea1ity,XR)是VR、AR和MR等多种技术的统称,是当前产业应用关注的热点。随着XR技术不断演化升级,数据流更多源异构、图像分辨率更高、应用场景更多样、用户规模更庞大,对于网络下行带宽、容量、确定性时延和可靠性均提出全新要求。在网计算技术通过网络感知业务的方式,提升网、业、端协同以及构建分布式高性能计算能力,为XR终端设备提供高性能计算支撑。XR业务使用基于图像组编码时,网络设备的计算增强可根据数据包模式识别XR业务模型以提供增值服务,可根据数据包载荷获取业务信息以实现业务探测功能,可根据关联数据流方