《技术与计算负载如何驱动多芯片系统.docx》由会员分享,可在线阅读,更多相关《技术与计算负载如何驱动多芯片系统.docx(8页珍藏版)》请在第一文库网上搜索。
1、技术与计算负载如何驱动多芯片系统目录1 .前言12 .真正驱动多芯片系统发展的因素1?当下的设计重心3?针对AI负载进行芯片设计的额外的挑战4?多芯片同步技术解决措施55.1.硬同步55.2.软同步65.3.相位一致性难点解决措施6?下一轮创新的侧重点是什么?6?结语81 .刖百为了解决未来应用的算力需求,半导体产业内的IP与工艺创新仍在持续发展,如今多晶片(mu1tidie)系统已经变得愈发普遍。然而,负载需求已经开始影响到计算阵列、内存以及DDR、HBM和UQe的带宽等,因为新一代的硬件都已转为面向未来的AI负载设计。2 .真正驱动多芯片系统发展的因素SoC性能一直在迭代升级,多核设计在推
2、动性能提升上的重要性也是被广泛讨论的话题之一,因为“登纳德缩放定律(DennardSCaIing)也被视为即将迎来终结(图1)o即便忽略这一趋势,为了满足性能需求,晶圆代工厂持续推进下一代工艺节点,使其实现更高的频率和更高的逻辑密度从而集成更多的处理单元,同时减少功耗面积。这一持续创新的趋势可见图2o除了工艺节点的创新外,多核架构和处理器阵列也在积极克服性能迭代提升的问题。然而,无论是多核架构的创新,还是工艺节点的迭代升级,两者都需要一个新的多芯片系统架构。解决内存墙的问题无疑是多芯片系统的主要驱动需求之一(见图3)。下图向我们展示了内存密度正以每两年翻倍的速度增长,而工作负载所需的内存密度正
3、以每两年翻240倍的速度增长。如需了解更多详情,可以浏览发表在MediUm上的AI与内存墙一文。Origina1dataco11ectedandp1ottedbyM.Horowitz,F1abonte,0.Shacham1K.O1ukotun,1.HammondandC.Batten图ISOC性能的迭代升级Potentia1roadmapextension16-612612Deviceandmateria1innovations=I1Continueddimensiona1sca1ingRnFETFinFETFinFETGAAcr%hw1图2最新的IMEC工艺节点路线预测图A1andMemor
4、yWa110000as一运Goos85TransformerSize:240x/2yrsA1HWMmory:2x/2yrs图3训练先进模型所需的算力(单位PetaF1oPs),用来训练SOTA模型,包括不同的CV、N1P和语音模型,以及不同TranSformer模型的规模扩展速度(两年翻750倍);同时包括所有模型的平均规模扩展速度(2年翻15倍)。为了满足内存带宽方面的性能需求,我们已经看到当前片外内存市场被高带宽内存(HBM)等新技术所颠覆。业界已经看到HBM3成为HPC市场的主流。这一革新仍将继续,因为HBM有一个很好的未来性能提升路线图。遗憾的是,以上所表述的内存墙仅限于片外内存,而片
5、上内存系统在如今大多数SoC设计中都起到了至关重要的作用,所以不久的将来,这一行业的革新同样不可避免。?.当下的设计重心AI与安全相关的负载计算量正在急剧地提升,这也推动了不少频率提升之外的片上性能创新。其中绝大多数创新都集中在负载所需的处理器上。例如人工智能算法推动了大规模乘法累加并行运算以及创造性嵌套循环的设计,在减少了运算周期的同时提高了单个周期完成的工作量。不过,这些负载也需要更大的内存密度来存储权重、系数和训练数据。这就推动了更大容量和更高带宽的片上与片外内存的出现。在片外内存方面,业界已经迅速普及了新一代的HBM、DDR和1PDDR内存。然而,芯片供应商最大的差异化方案还是体现在片
6、上内存配置上。例如,在A1加速器领域,每个供应商都在力求在全局SRAM和缓存上集成更高带宽和更高密度的内存。利用特殊方法优化每个处理单元的内存配置,也是这一创新难题中最关键的一环。从SoC性能提升退一步看,业界面临的另一大问题就是云端A1系统的功耗。图4展示了谷歌数据中心的耗电量。显而易见,设计出具备更高能效CPU的SoC是至关重要的,多家SOC初创公司都公开宣传其A1处理器其的高效性,并声称可以解决这一问题。但是,整体的系统性能还应该将片外内存计算在内,比如DRAM的功耗往往占总功耗的18%。由于HBM的pj/bit冠绝群雄,所以在设计中采用更低功耗的HBM越来越普遍。回到性能的话题上来,在
7、讨论更为广泛的SOC系统时,A1加速器的片上竞争点很明显,往往都是如何在每一代产品中集成比竞品更多的SRAM和缓存。例如,英伟达等市场主导者会积极采用最新的工艺技术,每一代产品都集成了更大的二级缓存和更高的全局SRAM密度,以获得AI负载下更高的性能。A1andMemoryWa11IOOOO-TransformerSize:240x/2yrsA1HWMemory:2/2yrsV1OOPXoO(12G0)TFUv2(1CB)IOTBBaiduRecSys2TBBaiduRecSysGShardGFT-3MicrosoftT-N1GMgatron1MTPUv132GsA1BERTE1ECTRABC
8、RTInceptionV4ResNext1O1TransformerGPT-IResNetSODMNt图4谷歌数据中心耗电量?.针对A1负载进行芯片设计的额外的挑战当针对A1负载进行芯片设计时,还有几个因素是需要纳入考量的。其中一个老生常谈的问题是内存带宽。许多AISoC芯片供应商将内存带宽作为关键的性能指标。然而,内存带宽还需要结合更多因素来看。比如,从全局内存访问数据所需的周期数可能是二级缓存的1.9倍,而二级缓存所需的周期数几乎是一级缓存的6倍,以下数据来源于英伟达AmpereGPU的测试数据:全局内存访问(最高80GB):380周期12缓存:200周期?11缓存或共享内存访问(每个流处
9、理器最高128kb):34周期?乘加运算,a*b+c(FFMA):4周期?向量核心矩阵乘法运算:1周期因此,要想提高这些负载的性能,在前几代系统中进一步提高11和12缓存就非常重要了。对于具有大规模处理并行性的A1计算负载而言,提高接近处理单元的缓存密度是最高效的设计改进之一。片上系统内存优化的另一种方法则涉及A1算法相关的特定知识。例如,根据这些A1算法的最大中间激活值来设计本地内存。这就消除了片上传输数据的瓶颈。这种方法更适合用于边缘侧,因为软硬件协同设计将决定效率的高低。可惜的是,这就需要对终端应用有着足够深入的了解。同样,这类系统的建模可在提高硬件性能上发挥关键作用,而新思恰好在为开发
10、者提供解决方案上具备得天独厚的优势。?.多芯片同步技术解决措施AD/DA在多芯片的应用中,主要存在两种形式的同步偏差:系统固定偏差和器件分频偏差。系统固定偏差主要由AD/DA多板间的系统时钟片间分配偏差、AD/DA模拟通道的偏差、单板上的PCB时钟走线偏差、器件工艺偏差等导致,这些偏差可以通过固定延迟补偿来修正。器件分频偏差主要由AD/DA上电时内部分频器的状态不确定造成。芯片数字部分的工作时钟为系统时钟的1/N,理论上就会出现N种相位偏差。AD/DA片间、板间通道需要借助硬同步和软同步两种方式来进行修正。5. 1.硬同步芯片系统时钟采样同步信号SYSREF,产生片内全局复位信号使各分频时钟回
11、到初始状态,数字功能模块也回到清零状态:如FIF0、NC0、数字滤波器等。时钟送入AD器件后首先经过预分频模块选择1/2/4/8分频得到采样时钟,可选择时钟相位调整模块进行单周期、半周期或精细延迟,然后产生片内模拟部分、数字部分所需的各种分频时钟。当开启同步功能并采到同步信号后,对各分频时钟进行相位初始化并产生各种时钟域的复位信号对各功能模块进行同步分频,保证芯片内部在同步信号的触发后工作在确定状态。由于对同步信号进行采样存在亚稳态风险,因此硬同步后片间可能会存在一个采样周期的偏差,需要再采用软同步进行保证。5.2. 软同步软同步使用TDC功能测量出外部SYSREF和硬同步后片内产生的SYNC
12、-DATA同频信号之间的距离,多芯片同步时以该值作为修正参考。采用硬同步和软同步后芯片内的状态进行了描述,具体流程为:配置芯片内部SYNC_DATA频率与SYSREF相同;一次或多次SYSREF触发后,关闭SYSREF硬触发,片内产生全局复位信号,各种时钟域复位,硬同步完成,芯片进入监控模式只接收SYSREF但不再硬同步;各芯片均匀在全局复位信号后固定延时产生SYNjDATA;TDC测量出外部SYSREF与内部SYNC.DATA的距离;读取各芯片TDC的数据,通过比较芯片间的差值或统一的阈值相比较后进行延迟调整(时钟延迟、数据延迟)实现同步。5.3.相位一致性难点解决措施在解决多芯片同步关键技
13、术前提下,硬件设计保证接收通道模拟信号输入走线等长和尽量短,参考时钟和同步信号进行每个芯片的走线等长,发射通道保证模拟输出信号走线等长,参考时钟和同步信号进每个芯片的走线等长。同时,确保A/B相应模拟信号,参考时钟和同步信号等长以保证A板和B板间的相位一致性。同步技术和硬件设计保证可以解决板间一致性的难点。?.下一轮创新的侧重点是什么?我们已经讨论了采用DDR/1DDRP和HBM等片外内存接口来提高内存带宽,但这些技术还无法跟上芯片内集成的A1处理器算力。片外内存的发展差距正在明显地扩大。Meta在近年的一次OCP峰会上指出了这一趋势(图5)。图5不断增加的片外内存性能差距如图6所不,接口IP
14、标准最近在下一代标准的进步方面有所上升,以跟上这种性能差距。例如,下一代标准接口通常每四年发布一次,最近又加快到每两年发布一次。AI和安全工作负载的出现有助于更快地采用下一代技术。600500InP一MPUem400300PCIe6.0200PC1e5.0100PCk4.(OPCI7.0InP-MPUeS6:Ie1Q与20.PC1C3.0USB42InP-MPUeB8070GO5040302010B0iB4SB3.0-USB31三P一MPUeS图6下一代标准的发布速度逐渐加快,用于补全性能差距。处理单元与内存的差距不仅体现在片外内存的进步上,也体现在了片上内存的革新上。仔细观察工艺节点的演进,
15、我们可以发现三类持续创新(表1)。先进晶圆代工厂(如台积电)每一代处理器的最高频率都在提升,且他们开发的16nm、7nm、3nm等工艺节点也在逐渐提高性能每个工艺节点的功耗都会降低25%以上更高的逻辑密度意味着每mf上可集成更多的处理器,如下表所示,其密度增加了40%以上。表1工艺节点演进带来的革新台枳电7nm与16nm台积电5nm与7nm台枳电3nm与5nm:星的GAA3nm与台积电3nm鳍式场效应晶体管(来源台枳电)(来源台积电)(来源台积电)(来源三星)性能提升30-40%20%15%30%功耗降低60-65%40%30%50%逻辑缩减70%45%70%45%SRAM降低64%22%0%?然而,正在放缓的创新是代工厂提供的片上SRAM/缓存等的密度改进。规模的削减可能已经放缓。这种减慢甚至表明,从5nm节点迁移到3nm节点可能会看到SR