《2023存储专题报告:AI发展驱动HBM高带宽存储器放量.docx》由会员分享,可在线阅读,更多相关《2023存储专题报告:AI发展驱动HBM高带宽存储器放量.docx(16页珍藏版)》请在第一文库网上搜索。
1、存储专题超配A1发展驱动HBM高带宽存储器放量内容目录HBM:高带宽DRAM,GPU理想存储解决方案4A1大模型催动DRAM需求43DDRAM解决“内存墙”问题6关键技术助力HBM发展8相关企业14风险提示16图表目录图1:HBM主要以TSV技术垂直堆叠芯片,达到缩减体积、降低能耗的目的4图2:A1模型计算量增长迅猛4图3:HBM提供更快的数据处理速度4图4:大模型语言计算对应内存需求5图5:静态内存参数、优化器状态较为固定5图6:动态内存通常是静态内存的数倍5图7:A1服务器提升存储器需求6图8:模型越大需要设备内存越大6图9:存储带宽落后于算力成长速度形成“内存墙”6图10:3DDRAM几
2、种实现方式7图11:HBM每个DRAM单元间引线最短7图12:HBM3带宽进一步提升7图13:ChiPIet搭载HBM作为存储单元解决方案8图14:硅通孔技术流程9图15:TSV当前深宽比约在10:19图16:TSV目前开孔约在IOUm9图17:英伟达AIOoGPUCOWOS封装10图18:基于TSV技术实现堆叠HBM10图19:IMECTSV工艺示意图10图20:A1D形成扩散阻挡层10图21:先进DRAM需要更高介电常数材料11图22:A1D形成High-KMeta1Gate11图23:2.5D+3D先进封装集成11图24:AMDRadeonVegaGPU&HBM2横截面12图25:台积电
3、“3DFabricn平台使用8个HBM2e堆栈12图26:NVIDIAGH200GraceHoPPer芯片中使用96GBHBM3堆栈12图27:AMD/UMC2.5D+3D集成示意图13图28:NVIDIA/TSMC2.5D+3D集成示意图13图29:2019-2025全球封装基板行业产值及增速13图30:全球IC载板市场格局13HBM:高带宽DRAM,GPU理想存储解决方案HBM(高带宽存储器,HighBandwidthMemory)是一款新型的CPU/GPU内存芯片,是由AMD和SKHyniX发起的基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求的应用场合。HBM以位元计算,通过增
4、加带宽,扩展内存容量,让更大的模型、更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟,目的实现大容量,高位宽的DDR组合阵列,目前HBM占整个DRAM市场比重约153,为新型高性能存储产品。图1:HBM主要以TSV技术垂直堆叠芯片,达到缩减体积降低能耗的目的BASEDie资料来源:MiCrOn,国信证券经济研究所整理A1大模型催动DRAM需求A1大模型处理数据的吞吐量呈指数级增长,对内存的提出更高的带宽需求,HBM迎来发展机遇。A1大模型的数据计算量激增,需要应用并行处理数据的GPU作为核心处理器,GPU搭载的内存芯片带宽关联GPU数据处理能力,高带宽的内存芯片可以为G
5、PU提供更快的并行数据处理速度,对GPU的性能起到了决定性作用。图3:HBM提供更快的数据处理速度图2:A1模型计算量增长迅猛OOOOOOifw*工-h*0.00000001w_jr-0000000000111,*r,Chip1etsIntegrationReducesSystemCostZfunctionH8M2HBM2EHBM3资料来源:TSMC,国信证券经济研究所整理JUi2.IMO(c27.W8Sap4.丽MayM20资料来源:OUrWor1dinData,国信证券经济研究所整理动态内存能力对大模型训练至关重要。内存方面,大模型训练的内存可以大致理解为参数、优化器状态、激活、梯度四部分
6、的和。它们大致分为两类:静态内存和动态内存。参数、优化器状态较为固定,属于静态内存,激活和梯度等中间变量属于动态内存,是最主要的内存占用原因,动态内存通常是静态内存的数倍。图4:大模型语言计算对应内存需求资料来源:EIeUtheraI,国信证券经济研究所整理训练1750亿参数的GPT3所需内存,大约需要3.2TB以上。静态内存方面,大多数Transformer都是以混合精度训练的,如FP16+FP32,以减少训练模型内存,则一个参数占2个字节,参数和优化器状态合计占用内存1635Go而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静态内存的数倍。更简洁的估算方法,可以假设典型的1
7、1M训练中,优化器状态、梯度和参数所需的内存为20N字节,其中N是模型参数数量,则1750亿参数的GPT3大概需要3.2TB内存。推理所需内存则较小,假设以FP16存储,175B参数的GPT3推理大约需要内存327G,则对应4张80GA100,如果以FP32运算,则需要10张。图7:A1服务器提升存储器需求资料来源:闪存市场,国信证券经济研究所整理图8:模型越大需要设备内存越大资料来源:NVIDIA,国信证券经济研究所整理3DDRAM解决“内存墙”问题“内存墙”是处理器算力超过存储芯片存取能力,内存墙的存在导致综合算力被存储器制约。据行业预计,处理器的峰值算力每两年增长3.1倍,而动态存储器(
8、DRAM)的带宽每两年增长1.4倍,存储器的发展速度远落后于处理器,相差1.7倍。由于处理器处理数据过程同样需要动态存储器的支持,“内存墙”的存在制约了处理器的算力提升速度。图9:存储带宽落后于算力成长速度形成“内存墙”资料来源:曹立强、侯峰泽,先进封装技术的发展与机遇,前瞻科技杂志,2023年第3期集成电路科学与工程专刊”,前瞻科技杂志,国信证券经济研究所整理将DRAM3D化是解决内存墙的主要方法。将DRAM从传统2D转变为立体3D,借助TSV等技术实现内存芯片在3D维度进行堆叠,充分利用空间提升内存芯片密度,缩小芯片表面积,契合半导体行业小型化、集成化的发展趋势。3DDRAM的发展也有堆叠
9、引线键合、倒装混合引线键合等多种实现方式,HBM是3DDRAM的一种形式,相较于其他DRAM的集成方式,HBM存储单元外的导线长度最短,数据传递速度最快,损耗最小,是目前最理想化的3DDRAM形式。HBM突破了内存容量与带宽瓶颈,打破了“内存墙”对算力提升的桎梏,被视为新一代DRAM解决方案,是未来DRAM重要发展路径。图10:3DDRAM几种实现方式图11:HBM每个DRAM单元间引线最短Mcmory3MemOCy2Memory1Wkeborx1Substrate资料来源:1au.J,ChipDesignandHeterogeneousIntegrationPaCkaging,2023版,1
10、40745页,国信证券经济研究所整理资料来源:1au.J,(ChipDesignandHeterogeneousIntegrationPackaging,2023版,140-145页,国信证券经济研究所整理据集邦咨询数据,存储巨头SK海力士是目前HBM最大的供应商,占据5M的市场份额。SK海力士在2013年推出了首款HBM存储器,共包含4个DRAM单元,后续海力士陆续推出了HBM2、HBM2e和HBM3,带宽和I/O速度进一步提升。除海力士外,三星、美光占据了HBM其余市场。由于HBM主要和GPU搭载使用,封装主要以TSV3D封装进行,所以通常在晶圆厂内完成,当前台积电、格芯等也在发力HBM技
11、术的研究与制造。当前SK海力士已经实现了HBM3的量产,搭载在NVIDIAGPUH1OO之中,其带宽在HBM2460GB/s的基础上提升了E达到了819GBs,随着GPU算力的不断提升,HBM在速度、密度、功耗、占板空间方面也将持续提升。图12:HBM3带宽进一步提升(2016)HBM2Bandwidth256gBsI/OSpeed2.Gbps(2O18)HBM2EBandwdth46GBsI/OSpeed3.6GbPS(2023)HBM3Bandwidth665gBsI/OSpeed52GbPSNextHBM3Bandwidth1075gBsI/OSpeed8.4GbPS资料来源:SK海力士
12、,国信证券经济研究所整理当前高端GPU已搭载高端HBM作为先进封装存储单元的解决方案NVIDIA高端GPUH1O0、A100主采HBM2e、HBM3,H100GPU上主要搭载HBM3内存。此外,AMD的M1200、M1300以及GoogIe自研TPU等均将搭载高带宽的HBM提升内存能力,TrendForce集邦咨询预估2023年HBM需求量将年增2024年有望再增长B0图13:Chip1et搭载HBM作为存储单元解决方案资料来源:电子发烧友网,国信证券经济研究所整理关键技术助力HBM发展HBM关罐技术#1:硅通孔技术(TSV)硅通孔技术(sv,ThroughSi1iconVia)为连接硅晶圆两
13、面并与硅衬底和其他通孔绝缘的电互连结构,可以穿过硅基板实现硅片内部垂直电互联,这项技术是目前唯一的垂直电互联技术,是实现2.5D、3D先进封装的关键技术之一,主要用于硅转接板、芯片三维堆叠等方面。TSV的尺寸多为IOHmXIOOm和30mX200m,开口率介于0.1+1区相比平面互连,TSV可减小互连长度和信号延迟,降低寄Th电容和电感,实现芯片间的低功耗和高速通信,增加宽带和封装小型化。在有源芯片中,当前TSV开孔一般在IOUm左右,深宽比约为10:1,微凸点互联间距在40-50um,由于TSV本身占据面积较大,且会形成一定应力影响区,发展方向向5um以下、深宽比10以上发展,实现更小的体积
14、和更低的成本。图14:硅通孔技术流程资料来源:新时代先进封装,于大全,2023版,8-10页,国信证券经济研究所整理图16:TSV目前开孔约在10um图15:TSV当前深宽比约在10:1资料来源:新时代先进封装,于大全,2023版,8-10页,国信证券经济研究所整理HBH是借助TSV技术实现多个DRAM之间的连通堆立。借助TSV技术,多个HBM单元可以以3D形式集成在同一个转接板上。英伟达采用台积电第4代CoWoS技术封装了A100GPU,实现一颗A100GPU和6个三星HBM2集成为一颗芯片。该技术将多颗芯片键合至硅基转接板晶圆上(SiInterposer),形成逻辑SoC芯片和HBM阵列,
15、通过RD1和TSV形成互联并连接硅基转接板晶圆凸点。英特尔Foveros技术(3DFacetoFaceChipStackforheterogeneousintegration)亦通过3DTSV实现3D堆叠异构封装技术。图17:英伟达A100GPUCoWoS封装资料来源:普立强、侯峰泽,先进封装技术的发展与机遇,前瞧科技杂志,2023年第3期”集成电路科学与工程专刊“,前瞧科技杂志,国信证券经济研究所整理图18:基于TSV技术实现堆叠HBM资料来源:AMD,国信证券经济研究所整理图19:IMECTSV工艺示意图资料来源:EIeCtrOChimiCaActa,国信证券经济研究所整理关键技术#2:A1D沉积原子层沉积(A1D)是将原子逐层沉积在衬底材料上的工艺,通过将两种或多种前驱体交替通过衬底表面,发Th化学吸附反应逐层沉积在衬底表面,能对复杂形貌基底表面全覆盖成膜。由于A1D设备可以实现高深宽比、极