《不同技术架构AI芯片比较.docx》由会员分享,可在线阅读,更多相关《不同技术架构AI芯片比较.docx(19页珍藏版)》请在第一文库网上搜索。
1、不同技术架构A1芯片比较英伟达业务模式拟打造成类似于计算堆栈或i丝网络,包含硬件、系统软件、平台软件和应用四层,公司结合芯片、系统和软件的全栈创新能力构建加速计算平台,并且完善针对A1加速计算及数据中心的烈、CPU.DPiJ三种芯片产品结构。A1布局方面,早在生成式A1变革初期就已参与并与OPenAI、微软合作。2023年3月,英伟达在GTC大会上推出4个针对各种生成式AI应用程序进行优化的推理平台,其中发布带有双GPUNV1irIk的H1OONV1加速计算卡,以支持ChatGPT类大型语言模型推理。与适用于GPT-3处理的HGXA1oO相比,配备四对H1OO与双GPUNV1ink的标准服务器
2、的速度最高可达10倍。2023年12月,OPenA1发布基于GPT-3.5的聊天机卷入模型ChatGPT,参数量达到1750亿个。ChatGPT引领全球人工智能浪潮,人工智能发展需要A1芯片作为算力支撑。据Tractica数据,全球AI芯片市场规模预计由2018年的51亿美元增长至2025年的726亿美元,对应CAGR达46.14%;据前瞻产业研究院数据,中国A1芯片市场规模预计由2019年的122亿元增长至2024年的785亿元,对应CAGR达45.11机A1芯片中由于GPU通用型强,满足深度学习大量计算的需求,因此GPU在训练负载中具有绝对优势。以GPT-3为例,在32位的单精度浮点数数据
3、下,训练阶段所需GPU数量为1558个,谷歌级应用推理阶段所需GPU数量为706315个。图:2023202侔全1全球数据量及数据中心负载量大幅上涨,A1模型参数呈全球数据总及数据中心负或任务大上承,数据中心算力需求快速增长.随着人工看能等新技术发展.海量数据的产生及其计算处理成为数据中心发展关键,据IDCIS(据,全球数掂总预计由2023年的8247ZB上升至2026年的215.99ZB,对应CAGR达21.24*其中,大规模张运算、矩阵运算是人工智能在计算层面的突出需求.高并行度的深度学习算法在视觉、语W和自然语言处理等领域上的广泛应用使傅算力需求呈现指数级增长.,据5CoeI据.全球数据
4、中心负翻任务预计由2016年的241.5万个上升至2023年的5667万个,对应CAGR达18.60%;其中,云依搪中心负载任务RCAGR预计达2”.图:匍单任务中不同参败模型上下文学习性能图:模型套数规模大幅上濯带来算力需求提升MM.英传达宣网.*信证”灶济研究所蹩靖OnrthKrtZKMtFrwshcM贵忸如(1anguageMode1sareFwrShot1eamera).国信“彝峻济修先神经网络AIexNet使用GPU训练开启A1时代,A1芯片是舅互联网时代对于依循的积累,大依据背景下獐皎网络成为机学习的聂方法.2012年,深度卷积神经网络AIeXNZ梵借在图像分类识别弟域中性能的大提
5、升及错误率的大幅降低,成为人工看能的标志处事件.在此过程中,MmA1exKr“hovsky创新性地使用英伟达GPU成功训燎了传能有突破彼提开的深度祥绘网络AIexHet,从而开启了新的人工智能时代“英伟达GpU修融深度学习模型调悠和推理所需要的大算力成为了人工智能时代的新磁设.*本aacCSKaK7vT;toy*tor*负蚓来量:A1Hi1.国儡W狗醒济场究所整理ChMGPT引找全球人工能浪潮,人工催发Ji1WA1芯片作为毒力支撑.从2018年起,OponAI开始发布生成式K训嫉语言模型GPT以来.GPT更新换代持续提升模型及参数规模.当时GPT-1*数只有117亿个.2P2O#.OPenA1
6、发布GPIT独训练供里,败为175啦个,使用IOOo亿个询汇的语料库进行训媒.在文本分析.机SSiU译、机器写作等自然语言处理应用领域表现出色.也2至IZ月,QHM!发泡基顼二3W的H天机1A携顺立电1具有出色的文字天和复杂语言处理能力.ChtGPT的发布引爆A1兼域,海内外科技公SJ给研宣布发布大语音根整,而用户爆发式增长对大语言模型的J1力需求同楼带来挑战Ai芯片成为算力提开关It.谓务必的正文之后的免费声明及其项下所有内容时间,t陨训练数提词然方式序列长度ofDecoder1ayersSizeofHidden1ayersAMM.祖云开发看.IDpenA1ChMGPT3oogteBafd导
7、Mt而茁M子日度文心一育春西大*d菽G耳巴巴牙义千百一MOM0H;MaH金万.火工aS14WW;MM1雨而午日一*为窗古N1P帽量4球手爆日东源;国信图:2018-202碑全球A1芯片市场1傅网家毒,Traeca.国值HiMt济研究所整理图:1H21中国A1芯片市场份*烫料束J1IDC,国B迂为分。所或理GPU耳触全球及中国A1芯片市场规模不断扩展,GPU占比具平AI芯片又称A1加速B或计算卡,是*门用于处理人工能应用中大计算任务的模块.随着数据海增长、算法模型趋向复杂、处理对象异构、计算性能要求高,A1芯片能等在人工智能的算法和应用上做针对性设计,高效处理人工智能应用中日渐多样繁杂的计算任务
8、.人工管傕技术进步及应用场景多元化,全球及中国A1芯片市场得到进一步发展.据TraCtiCa数据,全球A1芯片市场规模愤计由2018年的51亿美元增长至2025年的726亿美元,对应CAGR达461姆.据前I1产业研究院数据,中国A1芯片市场规模预计由2019年的122亿元增长至2024年的785亿元,对应CAGR达45当前主流的A1芯片主要包括图形处理器(GPU).现场可编程其中,GPU.FPGA均是前期较为成熟的芯片架构,属于通用型芯计算机的运算和控制核心.是信息处理、程序运行的终执行鼻GPU在训练负载中具有绝对优势.据IDC数据,1H21中国A1芯,GpU通用型较强、适合大规模并行运算,
9、设计和制造工艺成熟,表:不同技术架构A1芯片比较M力优点GPU不可a迨合大爱及并nu11;iftHKMa2M.IHt造健力,FPGA串定制化.中I1riIiIMi11夏送配后於紫梅盍应鼻之送代.平场性髭就离IUJMtttt.开发时间3.产价高,ASC金建94化地以一*ft过翼您化实反IfiiItWfc&H,率均慢很号;6Mt1M卜;产后成本1.前厢检入威拿ISHa证券M济皆交所整理工小:.三.:;行;一二公司名聊产品型安路科技PHIA系PH1A18OSF第光同创1ogos-2/PG2120安N1H按、紫光公司名尊产船量号GoogteIPUv4平头含光8VMtg370M1U370-X8华为海时界
10、篇910M1HG009te.零头A1芯片包括GPU、FPGA.AS1C等,不同芯片定制化才FPGA(Fie1dProgrammab1eGateArray,现场可i程门阵列)是一种硬件可重构的集成电路芯片,通过编程定义单元配置和链接架构进行计算。FPGA具有较强的计算能力、较低的试错成本、足够的灵活性以及可编程能力,在5G通信、人工智能等具有较频繁的迭代升级周期、较大的技术不确定性的领域,是较为理想的解决方案。ASIC(App1icationSpecificIntegratedCircuit,专用集成电路)是一种根据产品的需求进行特定设计和制造的集成电路,能够更有针对性地进行硬件层次的优化。由于
11、ASIC能够在特定功能上进行强化.因此具有更高的处理速度和更低的能耗.相比于其他A1芯片,ASIC设计和制造需要大的资金、较长的研发周期和工程周期,在深度学习算法仍在快速发展的背景下存在一旦定制则难以修改的风险GPU(GraphicsProcessingUnit,图形处理器)能等并行计算的性能优势满足深度学习需求.GPU最初承担图像计算任务,目标是提升计算机对图形、图像、视频等数据的处理性能,解决CPU在图形图像领域处理效率低的问题。由于GPU能够进行并行计算,其架构本身较为适合深度学习算法因此,通过对GPU的优化,能够进一步满足深度学习大计算的需求。典型GPU架构以及GPU与CPU的异同典型
12、GW架构包括:X一个GPU由多个PrOCoSsOrCIuster组成1一个PrOCeSSOrC1USter由多个Streaff11ngI1UItiProCeSSorS组成,一个StfiMIiUItiProce”OrS里面可能包含多个COr.StreamingHuItiproctor.中一定数的COre共享一IStI存.多个StreXHneMUItSroCstors共享二级康存CPU(Cntr1ProoinUnit,中央处理)是计算机系疑的运算和控制核心,是信息处理,程序运行的券执行单元.CPU的结构主要包括运J1春(A1U.Arithmeticand1ogicUn.t)、控制单元(CU,Con
13、tro1Unit)、寄存器(Rg.str).高速爆存器(Cache)和之间通讯的数据.控制及状态的总线.相FJ点:CpU和GPU都是运算的处理,在架构组成上都包括3个部分:运鼻单元1U控制单元COnte1和短存单元SChe,不同点:CpU为抵凝时设计,擅长处理逻复杂、串行的计算任务CPU需要很强的通用性来处理各裨不同的数据类型,同时又要遂一刘新又会引入大的分支或转和中券的处理.因此CpU内部结构复杂,搐长逻1控制和通用类型数据运算.6川为高吞吐设计,为大费根敷售并行计算任务量身定做,GPU面对的则是类5?高度统一的、相互无依籁的大JS模畋第和相对纯净的计算环境,GPU采用数众多的计算单元和超长
14、流水域,擅长大规模并发运算.S:CPU蓦础架构示意图图:GPU基础架构示意图DRAMDRAM用料聚h暑件访CWA女仲.38信徒舞用字研交所餐普语料*J1英体i&CUDA文档.国信R畀姓济M究所“可8读正文之后的免费声解及其项下所有内容A1大语言模型对于GPU算力需求测算(以GPT-3为例 AI大语言模型的原理、演进及算力测算 训练阶段:考虑采用精度为32位的单精度浮点数数据进行训练和推理。以A1oOPCIe芯片为例(H1OOPC1e芯片同理),GPT-3训练所需运算次数为:样本Sken数3000亿个*6*参数1750亿个二315*1(21F1OPs;考虑训练时间要求在30天完成(训练时间为2592000秒),则对应GPTTW练所需算力为121528TF1oPS;结合A1oO有效算力78TF1OPS,得到所需GPU数为1558个.对应AIJB务器为195台0 推理阶段:按谷歌每日搜索35亿次进行假设,估算得到GPT-3每日需推理token数为79330亿个,则推理所需运算次数为4760*1(21F10Ps;考虑推理时间以每日为单位(推理时间为86400秒),则对应GPT-3推理所需算力为55*1(6TF10PS;结合A1oO有效算力78TF1OPS,得到所需GPU敷为706315个.对应A1服务器为8.8万台。 根据上述结论,GPT-3新增GPU价值达到