《2023年计算机专题研究报告.docx》由会员分享,可在线阅读,更多相关《2023年计算机专题研究报告.docx(19页珍藏版)》请在第一文库网上搜索。
1、正文目录GPT发展之2021:参数量维埃加大,应用于代码生成领域3GPT发展之2023:模型参数提升到1750亿4GPT-3:模型参数达1750亿,few-shot进一步提高性能4模型特点:大参数量+大训练集+few-shot4特点一:架构基本不变,参数量大大增加4特点二:采用few-shot学习完成下游任务6特点三:预训练数据集达570GB以上7论文结论:FeW-ShOt在多种N1P数据集上实现了较好性能8GPT发展之2023:代码生成领域的应用一Codex9Codex:基于GPT3的代码生成工具9模型对比:gpt-2vsT-N1gze1ectranT-N1G:问世时最大规模的自然语言生成模
2、型11MT-N1G:与NVID1A合作推出5300亿参数模型12对比:(M)T-N1G相比GPT-3更注重利用软硬件上的优势14E1ECTRA:注重提高预训练效率的“小而美”模型15对比:E1EeTRA相比GPT-3更注重小规模、更有效的预训练17总结:2023-2023年是GPT发展的关键阶段17风险提示18GPT发展之2021:参数量继续加大,应用于代码生成领域20-21年,GPT-3模型参数量达到1750亿,并在代码生成领域成功应用。2019年问世的GPT-2,证明了更大的训练参数量和数据集能获得很好的训练结果,明确了GPT发展的大容量路线,并开始尝试泛化能力更强的ZerO-Shot学习
3、(零次学习)。在此基础上,2023年5月,OPenA1发表论文1anguageMode1sareFew-Shot1earners推出GPT-3,将模型参数量提高到1750亿,达到GPT系列模型的最大规模,训练数据集大小超570GB,此外,将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2023年,基于GPT-3,OPenA1推出通用代码生成模型CodeX。微软与谷歌也分别提出了自然语言处理模型T-N1G和E1ECTRAeT-N1G与GPT-2同样采用TranSformer解码器架构,其最大特点在于训练参数远高于同时期的其他模型,得益于微软在软件和算力资源
4、上的优势。E1ECTRA最大特点在于不再追求大规模的参数,转而通过提高预训练效率来训练“小而美”的模型。阳豪1:2017-2023年主要自然语言模型梳理OpenAIOpenAIODeepMndQDeecMndTransformer%*JK2023.10110亿:3.9亿20232018.62019.22023.22023.52019.62019.72023.32019.92019.102023.62018.1TranstormerM5S.*S2019.1益T52019.10BART2019.10B1gB1rd2023.7201720182023.4钦OpenAI2023.8OpenAIBnsf
5、ormer解码居模/名卷GPT-3T-N1G/MT-N1GE1ECTRA模型祭构弊马葬DeCOder弊马EDeeOderEEncoderM*15亿170fc5300-fc*14M,最大175M桢心取舍比GPT2更大的看量,建大的调KtJM1Mfew-Shot充分利用便代*NVIDIA的长及件采用诙林再期发型的更大办象量反其道而行.itit*W1%大大第小模型M雄救货料来源:各公司官网、各横曳论文、华泰研究GPT发展之2023:模型参数提升到1750亿GPT-3:模型参数达1750亿,fewshot进一步提高性能GPT3将训练参数量扩大到1750亿。2023年5月,OPenA1发表论文1angu
6、ageMode1sareFew-Shot1earnersX提出GPT-3模型。GPT-3模型的参数量达1750亿,是GPT史上最大的参数规模。在GPT-2的ZerO-ShOt1earning(零次学习)基础上,GPT-3在ZerO-Shot、One-Shot(一次学习)和few-shot(少量学习,通常I(MOo次)方面均进行了评估,取得了较好的训练结果:例如,GPT3在ZerOonefew-shot设置下CoQA(测试阅读理解能力)分别达到81.5、84.0、85.0FI(F1分数是统计学中用来衡量二分类模型精确度的一种指标,值越大意味着模型越好);在在zero/one/few-shot设置
7、下TriviaQA(测试闭卷问答能力)分别达到64.3%、68.0%、71.2%的准确度,部分结果甚至超过微调模型。OPenA1指出,GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延埃了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新南度。同时与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,见原了训练效果与成本。S论文标志GPT-3问世1anguageMode1sarcFew-Shot1camcrsGmc*aKnartCVTMNHca1uammSandMoiABMw.AMHerbCrMCMKmn
8、cbMMM“RnIMnMM.ZMkrJHTrryHHwmWMrrr1apteerIfnwMmra%Uhhx!.MvinScGra;BIMmm,1mrtorrIkvwrrRJMifBiDyaSMt*kr*r*aiOpenAI2023年5月论文1anguageMode1sareFew-Shot1earners标志着GPT3模型问世,采用few-shot学习,模型参数达到前所未有的1750亿资料来源:1anguageMode1sareFew-Shot1earners、华泰研竞模型特点:大参数量十大训练集+few-shot特点一:架构基本不变,参数量大大增加GPT-3延接了GPT-2的大容量发展路线。
9、GPT-2已经证明,通过更多的训练数据+更大的网络参数能够让模型具备Zero-shot学习能力,并取得了一定的效果,由此确立了GPT模型向更大容量演进的发展路线。GPT-3延续了这一路线,将模型参数由GPT-2的15亿增加到1750亿,提升幅度超100倍。图表3:GPT模型演进珞径一GPT31750亿参数量大于570GB预训练敖据量15亿多数量40GB预训练:48董GPT-31.17亿参数量5GB预训练数据量GPT-1GPT-2GPT3模型慕于GPT2的大容量路线,进一步将模型,数扩大趣IOO倍,达1750亿,大容量扩展的技术发展跳径达到蹊*GPT-3共有8种不同参数大小的模型,“GPT-3”
10、粉指规模1750亿的模型。OPenA1共搭建了8种GPT-3模型,主要区别在于参数规模和架构层数。参数规模从小到大分为125M350M、760M、1.3B、2.7B、6.7B、13.0B和175.0B。通常“GPT-3”专指参数量为175.0B,即1750亿的模型。不同模型架构上的区别包括模型层数niayer、每层中的单元数dmnniaversdmodeineaddheadBatchSize1earningRateGPT-3Sma11125MGPT-3Medium35OMGPT-31arge760MGPT-3X11.3BGPT-32.7B2.7BGPT-36.7B6.7BGPT-313B13.
11、0BGPT-3175BOr“GPT-3”175.OB244422061222334968)2436)486()9640288761OI52(M254O5I1222664220611123349646496!28()1212120.5M6.010,0.5M3.0IOT0.5M2.5IoTIM2.0104IM1.610-12M1.210-12M1.0IOT3.2M0.6IOTTab1e2.1:Sizes,architectures,and1earninghyper-parameters(batchsizeintokensand1earningrate)ofthemode1swhichwetrain
12、ed.A11mode1sweretrainedforatota1of300bi11iontokens.资料枭源:1anguageMode1sareFew-Shot1earners华泰研究大训练参数能明显提高GPT3模型准确性。从上下文学习能力训练结果准确率来看,对于GPT-3模型,当模型参数量较低时,模型准确率较低,例如参数量1.3B的模型准确率不超过10%。当模型参数提升10倍至13B时,最高准确率接近30%。当模型参数达到最大175B时,准确率最高接近70%,进一步脸证了GPT-2大容量路线的正确性。S5:大调练步数显著提高GPT-3准碗率F1ure121*rfvrBMMici*krIfM
13、TCMiMfhcfttrimtimcnfB*enMte1IaftwmafiMi.Wc*h(m-McncxtICenMagperformanceonJMmpk5krequiringtrmode1ICFemnVerjndnhwnawntd.tw*tJedWICi1cm*fuurs1tankk*crtNt*;ThrwpstkerninguwfixUrenm1IkiNutftrvrmtrmConyXnM1M!cmtuDon.Weweqm1uch,nM*fbehavioracm*at4crwfeUf1a*k*资料来源:1anguageMode1sareFew-Shot1earners、华泰研究GPT-3
14、和GPT2采用几乎同样的架构。GPT-3和GPT-2模型和架构基本相同,包括修改后的初始化、预归一化和可逆标记化,唯一区别在于将transformer中注意力模式替换成了类似SParSeTranSformer的稀疏注意力模式。图袅6:GPT-3乘用和GPT-2向样的架构2.1 Mode1and/KrchitecturesWeUSeIheSamemode1andarchitectureasGPT-2RWC*19,inc1udingthemodifiedinitia1ization,pre-norma1ization,andreversib1etokeniza1iondescribedtherein,withtheexceptionthatWeusea1ternatingdenseand1oca11ybandedsparseattentionpatternsinthe1ayersofthetransformer,simi