2023年计算机专题研究报告.docx

资源描述

《2023年计算机专题研究报告.docx》由会员分享，可在线阅读，更多相关《2023年计算机专题研究报告.docx（19页珍藏版）》请在第一文库网上搜索。

1、正文目录GPT发展之2021:参数量维埃加大，应用于代码生成领域3GPT发展之2023:模型参数提升到1750亿4GPT-3：模型参数达1750亿，few-shot进一步提高性能4模型特点：大参数量+大训练集+few-shot4特点一：架构基本不变，参数量大大增加4特点二：采用few-shot学习完成下游任务6特点三：预训练数据集达570GB以上7论文结论：FeW-ShOt在多种N1P数据集上实现了较好性能8GPT发展之2023:代码生成领域的应用一Codex9Codex：基于GPT3的代码生成工具9模型对比：gpt-2vsT-N1gze1ectranT-N1G:问世时最大规模的自然语言生成模

2、型11MT-N1G:与NVID1A合作推出5300亿参数模型12对比：（M）T-N1G相比GPT-3更注重利用软硬件上的优势14E1ECTRA：注重提高预训练效率的“小而美”模型15对比：E1EeTRA相比GPT-3更注重小规模、更有效的预训练17总结：2023-2023年是GPT发展的关键阶段17风险提示18GPT发展之2021:参数量继续加大，应用于代码生成领域20-21年，GPT-3模型参数量达到1750亿，并在代码生成领域成功应用。2019年问世的GPT-2,证明了更大的训练参数量和数据集能获得很好的训练结果，明确了GPT发展的大容量路线，并开始尝试泛化能力更强的ZerO-Shot学习

3、（零次学习）。在此基础上，2023年5月，OPenA1发表论文1anguageMode1sareFew-Shot1earners推出GPT-3,将模型参数量提高到1750亿，达到GPT系列模型的最大规模，训练数据集大小超570GB,此外，将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2023年，基于GPT-3,OPenA1推出通用代码生成模型CodeX。微软与谷歌也分别提出了自然语言处理模型T-N1G和E1ECTRAeT-N1G与GPT-2同样采用TranSformer解码器架构，其最大特点在于训练参数远高于同时期的其他模型，得益于微软在软件和算力资源

4、上的优势。E1ECTRA最大特点在于不再追求大规模的参数，转而通过提高预训练效率来训练“小而美”的模型。阳豪1:2017-2023年主要自然语言模型梳理OpenAIOpenAIODeepMndQDeecMndTransformer%*JK2023.10110亿：3.9亿20232018.62019.22023.22023.52019.62019.72023.32019.92019.102023.62018.1TranstormerM5S.*S2019.1益T52019.10BART2019.10B1gB1rd2023.7201720182023.4钦OpenAI2023.8OpenAIBnsf

5、ormer解码居模/名卷GPT-3T-N1G/MT-N1GE1ECTRA模型祭构弊马葬DeCOder弊马EDeeOderEEncoderM*15亿170fc5300-fc*14M,最大175M桢心取舍比GPT2更大的看量，建大的调KtJM1Mfew-Shot充分利用便代*NVIDIA的长及件采用诙林再期发型的更大办象量反其道而行.itit*W1%大大第小模型M雄救货料来源：各公司官网、各横曳论文、华泰研究GPT发展之2023:模型参数提升到1750亿GPT-3:模型参数达1750亿，fewshot进一步提高性能GPT3将训练参数量扩大到1750亿。2023年5月，OPenA1发表论文1angu

6、ageMode1sareFew-Shot1earnersX提出GPT-3模型。GPT-3模型的参数量达1750亿，是GPT史上最大的参数规模。在GPT-2的ZerO-ShOt1earning（零次学习）基础上,GPT-3在ZerO-Shot、One-Shot（一次学习）和few-shot（少量学习，通常I（MOo次）方面均进行了评估，取得了较好的训练结果：例如，GPT3在ZerOonefew-shot设置下CoQA（测试阅读理解能力）分别达到81.5、84.0、85.0FI（F1分数是统计学中用来衡量二分类模型精确度的一种指标，值越大意味着模型越好）；在在zero/one/few-shot设置

7、下TriviaQA（测试闭卷问答能力）分别达到64.3%、68.0%、71.2%的准确度，部分结果甚至超过微调模型。OPenA1指出，GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延埃了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念，将模型参数提升到新南度。同时与GPT-2一样舍弃了针对不同任务进行的微调，转而用few-shot来实现下游任务，见原了训练效果与成本。S论文标志GPT-3问世1anguageMode1sarcFew-Shot1camcrsGmc*aKnartCVTMNHca1uammSandMoiABMw.AMHerbCrMCMKmn

8、cbMMM“RnIMnMM.ZMkrJHTrryHHwmWMrrr1apteerIfnwMmra%Uhhx!.MvinScGra;BIMmm,1mrtorrIkvwrrRJMifBiDyaSMt*kr*r*aiOpenAI2023年5月论文1anguageMode1sareFew-Shot1earners标志着GPT3模型问世，采用few-shot学习，模型参数达到前所未有的1750亿资料来源：1anguageMode1sareFew-Shot1earners、华泰研竞模型特点：大参数量十大训练集+few-shot特点一：架构基本不变，参数量大大增加GPT-3延接了GPT-2的大容量发展路线。

9、GPT-2已经证明，通过更多的训练数据+更大的网络参数能够让模型具备Zero-shot学习能力，并取得了一定的效果，由此确立了GPT模型向更大容量演进的发展路线。GPT-3延续了这一路线，将模型参数由GPT-2的15亿增加到1750亿，提升幅度超100倍。图表3:GPT模型演进珞径一GPT31750亿参数量大于570GB预训练敖据量15亿多数量40GB预训练:48董GPT-31.17亿参数量5GB预训练数据量GPT-1GPT-2GPT3模型慕于GPT2的大容量路线，进一步将模型，数扩大趣IOO倍，达1750亿，大容量扩展的技术发展跳径达到蹊*GPT-3共有8种不同参数大小的模型，“GPT-3”

10、粉指规模1750亿的模型。OPenA1共搭建了8种GPT-3模型，主要区别在于参数规模和架构层数。参数规模从小到大分为125M350M、760M、1.3B、2.7B、6.7B、13.0B和175.0B。通常“GPT-3”专指参数量为175.0B,即1750亿的模型。不同模型架构上的区别包括模型层数niayer、每层中的单元数dmnniaversdmodeineaddheadBatchSize1earningRateGPT-3Sma11125MGPT-3Medium35OMGPT-31arge760MGPT-3X11.3BGPT-32.7B2.7BGPT-36.7B6.7BGPT-313B13.

11、0BGPT-3175BOr“GPT-3”175.OB244422061222334968)2436)486()9640288761OI52(M254O5I1222664220611123349646496!28()1212120.5M6.010,0.5M3.0IOT0.5M2.5IoTIM2.0104IM1.610-12M1.210-12M1.0IOT3.2M0.6IOTTab1e2.1:Sizes,architectures,and1earninghyper-parameters(batchsizeintokensand1earningrate)ofthemode1swhichwetrain

12、ed.A11mode1sweretrainedforatota1of300bi11iontokens.资料枭源：1anguageMode1sareFew-Shot1earners华泰研究大训练参数能明显提高GPT3模型准确性。从上下文学习能力训练结果准确率来看，对于GPT-3模型，当模型参数量较低时，模型准确率较低，例如参数量1.3B的模型准确率不超过10%。当模型参数提升10倍至13B时，最高准确率接近30%。当模型参数达到最大175B时，准确率最高接近70%,进一步脸证了GPT-2大容量路线的正确性。S5:大调练步数显著提高GPT-3准碗率F1ure121*rfvrBMMici*krIfM

13、TCMiMfhcfttrimtimcnfB*enMte1IaftwmafiMi.Wc*h(m-McncxtICenMagperformanceonJMmpk5krequiringtrmode1ICFemnVerjndnhwnawntd.tw*tJedWICi1cm*fuurs1tankk*crtNt*;ThrwpstkerninguwfixUrenm1IkiNutftrvrmtrmConyXnM1M!cmtuDon.Weweqm1uch,nM*fbehavioracm*at4crwfeUf1a*k*资料来源：1anguageMode1sareFew-Shot1earners、华泰研究GPT-3

14、和GPT2采用几乎同样的架构。GPT-3和GPT-2模型和架构基本相同，包括修改后的初始化、预归一化和可逆标记化，唯一区别在于将transformer中注意力模式替换成了类似SParSeTranSformer的稀疏注意力模式。图袅6:GPT-3乘用和GPT-2向样的架构2.1 Mode1and/KrchitecturesWeUSeIheSamemode1andarchitectureasGPT-2RWC*19,inc1udingthemodifiedinitia1ization,pre-norma1ization,andreversib1etokeniza1iondescribedtherein,withtheexceptionthatWeusea1ternatingdenseand1oca11ybandedsparseattentionpatternsinthe1ayersofthetransformer,simi

展开阅读全文