2023年计算机专题研究报告.docx

上传人:lao****ou 文档编号:218987 上传时间:2023-06-04 格式:DOCX 页数:17 大小:254.62KB
下载 相关 举报
2023年计算机专题研究报告.docx_第1页
第1页 / 共17页
2023年计算机专题研究报告.docx_第2页
第2页 / 共17页
2023年计算机专题研究报告.docx_第3页
第3页 / 共17页
2023年计算机专题研究报告.docx_第4页
第4页 / 共17页
2023年计算机专题研究报告.docx_第5页
第5页 / 共17页
亲,该文档总共17页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023年计算机专题研究报告.docx》由会员分享,可在线阅读,更多相关《2023年计算机专题研究报告.docx(17页珍藏版)》请在第一文库网上搜索。

1、正文目录GPT发展之2021:参数量维埃加大,应用于代码生成领域3GPT发展之2023:模型参数提升到1750亿4GPT-3:模型参数达1750亿,few-shot进一步提高性能4模型特点:大参数量+大训练集+few-shot4特点一:架构基本不变,参数量大大增加4特点二:采用few-shot学习完成下游任务6特点三:预训练数据集达570GB以上7论文结论:FeW-ShOt在多种N1P数据集上实现了较好性能8GPT发展之2023:代码生成领域的应用一Codex9Codex:基于GPT3的代码生成工具9模型对比:gpt-2vsT-N1gze1ectranT-N1G:问世时最大规模的自然语言生成模

2、型11MT-N1G:与NVID1A合作推出5300亿参数模型12对比:(M)T-N1G相比GPT-3更注重利用软硬件上的优势14E1ECTRA:注重提高预训练效率的“小而美”模型15对比:E1EeTRA相比GPT-3更注重小规模、更有效的预训练17总结:2023-2023年是GPT发展的关键阶段17风险提示18GPT发展之2021:参数量继续加大,应用于代码生成领域20-21年,GPT-3模型参数量达到1750亿,并在代码生成领域成功应用。2019年问世的GPT-2,证明了更大的训练参数量和数据集能获得很好的训练结果,明确了GPT发展的大容量路线,并开始尝试泛化能力更强的ZerO-Shot学习

3、(零次学习)。在此基础上,2023年5月,OPenA1发表论文1anguageMode1sareFew-Shot1earners推出GPT-3,将模型参数量提高到1750亿,达到GPT系列模型的最大规模,训练数据集大小超570GB,此外,将GPT-2采用的zero-shot更换为few-shot,进一步提高了模型的训练效果。2023年,基于GPT-3,OPenA1推出通用代码生成模型CodeX。微软与谷歌也分别提出了自然语言处理模型T-N1G和E1ECTRAeT-N1G与GPT-2同样采用TranSformer解码器架构,其最大特点在于训练参数远高于同时期的其他模型,得益于微软在软件和算力资源

4、上的优势。E1ECTRA最大特点在于不再追求大规模的参数,转而通过提高预训练效率来训练“小而美”的模型。模/名卷GPT-3T-N1G/MT-N1GE1ECTRA模型祭构弊马葬DeCOder弊马EDeeOderEEncoderM*15亿170fc5300-fc*14M,最大175M桢心取舍比GPT2更大的看量,建大的调KtJM1Mfew-Shot充分利用便代*NVIDIA的长及件采用诙林再期发型的更大办象量反其道而行.itit*W1%大大第小模型M雄救货料来源:各公司官网、各横曳论文、华泰研究GPT发展之2023:模型参数提升到1750亿GPT-3:模型参数达1750亿,fewshot进一步提高

5、性能GPT3将训练参数量扩大到1750亿。2023年5月,OPenA1发表论文1anguageMode1sareFew-Shot1earnersX提出GPT-3模型。GPT-3模型的参数量达1750亿,是GPT史上最大的参数规模。在GPT-2的ZerO-ShOt1earning(零次学习)基础上,GPT-3在ZerO-Shot、One-Shot(一次学习)和few-shot(少量学习,通常I(MOo次)方面均进行了评估,取得了较好的训练结果:例如,GPT3在ZerOonefew-shot设置下CoQA(测试阅读理解能力)分别达到81.5、84.0、85.0FI(F1分数是统计学中用来衡量二分类

6、模型精确度的一种指标,值越大意味着模型越好);在在zero/one/few-shot设置下TriviaQA(测试闭卷问答能力)分别达到64.3%、68.0%、71.2%的准确度,部分结果甚至超过微调模型。OPenA1指出,GPT-3也可以在传统的微调设置中进行评估。GPT-3模型延埃了GPT-2模型“更多训练数据+更大的网络参数可以有效地提升模型的泛化能力”的理念,将模型参数提升到新南度。同时与GPT-2一样舍弃了针对不同任务进行的微调,转而用few-shot来实现下游任务,见原了训练效果与成本。S论文标志GPT-3问世1anguageMode1sarcFew-Shot1camcrsGmc*a

7、KnartCVTMNHca1uammSandMoiABMw.AMHerbCrMCMKmncbMMM“RnIMnMM.ZMkrJHTrryHHwmWMrrr1apteerIfnwMmra%Uhhx!.MvinScGra;BIMmm,1mrtorrIkvwrrRJMifBiDyaSMt*kr*r*aiOpenAI2023年5月论文1anguageMode1sareFew-Shot1earners标志着GPT3模型问世,采用few-shot学习,模型参数达到前所未有的1750亿资料来源:1anguageMode1sareFew-Shot1earners、华泰研竞模型特点:大参数量十大训练集+few-

8、shot特点一:架构基本不变,参数量大大增加GPT-3延接了GPT-2的大容量发展路线。GPT-2已经证明,通过更多的训练数据+更大的网络参数能够让模型具备Zero-shot学习能力,并取得了一定的效果,由此确立了GPT模型向更大容量演进的发展路线。GPT-3延续了这一路线,将模型参数由GPT-2的15亿增加到1750亿,提升幅度超100倍。图表3:GPT模型演进珞径一GPT31750亿参数量大于570GB预训练敖据量15亿多数量40GB预训练:48董GPT-31.17亿参数量5GB预训练数据量GPT-1GPT-2GPT3模型慕于GPT2的大容量路线,进一步将模型,数扩大趣IOO倍,达1750

9、亿,大容量扩展的技术发展跳径达到蹊*GPT-3共有8种不同参数大小的模型,“GPT-3”粉指规模1750亿的模型。OPenA1共搭建了8种GPT-3模型,主要区别在于参数规模和架构层数。参数规模从小到大分为125M350M、760M、1.3B、2.7B、6.7B、13.0B和175.0B。通常“GPT-3”专指参数量为175.0B,即1750亿的模型。不同模型架构上的区别包括模型层数niayer、每层中的单元数dmnniaversdmodeineaddheadBatchSize1earningRateGPT-3Sma11125MGPT-3Medium35OMGPT-31arge760MGPT-

10、3X11.3BGPT-32.7B2.7BGPT-36.7B6.7BGPT-313B13.0BGPT-3175BOr“GPT-3”175.OB244422061222334968)2436)486()9640288761OI52(M254O5I1222664220611123349646496!28()1212120.5M6.010,0.5M3.0IOT0.5M2.5IoTIM2.0104IM1.610-12M1.210-12M1.0IOT3.2M0.6IOTTab1e2.1:Sizes,architectures,and1earninghyper-parameters(batchsizeint

11、okensand1earningrate)ofthemode1swhichwetrained.A11mode1sweretrainedforatota1of300bi11iontokens.资料枭源:1anguageMode1sareFew-Shot1earners华泰研究大训练参数能明显提高GPT3模型准确性。从上下文学习能力训练结果准确率来看,对于GPT-3模型,当模型参数量较低时,模型准确率较低,例如参数量1.3B的模型准确率不超过10%。当模型参数提升10倍至13B时,最高准确率接近30%。当模型参数达到最大175B时,准确率最高接近70%,进一步脸证了GPT-2大容量路线的正确性。S

12、5:大调练步数显著提高GPT-3准碗率F1ure121*rfvrBMMici*krIfMTCMiMfhcfttrimtimcnfB*enMte1IaftwmafiMi.Wc*h(m-McncxtICenMagperformanceonJMmpk5krequiringtrmode1ICFemnVerjndnhwnawntd.tw*tJedWICi1cm*fuurs1tankk*crtNt*;ThrwpstkerninguwfixUrenm1IkiNutftrvrmtrmConyXnM1M!cmtuDon.Weweqm1uch,nM*fbehavioracm*at4crwfeUf1a*k*资料来源

13、:1anguageMode1sareFew-Shot1earners、华泰研究GPT-3和GPT2采用几乎同样的架构。GPT-3和GPT-2模型和架构基本相同,包括修改后的初始化、预归一化和可逆标记化,唯一区别在于将transformer中注意力模式替换成了类似SParSeTranSformer的稀疏注意力模式。图袅6:GPT-3乘用和GPT-2向样的架构2.1 Mode1and/KrchitecturesWeUSeIheSamemode1andarchitectureasGPT-2RWC*19,inc1udingthemodifiedinitia1ization,pre-norma1izat

14、ion,andreversib1etokeniza1iondescribedtherein,withtheexceptionthatWeusea1ternatingdenseand1oca11ybandedsparseattentionpatternsinthe1ayersofthetransformer,simi1artoIheSDarSeTranSfCrmerICGRS19.Tbstudythedependence资料来通:1anguageMode1sareFew-Shot1earners、华泰研究将点二:采用few-shot学习完成下游任务Fewshot取代Zero-shot,训练效果得到进一步加强。GPT-2模型中,在下游训练时采用ZerO-ShOt学习理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在GPT-2在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OPenA1引入了few-shot,即对于特定任务仅给予少量的样例(Io-IOo个),没有任何梯度更新或微调,任务和fewshot示例均通过与模型的文本交互指定。从多种训练

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服