2023年计算机专题研究报告(1).docx

上传人:lao****ou 文档编号:218982 上传时间:2023-06-04 格式:DOCX 页数:12 大小:275.43KB
下载 相关 举报
2023年计算机专题研究报告(1).docx_第1页
第1页 / 共12页
2023年计算机专题研究报告(1).docx_第2页
第2页 / 共12页
2023年计算机专题研究报告(1).docx_第3页
第3页 / 共12页
2023年计算机专题研究报告(1).docx_第4页
第4页 / 共12页
2023年计算机专题研究报告(1).docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023年计算机专题研究报告(1).docx》由会员分享,可在线阅读,更多相关《2023年计算机专题研究报告(1).docx(12页珍藏版)》请在第一文库网上搜索。

1、正文目录ChatGPT:三个阶段打造智能对话交互式A1模型3GPT1阶段:开启生成式预训练模型时代4GPT-1:在TranSfOrmer架构基础上,引入微调训练4GPT-2阶段:无监督训练替代有监督训练5GPT-2:取消微调,用更大参数和数据集进行ZerO-ShOt学习5OpenAI:得到微软注资,关注技术滥用问题6GPT-3阶段:性能不断突破,开启商业探索7GPT-3:模型参数达1750亿,few-shot进一步提高性能7对外提供GPT-3API,开启商业模式探索8CodeX:基于GPT-3的代码生成工具9InstructGPT:人类反馈强化学习技术加持下的“最强”GPT-310ChatGP

2、T阶段:各大互式网厂商争相推出类似产品12ChatGPT:以对话方式交互的进化版InstructGPT12ChatGPTP1us:商业模式二次探索13微软继续加注OpenAI,推出基于ChatGPT的新版Bing13各大互联网厂商均表示将推出类ChatGPT产品14风险提示14ChatGPT:三个阶段打造智能对话交互式A1模型ChatGPT从诞生到现在,经历了三个大版本阶段的演进。1) GPT-1阶段:2018年6月,OPenA1发表论文Improving1anguageUnderstandingbyGenerativePre-TrainingX标志着GPT-I的诞生。论文首次提出生成式预训练

3、概念,基于TranSfOrmer架构的解码器搭建训练模型。训练过程包括预训练和微调两个阶段,模型参数量为1.17亿。2) GPT-2阶段:2019年2月,论文1anguageMode1sareUnsupervisedMu1titask1earners发布,GPT-2诞生。GPT-2取消了GPT-I中的有监督微调阶段,将其变成了无监督的模型,采用更大的参数和多任务(mu1titask)学习进行预训练,提高了模型面对未知任务时的推理能力(Zeroshot零次学习)。GPT-2训练参数量为15亿。3) GPT-3阶段:2023年5月,OpenAI发表论文1anguageMode1sareFew-Sh

4、ot1earners,提出GPT-3模型。GPT-2模型中的ZerO-ShOt在某些任务上性能不及预期,因此OPenA1在GPT6中提出了few-shot少量(Io-Ioo个)样本学习,提高了模型的表现性能。在模型参数量上,从GPT-2的15亿提升到1750亿。2023年8月,OPenA1推出基于GPT-3的通用编程模型Codex,可以将自然语言转换翻译、解释和重构为代码。2023年3月,OPenAI将基于人类反馈的强化学习(R1HF)技术引入GPT-3,通过奖励(reward)机制进一步训练模型,提高模型性能和准确度,InStrI1CtGPT诞生。InStrUCtGPT训练参数量仅13亿,与

5、GPT-3的1750亿相比大大减少,能给出更符合人类思维的榆出结果。ChatGPT阶段:2023年11月,OPenA1正式推出了对话交互式的ChatGPT。本质上,ChatGPT和InStr11CtionGPT为同代产品,只是在InstructGPT的基础上增加了聊天功能,同时向公众开放使用,产生更多有效标注数据。ChatGPT上线5天便突破100万用户,目前,微软已整合ChatGPT推出新版浏览器EDGE和搜索引擎Bingo谷歌也发布了对标产品Bardo此外,国内厂商如百度、京东、阿里等也宣布进军ChatGPT行业)OPenA1资料来源:OpenAI*H,arxiv论文、华泰研究我们将对GP

6、T的每个发展阶段进行详细复盘和模型拆解,对技术和理念进行溯源。GPT-1阶段:开启生成式预训练模型时代GPT-1:在TranSfOrmer架构基础上,引入微调训练GPT-1仅保留了TranSfOrmer架构的解码器部分。从架构上看,GPT-1基于TranSfOrmer架构,但是仅保留了架构中的解码器部分。其中,解码器共有12层(Iayer),整个模型相比TrarISfOrmer更加简单,训练速度更快,GPT-1更擅长自然语言处理生成类任务。图衰2:GPT-1的架构资料来源:Improving1anguageUnderstandingbyGenerativePre-Training、华泰研究GP

7、T-1的训练过程包括颈训练和撤调两个阶段。1)第一阶段:采用多层TranSformer模型的解码器(Deeoder)为语言模型,进行基于大文本语料库的高容量无监督学习。2)第二阶段:在做下游任务时,当输入的问题具有结构化特征,例如有序的句子对或文档、问题和答案的三元组,首先将不同类的问题转换为不同的输入脂式,再针对不同任务采用不同数据集进行微调训练。GPT-1训练的参数量为1.17亿,预训练阶段采用BooksCorpus数据集,该数据集包括7000多本来自风格不同的未出版书籍,内含长段的连续文本,微调阶段则根据不同任务类型选择数据集。训练结果上看,GPT-1在常识推理、问题回答、文本蕴涵等任务

8、上分别比对比方法进步了8.9%、5.7%和1.5%。图豪3:GPT-1架构以及用于微调不同任务的幡入科换模块Entai1mentC1assification分矣任*依理任分Simi1arity相fcttt任务TransformerTranSformer1inearTransformerMu1tip1eChoice说料来i4:ImProVing1anguageUnderstandingbyGenerativePre-Training.半泰研究GPT-2阶段:无监督训练替代有监督训练GPT-2:取消微调,用更大参数和数据集进行ZerO-ShOt学习GPT-2用更大的训练集尝试ZerOshot学习。

9、有监督的N1P模型(如GPT-1)能取得不错的效果,原因在于其针对单个特定任务使用大量有标注数据进行训练,当任务目标分布发生变化时期可能会失效,即模型的泛化能力不够强。GPT-2希望通过海量数据和庞大的模型参数训练出更为通用的模型,无需经过特定的数据集训练也能解决各类问题,即zero-shot1earning(零次学习),提高模型的泛化能力。为了达到这一目的,GPT-2采用了涵盖800万网页、40GB大小的数据集WebTeXt进行预训练,并将模型参数量最大提升到15亿,模型层数从GPT-1的12提升为48o图泉4:ZerO-ShOt学习示意图资料来源:CSDN.华泰研究GPT2在架构上与GPT

10、1基本保持相同,在处理下游问题时取消了微调。架构上,GPT-2的结构类似于GPT-I模型,仍然使用单向的TranSfOrmer模型,只做了局部修改:将归一化层移到输入位置,在最后一个自注意力块之后加了一层归一化等。训练步骤上,预训练阶段与GPT-I方法基本相同,使用了更大参数的TranSfOrmer,以及覆盖范围广、质量更高的数据集WebText,采用多任务学习,保证训练出的模型有更好的通用性。在具体处理下游任务时,GPT2放弃任何训练和微调,尝试ZerO-shot学习。在这种情况下,为了使模型能识别任务的具体目标,GPT-2使用一种新的输入形态,增加PromPt文本提示。例如,翻译训练示例可

11、以写成序列(翻译成法语、英语文本、法语文本),阅读理解训练示例可以写成(回答问题、文档、问题、答案)。在WebTeXt数据集下,随着GPT-2模型参数规模的扩大,其Zero-ShOt学习能力更强,且优于部分已有模型。S图皋6:GPT-2与GPT-1架构对比文本侦测文本分美文本预测文本分具GPT2架构带他梗自注意力层资料来源:1anguageMode1sareUnsupervisedMu1titask1eamers.华泰研究GPT-2在多个下游任务中表现出色.例如,在8种语言模型任务中,仅通过ZerO-shot学习,GPT-2在7种任务中超过了最优水平;在儿童图书测试的命名实体识别任务中,超过最

12、优水平7%;在文本长期依赖性建模能力测试数据集1AMBADA上,GPT-2将困惑度从99.8降到了8.6;在阅读理解任务中,GPT-2超过了3个基线模型;在法译英任务中,GPT-2在zero-shot学习的基础上,超过了大多数的无监督方法,略逊于有监督的方法;在文本总结任务中的效果接近有监督的模型。OpenAI:得到微软注资,关注技术滥用问题微软向OPenA1投资10亿美元,并提供独家云支持2019年7月,微软向OPenAI投资10亿美元,帮助OpenAI构建人工通用智能(AGI)。此外,微软作为OpenAI的独家云提供商,与OpenAI合作开发MicrosoftAzure中的软硬件平台并考虑

13、将工犷展到AGI,以及共同开发新的AZUreA1超级计算技术。OpenAI出于对技术滥用问题的考虑,分阶段发布GPT-2完整版。OpenAI出于对技术滥用问题的考虑,在GPT-2诞生后并未发布完整版的训练模型。2019年2月,OPenA1发布了124M参数的小型GPT2模型,5月发布355M参数的中型GPT2模型,8月发布7.74亿参数的GPT-2模型。直到2019年11月,作为GPT-2分阶段发布的最终模型版本,C)PenA1发布了15亿参数GPT-2,以及代码和模型权重。在此过程中,OPerIA1还使用各种任务的人类反馈对774M参数GPT-2语言模型进行了微调,提高了模型在部分任务上的表

14、现。GPT3阶段:性能不断突破,开启商业探索GPT-3:模型参数达1750亿,few-shot进一步提高性能Few-shotzero-shot,训练效果得到进一步加强。GPT-2模型中,在下游训练时采用ZerO-ShOt理念,在执行各类子任务时不给任何样例,属于较为极端的情况。虽然在GPT-2在某些测试中取得了不错的效果,但在一些任务上结果不达预期。因此,OPer1A1引入了few-shot,即对于特定任务仅给予少量的样例(Io-IoO个),和GPT-2一样不做微调处理,仅通过与模型的文本交互来指定任务和few-shoto从多种训练基准训练结果看,few-ShC)t能够取得比zero-shot更好的准确度结果。图表7:Zero-shotone-shot和few-shotSi着模型,数增加准度越来越高注:图中为多种训练基准熔合的结果资料来源:1anguageMode1sareFew-Shot1earners、华泰研究GPT3架构基本不变,最大训练参数达1750亿。GPT-2模型已经脸证,在大参数和大数据集预训练模型后,即使采用zero-shot也能取得较好的训练效果。因此,GPT-3延续这一思想,采用了8

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服